Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/22188
Autoria: Felgueiras, Marco Filipe Madeira
Orientação: Batista, Fernando
Data: 26-Out-2020
Título próprio: Multilabel classification of unstructured data using Crunchbase
Referência bibliográfica: Fellgueiras, M. F. M. (2018). Multilabel classification of unstructured data using Crunchbase [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório do Iscte. http://hdl.handle.net/10071/22188
Palavras-chave: Multilabel classification
Text mining
Text classification
Machine learning
Crunchbase
Natural language processing
Classificação multilabel
Mineração de texto
Classificação de texto
Aprendizagem automática
Crunchbase
Processamento de linguagem natural
Resumo: Our work compares different methods and models for multilabel text classification using information collected from Crunchbase, a large database that holds information of more than 600000 companies. Each company is labeled with one more categories, from a subset of 46 possible, and the proposed models predict the categories based solely on the company textual description. A number of natural language processing strategies have been tested for feature extraction, including stemming, lemmatization, and Part-of-Speech Tagging. This is a highly unbalanced dataset, where the frequency of each category ranges from 0.7% to 28%. The first experiment, is a Multiclass classification problem that tries to find the most probable category using only one model for all categories, with an overall score of 67% using SVM, Naive Bayes and Fuzzy Fingerprints. The second experiment uses makes use of multiple classifiers, one for each category, and tries to predict the complete set of categories for each company, with an overal score of 73% precision and 47% recall. The resulting models may constitute an important asset for automatic classification of texts, not only consisting of company descriptions, but also other texts, such as web pages, text blogs, news pages, etc.
Este trabalho compara diferentes métodos e modelos para classificação de texto utilizando informação proveniente do Crunchbase, uma grande base de dados que contém dados sobre mais de 600000 empresas. Cada empresa está associada a uma ou mais categorias, de 46 possiveis, e os modelos propostos utilizam apenas a descrição de cada empresa para prever a sua categoria. Foram aplicadas várias técnicas de processamento de linguagem natural para extração de informação incluindo "stemming", lematização e "Part-of-Speech Tagging". Este "dataset" é altamente desiquilibrado, a frequência de cada categoria vai desde 0.7% a 28%. A primeira experiência, é um problema multiclasse que tenta encontrar qual a categoria mais provável para uma empresa utilizando apenas um modelo para todas as categorias, obtendo um resultado global de 67% de "accuracy" utilizando SVM, Naive Bayes e Fuzzy Fingerprints. A segunda experiência utiliza vários classificadores, um por cada categoria, para atribuir todas as categorias de uma determinada empresa obtendo resultados de 73% de precisão e 47% de "recall". Os modelos resultantes do nosso trabalho podem ser um ativo importante para a classificação automática de texto, não só para descrições de empresas mas também para outros textos, como páginas de Internet, blogs, notícias, entre outros.
Designação do grau: Mestrado em Engenharia Informática
Arbitragem científica: yes
Acesso: Acesso Aberto
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_marco_madeira_figueiras.pdf744,83 kBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.