Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/27335
Autoria: | Chinita, Luís Henrique Broncas |
Orientação: | Ribeiro, Ricardo Daniel Santos Faro Marques Nunes, Luís Miguel Martins |
Data: | 28-Dez-2022 |
Título próprio: | Text mining aplicado à gestão de fundos públicos |
Referência bibliográfica: | Chinita, L. H. B. (2022). Text mining aplicado à gestão de fundos públicos [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/27335 |
Palavras-chave: | Fundos públicos Text mining Extração de variáveis Análise de dados -- Data analysis Classificação de texto Public funds Variable extraction Text classification |
Resumo: | Este trabalho tem como objetivo analisar documentos textuais submetidos por empresas
portuguesas no momento de candidatura a programas de incentivos empresariais públicos. Com
esta análise pretende-se extrair e selecionar variáveis relevantes, presentes nos textos, que
possuam poder preditivo em relação a futuras ações das empresas candidatas aceites, no
decorrer dos projetos. O objetivo concreto é a predição da anulação de projetos com fundos
atribuídos, durante a sua duração prevista. Para realizar esta análise foi necessário criar uma
cadeia de classificação de texto na qual são aplicadas variadas técnicas de processamento da
língua natural, extração e seleção de variáveis, seleção e utilização de classificadores, e métricas
de avaliação dos resultados. Foram utilizadas técnicas de referência de extração de variáveis
como a extração de valores TF e TF-IDF e foram igualmente levadas a cabo experiências de
extração de variáveis baseadas em geração de tópicos, análise de similaridade textual, análise
de diversidade lexical, exploração de vocabulário específico, entre outros tipos de análise do
conteúdo textual. A exploração de variáveis criadas a partir destas experiências mostra-nos
características escondidas nos dados, como por exemplo, o facto de se verificar uma maior
incidência de projetos com elevados níveis de similaridade em certos distritos do país. O
principal objetivo foi alcançar o melhor desempenho possível nas métricas obtidas através da
matriz de confusão (taxa de acerto; precisão; cobertura; F1-Score) na predição da anulação de
projetos. Os melhores resultados da predição de anulação foram obtidos por um conjunto de
variáveis provenientes de diversos métodos de extração e utilizando o algoritmo Classificador
Naïve Bayes: 79% de taxa de acerto; 77% de precisão; 71% de cobertura; 74% de F1-Score.
Neste trabalho é assim demonstrado o proveito da mistura de variáveis provenientes de
diferentes métodos de extração de variáveis. This work aims to analyze the textual documents presented by Portuguese companies when applying for business incentive programs. This work intends to extract and select relevant features, present in the texts, which have predictive power in relation to future actions of the companies whose projects were accepted, during the projects. The concrete goal is the prediction of the cancellation of the projects with allocated funds, during their expected duration. It was necessary to create a text classification pipeline which applies natural language processing, various features extraction and selection techniques, classification algorithms and evaluation metrics. Many feature extraction techniques were used, such as classical techniques as TF and TF-IDF values generation, as also other experiments as topic generation, similarity analysis, lexical analysis, identification of specific vocabulary used, among other analysis of textual content that were also carried out. The feature analysis can show us hidden characteristics in the data, such as the fact that there is a preponderance of projects with high levels of similarity in certain districts of the country. The main objective, regarding the perdition of cancellation of the projects, was achieving the best possible performance, for that there were used the confusion matrix metrics (accuracy; precision; revocation; F1-Score). The best prediction results were obtained by a set of features from different extraction methods together with the use of the Naïve Bayes Classifier algorithm: 79% accuracy; 77% precision; 71% recall; 74% F1-Score. Therefore, it is shown the advantages of mixing features from different extraction methods on this text classification application. |
Designação do Departamento: | Departamento de Métodos Quantitativos para Gestão e Economia |
Designação do grau: | Mestrado em Ciência de Dados |
Arbitragem científica: | yes |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_luis_broncas_chinita.pdf | 2,01 MB | Adobe PDF | Ver/Abrir |
Este registo está protegido por Licença Creative Commons