Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/26805
Autoria: | Caldeira, Francisco Miguel Silva |
Orientação: | Nunes, Luís Miguel Martins Ribeiro, Ricardo Daniel Santos Faro Marques |
Data: | 2-Dez-2022 |
Título próprio: | Automatic classification of complaints from public administration |
Referência bibliográfica: | Caldeira, F. M. S. (2022). Automatic classification of complaints from public administration [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/26805 |
Palavras-chave: | Text classification Natural language processing Machine learning BERT Classificação de texto Processamento de linguagem natural |
Resumo: | Complaint management is a problem faced by many organizations that is both vital
to customer satisfaction and retention, while being highly dependent on human resources.
This work attempts to tackle a part of the problem, by classifying summaries of complaints
using machine learning models in order to better redirect these to the appropriate
responders. To solve the aforementioned problem text mining, and more specifically natural
language processing, were used alongside machine learning algorithms for automatic
classification. The main challenge of this task is related with the diverse set of characteristics
real world datasets have, in this case being small and highly imbalanced. This
can have a big impact on the performance of the classification models. The dataset analyzed
in this work suffers from both of these problems, being relatively small and having
labels in different proportions the three most common labels account for around 95% the
dataset. In this work, two different techniques are analyzed: multistage classification with
for classifying the more common labels first and the remaining on a second step; and, generating
new artificial examples for some classes via translation into other languages. The
classification models explored were the following: k-NN, SVM, Naïve Bayes, boosting,
and Deep Learning approaches, including transformers. Although, in general using summaries
leads to better results, we also experimented with the full documents. Using the
models trained with the summarized documents the classification of the full documents.
Even though the results were not on par with the summarized dataset the experimented
presented good results for signaling the most common label of the documents. We conclude
that although, as expected, the classes with little representation are hard to classify,
the techniques explored helped to boost the performance, especially in the classes with
a low number of elements. SVM and Transformer-based models outperformed their peers. A classificação de texto é uma área de estudo em aberto, dependendo do problema dos dados disponíveis e estudo em questão, o melhor método nem sempre é mesmo. Dentro da área da inteligência artificial No caso das empresas a classificação de queixas (como neste trabalho) ou mesmo de incidentes é uma tarefa que ainda requer muito trabalho manual. Neste trabalho vai ser abordada a classificação automática de queixas recebidas por uma instituição pública. No processo de tratamento das queixas a classificação é parte do grande panorama e a sua automatização permite acelerar muito os processos manuais que são actualmente usados. Neste contexto, foram trabalhados os sumários das queixas e as técnicas usadas para aplicar modelos de classificação automática. O conjunto de dados é consideravelmente pequeno e apresenta um grande desequilíbrio na distribuição das classes, sendo que as três maiores têm perto de 95% dos dados. Para colmatar este problema foram analisadas duas abordagens: classificação em duas etapas e aumento do conjunto de treino com base em traduções dos sumários. Neste contexto foram usados alguns modelos de classificação como k-NN, SVM, Naïve Bayes, boosting e BERT. Usando modelos treinados com os sumários foi também realizada uma experiência de classificação dos textos completos das queixas. Apesar dos resultados serem piores do que os obtidos usando o dados resumidos, estes apresentam alguma taxa de sucesso, especialmente para classificação da classe mais frequente. Com base neste trabalho foi possível concluir que a classificação das classes com menos representação é um desafio, mas através de técnicas de aumento do conjunto de treino é possível melhorar substancialmente o resultado obtido. Também utilizar uma estratégia de classificação multietapa permite melhorar os resultados obtidos. Os melhores modelos para a classificação foram SVM e BERT. |
Designação do Departamento: | Departamento de Ciências e Tecnologias da Informação |
Designação do grau: | Mestrado em Engenharia Informática |
Arbitragem científica: | yes |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_francisco_silva_caldeira.pdf | 2,13 MB | Adobe PDF | Ver/Abrir |
Este registo está protegido por Licença Creative Commons