Towards cyberbullying detection on social media

Almeida, Tiago Filipe Pardal de

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/23811

Autoria:	Almeida, Tiago Filipe Pardal de
Orientação:	Ribeiro, Ricardo Daniel Santos Faro Marques Batista, Fernando Manuel Marques
Data:	5-Nov-2021
Título próprio:	Towards cyberbullying detection on social media
Referência bibliográfica:	Almeida, T. F. P. de (2021). Towards cyberbullying detection on social media [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório do Iscte. http://hdl.handle.net/10071/23811
Palavras-chave:	Redes sociais Linguagem ofensiva Representação de palavras Engenharia de características Aprendizagem profunda Media sociais -- Social media Ofensive language Word representation Feature engineering Deep learning
Resumo:	O contínuo aparecimento do cyberbullying nas redes sociais constitui um problema mundial que tem aumentado consideravelmente nos últimos anos, e exige medidas urgentes para a deteção automática de tal fenómeno. O objetivo deste trabalho é criar um modelo suficientemente capaz de detetar automaticamente textos ofensivos. Para tal, foram utilizados três conjuntos de dados públicos, bem como duas abordagens principais para resolver este problema: uma baseada em métodos clássicos de aprendizagem automática e a outra baseada em aprendizagem profunda. Na abordagem clássica de aprendizagem automática foi proposta uma fase específica de pré-processamento e engenharia de características com várias etapas. Para além disso, foram exploradas duas abordagens de representação de documentos para gerar as entradas utilizadas pelos classificadores SVM, Logistic Regression e Random Forest. Uma vez que estes conjuntos de dados são desequilibrados, SMOTEENN e Threshold-Moving foram utilizados para lidar com o problema de classificação desbalanceada. Na abordagem de aprendizagem profunda foram exploradas diferentes arquiteturas, combinando vetores de palavras pré-treinados com CNN, CNN-Attention, BiLSTM e BiLSTM-Attention. A configuração experimental envolveu o tratamento de palavras desconhecidas, Cyclical Learning Rate para proporcionar uma melhor convergência, Macro Soft-F1 Loss para otimizar o desempenho e Macro Soft-F2 Loss para lidar com o problema de classificação desbalanceada. Foi também proposto um modelo RoBERTa-base, pré-treinado em 58 milhões de tweets e afinado para identificação de linguagem ofensiva. Os resultados experimentais mostram que, embora seja uma tarefa difícil, ambas asabordagens propostas são adequadas para detetar textos ofensivos. No entanto, a abordagem de aprendizagem profunda alcança os melhores resultados. The continuous appearance of cyberbullying on social media constitutes a worldwide problem that has seen a considerable increase in recent years, and demands urgent measures to automatically detecting such phenomenon. The goal of this work is to create a model suficiently capable of automatically detecting ofensive texts. For this purpose, three public datasets were used, as well as two main approaches to solve this problem: one based on classical Machine Learning methods and the other based on Deep Learning. In the classical Machine Learning approach was proposed a specific pre-processing and Feature Engineering stage with several steps. In addition, two document representation approaches were also explored to generate the inputs used by SVM, Logistic Regression, and Random Forest classifiers. Since these datasets are imbalanced, SMOTEENN and Threshold-Moving were used to deal with the imbalanced classification problem. In the Deep Learning approach diferent architectures were explored, combining pretrained word vectors with CNN, CNN-Attention, BiLSTM and BiLSTM-Attention. The experimental setup involved treatment of unknown words, Cyclical Learning Rate to provide better convergence, Macro Soft-F1 Loss function to optimize performance and Macro Soft-F2 Loss function to deal with the imbalanced classification problem. RoBERTa-base model was also proposed, pre-trained on 58 million tweets and fine-tuned for ofensivelanguage identification. Experimental results show that, although it is a dificult task, both proposed approaches are suitable for detecting ofensive texts. Nevertheless, the Deep Learning approach achieves the best results.
Designação do grau:	Mestrado em Engenharia Informática
Arbitragem científica:	yes
Acesso:	Acesso Aberto
Aparece nas coleções:	T&D-DM - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
master_tiago_pardal_almeida.pdf		9,24 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo Visualizar estatísticas