Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/34372
Registo completo
Campo DCValorIdioma
dc.contributor.advisorMarques, Catarina-
dc.contributor.advisorGuerra, Rita-
dc.contributor.authorSarroeira, Rodrigo Carvalheda Duarte da Fonseca-
dc.date.accessioned2025-05-08T15:58:14Z-
dc.date.available2025-05-08T15:58:14Z-
dc.date.issued2024-11-20-
dc.date.submitted2024-09-
dc.identifier.citationSarroeira, R. C. D. da F. (2024). A full hate speech detection pipeline: Leveraging ML, DL, and GPTs [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/34372por
dc.identifier.urihttp://hdl.handle.net/10071/34372-
dc.description.abstractThe proliferation of technology and social media has led to an alarming increase in the incidence and variety of hate speech, creating a need for more effective detection and mitigation strategies. In this work we develop a comprehensive hate speech detection pipeline applicable to various use-cases. A combination of traditional machine learning and state-of-the-art deep learning models are employed to classify social media posts as either hateful or non-hateful. The ML training process involved multiple model combinations and word vectorization techniques, followed by rigorous fine-tuning with Optuna. The best performing machine learning model was LightGBM encoded with TF-IDF of size 10 000, achieving an accuracy of 0.816. Advanced BERT-based approaches were explored, yielding superior results, with RoBERTa reaching an accuracy of 0.8392. A significant contribution of this work is the incorporation of explainability, often overlooked in hate speech detection, particularly with black-box models. Our proposed pipeline leverages the advances in generative pre-trained transformers along with prompt engineering to add a layer of explainability to the classification process. GPT models were fine-tuned for detecting the rational behind the classification decision, effectively highlighting the hate content within the text. The best performing GPT fine-tuned model was GPT-4o Mini with an accuracy of 0.959 and a F1-Score of 0.961. A web-based application using Django and React was developed, compiling the best models trained in during the study. Providing users with a user-friendly graphical interface to interact with the proposed pipeline, making the detection process more accessible and efficient.por
dc.description.abstractA proliferação da tecnologia e redes sociais levou a um aumento na incidência e variedade de discurso de ódio, criando a necessidade de estrat´egias mais eficazes para a sua detecção e mitigação. Neste trabalho, é desenvolvido um "pipeline" de deteção de discurso de ódio aplicável a diversos casos. Modelos tradicionais de "machine learning" e modelos avançados de "deep learning" são utilizados para classificar publicações em redes sociais como contendo ódio ou não. O processo de treino de machine learning envolve o treino de várias combinações de modelos e técnicas de vetorização, seguido por um rigoroso "fine-tune" com o Optuna. O melhor modelo de "machine learning" foi o LightGBM, codificado com TFIDF de tamanho 10,000, alcançaando uma accuracy de 0,816. São também exploradas abordagens baseadas no BERT, obtendo melhores resultados, com o modelo RoBERTa a atingir uma accuracy de 0,8392. Este trabalho contribui significativamente para a explicabilidade da classificação, frequentemente esquecida na detecção de discurso de ódio, especialmente com "black-box models". O "pipeline" proposto utiliza "generative pre-trained transformers" (GPT) juntamente com prompt engineering para adicionar explicabilidade ao processo de classificação. Modelos GPT foram ajustados para detectar o racional por trás da decisão de classificação, destacando o conteúdo odioso no texto. O melhor modelo GPT ajustado foi o GPT-4o Mini apresentando uma "accuracy" de 0,959 e um F1-Score de 0,961. Foi desenvolvida uma aplicação "web" utilizando Django e React, compilando os melhores modelos treinados durante o estudo, fornecendo aos utilizadores uma interface gráfica amigável para interagir com o "pipeline" proposto, tornando o processo de detecção mais acessível e eficiente.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectHate speech detectionpor
dc.subjectGPTpor
dc.subjectMachine learning -- Machine learningpor
dc.subjectDeep learningpor
dc.subjectBERTpor
dc.subjectPrompt engineeringpor
dc.subjectDetação de discurso de ódiopor
dc.titleA full hate speech detection pipeline: Leveraging ML, DL, and GPTspor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid203830490por
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
thesis.degree.nameMestrado em Ciência de Dadospor
dc.subject.jelC45por
dc.subject.jelC63por
dc.subject.jel1C Mathematical and quantitative methodspor
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informaçãopor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_rodrigo_fonseca_sarroeira.pdf5,98 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons