Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/34085
Registo completo
Campo DCValorIdioma
dc.contributor.advisorBatista, Fernando Manuel Marques-
dc.contributor.advisorRibeiro, Ricardo Daniel Santos Faro Marques-
dc.contributor.authorRamos, Gil Antunes Silva Nogueira-
dc.date.accessioned2025-04-02T14:38:52Z-
dc.date.available2025-04-02T14:38:52Z-
dc.date.issued2024-12-16-
dc.date.submitted2024-10-
dc.identifier.citationRamos, G. A. S. N. (2024). Automatic hate speech detection in portuguese social media [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/34085por
dc.identifier.urihttp://hdl.handle.net/10071/34085-
dc.description.abstractThe rapid rise of social media has brought about new ways of digital communication, along with a worrying increase in online hate speech (HS). This escalation has prompted researchers to develop various Natural Language Processing techniques for HS detection. Despite the progress made, there is a notable lack of research focused on the European Portuguese language, which is typical for many under-resourced languages. To fill this gap, we investigate the effectiveness of several transfer learning models that prior studies have indicated to outperform traditional Deep Learning approaches in this context. We utilize BERT-like models, including BERTimbau and mDeBERTa, pre-trained on Portuguese text, along with generative models such as GPT, Gemini, and Mistral, to identify HS in Portuguese online discourse. Our research is based on two annotated datasets comprised of YouTube comments and Twitter posts, both manually labelled as HS or non-HS. The results indicate that a retrained variant of BERTimbau, fine-tuned for the HS detection task using European Portuguese tweets, achieved the highest performance for the YouTube dataset, with an F-score of 87.1% for the positive class, showing an 1.8% improvement over the original BERTimbau. For the Twitter dataset, GPT-3.5 emerged as the top model, achieving an F-score of 50.2% for the positive class, with models having a far worse performance compared to when applied to the YouTube dataset. Additionally, we evaluate the effects of utilizing in-domain versus mixed-domain training sets and the role that contextual information in generative model prompts has on their overall performance, concluding that mixed-domain data has the potential to improve results, provided its quality is ensured, and that contextual information has a discernable impact in both general and covert HS.por
dc.description.abstractO rápido crescimento das redes sociais introduziu novas formas de comunicação digital, mas também contribuiu para um aumento preocupante do discurso de ódio online (DOO). Este fenómeno incentivou a investigação de métodos de processamento de linguagem natural para a deteção de discurso de ódio. Apesar dos avanços desta área, existe uma lacuna notável na investigação focada na variante europeia do português. Assim, investigou-se a eficácia de vários modelos de transfer learning, que estudos prévios demonstram ter neste contexto um desempenho superior em relação a abordagens tradicionais de aprendizagem profunda. Foram utilizados modelos do tipo BERT, como o BERTimbau e o mDeBERTa, pré-treinados em texto português, juntamente com modelos generativos como o GPT, o Gemini e o Mistral, para a deteção de DOO em conversações online no espaço português. Esta investigação recorreu a dois conjuntos de dados, anotados manualmente, compostos por comentários do YouTube e tweets do Twitter, ambos classificados como DOO ou não-DOO. Os resultados indicaram que uma variante do BERTimbau, re-treinada especificamente para deteção de DOO em tweets em português europeu, foi o modelo com melhor desempenho no conjunto de dados do YouTube. Este modelo obteve um F-score de 87,1% para a classe positiva, o que representa uma melhoria de 1,8% em relação ao BERTimbau original. No conjunto de dados do Twitter, o modelo GPT-3.5 foi o que apresentou melhor desempenho, com um F-score de 50,2% para a classe positiva, embora com resultados inferiores comparativamente ao conjunto de dados do YouTube. Adicionalmente, foram avaliados os efeitos do uso de conjuntos de treino in-domain versus mixed-domain, bem como o impacto da informação contextual nas prompts dos modelos generativos. Concluiu-se que os dados mixed-domain podem melhorar os resultados, desde que seja assegurada a sua qualidade, e que a informação contextual tem um impacto positivo tanto no DOO geral como no DOO indireto.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.subjectDiscurso de ódio -- Hate speechpor
dc.subjectTransfer learningpor
dc.subjectTransformer modelspor
dc.subjectGenerative modelspor
dc.subjectText classificationpor
dc.subjectModelos transformerpor
dc.subjectModelos generativospor
dc.subjectClassificação de textopor
dc.titleAutomatic hate speech detection in portuguese social mediapor
dc.title.alternativeDeteção automática de discurso de ódio nas redes sociais portuguesaspor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid203786092por
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
thesis.degree.nameMestrado em Ciência de Dadospor
iscte.subject.odsIgualdade de géneropor
iscte.subject.odsIndústria, inovação e infraestruturaspor
iscte.subject.odsReduzir as desigualdadespor
thesis.degree.departmentDepartamento de Métodos Quantitativos para Gestão e Economiapor
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informaçãopor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_gil_nogueira_ramos.pdf2,35 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.