Please use this identifier to cite or link to this item:
http://hdl.handle.net/10071/26655
Author(s): | Mathias, Marcelo Custódio |
Advisor: | Batista, Fernando Manuel Marques Ribeiro, Ricardo Daniel Santos Faro Marques |
Date: | 5-Dec-2022 |
Title: | Humor and offense speech classification and scoring using natural language processing |
Reference: | Mathias, M. C. (2022). Humor and offense speech classification and scoring using natural language processing [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/26655 |
Keywords: | Humor detection NLP BERT for humor Controversiality detection Offensiveness detection Detecção de humor PNL BERT Detecção controvérsia Detecção ofensa |
Abstract: | Identifying humor and offense may prove to be an arduous task even for humans. It is,
however, even more challenging to translate it into a logical process that a machine can
understand.
This work pretends to develop machine learning models which will be implemented to
achieve this task. On this track, this study will be based on the SemEval 2021 workshop,
where the participants were challenged to identify and score both humor and offense texts,
as well as detect controversial sentences (SemEval 2021 - Task 7 - Detecting and Rating
Humor and Offense), encouraging the use of current state-of-the-art algorithmic techniques
in Natural Language Processing.
The objective is to identify and propose the most optimal setup to achieve the highest
performance on Humor Detection and related tasks using a common dataset aggregating
eight thousand sentences classified with their respective binary humor indicator and humor
rating, along with binary controversial indicators and offense rating values.
This document presents a solution for the presented tasks based on BERT (Bidirectional
Encoder Representations from Transformers) which makes use of Transformers interpreting
the sentences in both directions (bidirectional), which brings a much higher context
perception into the model. It will compare the performance of three different BERT variants
(BERTBASE, DistillBERT, and RoBERTa), each of them designed for better fit on different
tasks used by industry and academia. Concluding that DistillBERT presented the
most accurate results in the Humor Detection and Humor Rating tasks, while RoBERTa
performed best in the controversial detection task. Finally, BERTBASE outperformed in the
Offensiveness Ranking task. A identificação do humor e ofensa pode revelar-se uma tarefa árdua mesmo para os humanos. No entanto, é ainda mais desafiante traduzi-lo num processo lógico que uma máquina possa compreender. Este trabalho pretende desenvolver modelos de aprendizagem automática que serão implementados para cumprir esta tarefa. Este estudo será baseado no workshop SemEval 2021, onde os participantes foram desafiados a detectar e classificar sentenças em relação ao humor e ofensividade, bem como detectar frases controversas (SemEval 2021 - Tarefa 7 - Detecção e Classificação de Humor e Ofensa), encorajando a utilização de estratégias algorítmicas de última geração focadas no processamento computacional da língua. O objectivo é identificar e propor a melhor configuração para alcançar o melhor desempenho na Detecção de Humor e tarefas relacionadas, utilizando um conjunto de dados comum que agrega oito mil sentenças classificadas com os respectivos identificadores binário de humor e classificação, juntamente com os identificadores binários de controversas e classificação de ofensas. Este documento apresenta uma solução para as tarefas apresentadas baseada no BERT (Bidirectional Encoder Representations from Transformers) que faz uso de Transformers, uma arquitetura de rede neuronais que permite interpretar as sentenças em ambos os sentidos (bidireccional), o que traz uma melhor percepção de contexto quando comparada com outras arquiteturas. Este estudo compara o desempenho de três variantes de BERT (BERTBASE, DistillBERT, and RoBERTa), cada uma delas concebida para se adaptar melhor às diferentes tarefas utilizadas pela indústria e pelo meio académico. Concluiu-se que DistillBERT apresentou o melhor desempenho nas tarefas de Detecção de Humor e Classificação de Humor, enquanto RoBERTa foi mais preciso na tarefa de detecção de frases controversas. Finalmente, BERTBASE obteve a melhor performance na tarefa de Classificação de Ofensividade. |
Department: | Departamento de Métodos Quantitativos para Gestão e Economia Departamento de Ciências e Tecnologias da Informação |
Degree: | Mestrado em Ciência de Dados |
Peerreviewed: | yes |
Access type: | Open Access |
Appears in Collections: | T&D-DM - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
master_marcelo_custodio_mathias.pdf | 975,8 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.