Skip navigation
User training | Reference and search service

Library catalog

EDS
b-on
More
resources
Content aggregators
Please use this identifier to cite or link to this item:

acessibilidade

http://hdl.handle.net/10071/22121
acessibilidade
Title: Classificação de emoções em redes sociais
Authors: Filipe, Soraia Alexandra Cardoso
Orientador: Batista, Fernando Manuel Marques
Ribeiro, Ricardo Daniel Santos Faro Marques
Keywords: Twitter
Língua portuguesa
Deteção de emoções
Léxicos de emoções
Aprendizagem automática
Regressão logística
Portuguese language
Emotion detection
Emotion lexicon
Machine learning
Logistic regression
Issue Date: 8-Jan-2021
Citation: FILIPE, Soraia Alexandra Cardoso - Classificação de emoções em redes sociais [Em linha]. Lisboa: Iscte, 2020. Dissertação de mestrado. [Consult. Dia Mês Ano] Disponível em www:<http://hdl.handle.net/10071/22121>.
Abstract: Este trabalho foca-se na deteção automática de emoções em tweets escritos em língua portuguesa. Com o objetivo de classificar cada um dos tweets com presença ou ausência de cada uma de oito possíveis emoções, são utilizadas duas abordagens. Com vista a avaliar as abordagens propostas, foi criado um conjunto de 1000 tweets, manualmente anotado com a presença ou não das emoções consideradas. Na primeira abordagem, é aplicado um léxico existente e diferentes estratégias para refinar e melhorá-lo, por meio de tradução automática e incorporação de palavras alinhadas com as existentes. Os resultados sugerem que se pode obter um melhor desempenho tanto através da melhoria de um léxico, como pela tradução direta de tweets portugueses para inglês e depois aplicando um léxico inglês existente. Relativamente à abordagem supervisionada, pretende-se criar modelos que generalizem melhor, com base em grandes quantidades de informação. Inicialmente é feita a anotação dos tweets disponíveis com base no léxico de emoções. Seguidamente, os primeiros 5 milhões de tweets são usados para treinar um modelo para cada uma das emoções. Esses modelos são então utilizados para anotar 9 milhões de tweets, que por sua vez são filtrados com base na confiança do modelo. Os tweets com uma confiança acima de um dado threshold são usados para treinar modelos finais. Todos os modelos são avaliados com base nos dados de referência, revelando que o segundo modelo mostra em geral um maior sucesso na previsão de emoções do que o primeiro modelo. Esta abordagem apresenta melhores resultados face à primeira.
This work focuses on the automatic detection of emotions in tweets written in Portuguese. In order to classify each one of the tweets with the presence or absence of each one of eight possible emotions, two approaches are used: the first is based on a emotion lexicon; the second is supervised and is based on logistic regression models. In order to evaluate the two proposed approaches, a set of 1000 tweets was created, manually annotated with the presence or absence of each of the emotions. Regarding the first approach, an existing and widely used lexicon is applied, as well as different strategies to refine and improve it, by means of machine translation and incorporating additional words. The results obtained suggest that a better performance can be achieved both by improving a lexicon and by directly translating Portuguese tweets into English and then applying an existing English lexicon. Regarding the supervised approach, it was intended to create models that generalize better, based on large amounts of information. Initially the available tweets are annotated based on the emotion lexicon. Then, the first 5 million tweets are used to train a model for each of the emotions. These models are then used to annotate another 9 million tweets, which in turn were filtered based on the model’s confidence. Tweets with a confidence above a given threshold are used to train final models. All models were evaluated based on the reference data, revealing that the first model generally shows greater success in predicting emotions. This approach presents better results than the previous one.
Peer reviewed: yes
URI: http://hdl.handle.net/10071/22121
Thesis identifier: 202628043
Designation: Mestrado em Engenharia Informática
Appears in Collections:T&D-DM - Dissertações de mestrado

Files in This Item:
acessibilidade
File Description SizeFormat 
Master_Soraia_Cardoso_Filipe.pdf911.41 kBAdobe PDFView/Open    Request a copy


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote Currículo DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.