Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/27003
Autoria: | Rosa, Érica Sofia Palmeirim Santos |
Orientação: | Batista, Fernando Manuel Marques Ribeiro, Ricardo Daniel Santos Faro Marques |
Data: | 2-Dez-2022 |
Título próprio: | What are people talking about in your region? Applying a topic modeling approach to Portuguese geolocated tweets |
Referência bibliográfica: | Rosa, É. S. P. S. (2022). What are people talking about in your region? Applying a topic modeling approach to Portuguese geolocated tweets [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/27003 |
Palavras-chave: | Topic modeling Short text clustering Dirichlet multinomial mixture Latent Dirichlet allocation Movie group process Naive Bayes classifier Twitter in Portugal Tweets geolocation Modelagem de tópicos Agrupamento de texto curto Mistura multinomial de Dirichlet Alocação de Dirichlet latente Processo de grupo de filmes Classificador Naive Bayes Twitter em Portugal Geolocalização de tweets |
Resumo: | The main objective of this thesis is to identify the topics that the Portuguese spoke about on
the social network Twitter, during the first 6 months of 2021, in each region of the country.
As a data source, we were able to obtain, through the Twitter API, a database of around 1
million tweets, written throughout this period, across the country. Having the data available,
it was possible, through the creation of a dictionary of words, to assign to each locality
of the country mentioned in the database, a region of NUTS level 2, in order to attribute to
each Tweet only one region among 5 regions: Alentejo, Algarve, Centre, Lisbon or North
Region. Next, we analyzed the most used topic modeling models at the moment and, in particular,
which ones have shown better performance when applied to short texts. After this
bibliographic analysis, we chose to apply to our database, and evaluate the performance,
of the LDA- Latent Dirichlet Allocation and MM - Multinomial Mixture Model models. By
measuring the coherence in both models, we achieved more satisfactory results in the application
of the MM model, selecting this model to apply to our database. With the topics
already defined and assigned to each tweet, an analysis was carried out by region and time
period, of the topics most mentioned by the Portuguese. We were able to conclude that the
most talked about topics in Portugal, considering the sample collected on the social network
Twitter, are: politics, religion and faith, football players and food and cuisine. Finally,
we then analyzed topics by region and by day, among our conclusions, was that the topic of
food and cuisine stands out in the Algarve and in the North, and that the topic of elections
gains predominance, in general in the country, between the end of January and the middle
of February. Esta tese tem como principal objetivo identificar os tópicos acerca dos quais os portugueses falaram na rede social Twitter, durante os primeiros 6 meses de 2021, em cada região do país. Como fonte de dados, foi-nos possível obter, através da API do Twitter, uma base de dados de cerca de 1 milhão de tweets, escritos ao longo deste período, em todo o país. Tendo os dados disponíveis, foi nos possível, através da criação de um dicionário de palavras, atribuir a cada localidade do país mencionada na base de dados, uma região de NUTS nível 2, de forma a atribuirmos a cada Tweet apenas uma região por entre 5 regiões: Alentejo, Algarve, Centro, Lisboa ou Região Norte. De seguida, fomos analisar os modelos de modelagem de tópicos mais utilizados no momento atual e, em particular, quais os que têm demonstrado melhor performance quando aplicados a textos curtos, como acontece quando falamos de tweets. Após esta análise bibliográfica, optámos por aplicar à nossa base de dados, e avaliar a performace, dos modelos LDA- Latent Dirichlet Allocation e MM - Multinomial Mixture Model. Através da medição da coherência em ambos os modelos, conseguimos resultados mais satisfatórios na aplicação do modelo MM, selecionando então este modelo para aplicar à nossa base de dados. Com os tópicos já definidos e atribuídos a cada tweet, foi realizada uma análise por região e diária, dos tópicos mais referidos pelos portugueses. Conseguimos concluir que os temas mais falados em Portugal, considerando a amostra recolhida na rede social Twitter, são: a política, a religião e a fé, os jogadores de futebol e a comida e a cozinha. Por fim, fizémos então a análise de tópicos por região e por dia, por entre as nossas conclusões, concluímos que o tópico da comida e da cozinha se destacam no Algarve e no Norte, e que o tópico das eleições ganha predominância, no geral do país, entre o final do mês de Janeiro e meados do mês de Fevereiro. |
Designação do Departamento: | Departamento de Métodos Quantitativos para Gestão e Economia Departamento de Ciências e Tecnologias da Informação |
Designação do grau: | Mestrado em Ciência de Dados |
Arbitragem científica: | yes |
Acesso: | Acesso Restrito |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_erica_santos_rosa.pdf Restricted Access | 4,95 MB | Adobe PDF | Ver/Abrir Request a copy |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.