Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/27003
Registo completo
Campo DCValorIdioma
dc.contributor.advisorBatista, Fernando Manuel Marques-
dc.contributor.advisorRibeiro, Ricardo Daniel Santos Faro Marques-
dc.contributor.authorRosa, Érica Sofia Palmeirim Santos-
dc.date.accessioned2023-01-05T10:02:01Z-
dc.date.issued2022-12-02-
dc.date.submitted2022-10-
dc.identifier.citationRosa, É. S. P. S. (2022). What are people talking about in your region? Applying a topic modeling approach to Portuguese geolocated tweets [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/27003por
dc.identifier.urihttp://hdl.handle.net/10071/27003-
dc.description.abstractThe main objective of this thesis is to identify the topics that the Portuguese spoke about on the social network Twitter, during the first 6 months of 2021, in each region of the country. As a data source, we were able to obtain, through the Twitter API, a database of around 1 million tweets, written throughout this period, across the country. Having the data available, it was possible, through the creation of a dictionary of words, to assign to each locality of the country mentioned in the database, a region of NUTS level 2, in order to attribute to each Tweet only one region among 5 regions: Alentejo, Algarve, Centre, Lisbon or North Region. Next, we analyzed the most used topic modeling models at the moment and, in particular, which ones have shown better performance when applied to short texts. After this bibliographic analysis, we chose to apply to our database, and evaluate the performance, of the LDA- Latent Dirichlet Allocation and MM - Multinomial Mixture Model models. By measuring the coherence in both models, we achieved more satisfactory results in the application of the MM model, selecting this model to apply to our database. With the topics already defined and assigned to each tweet, an analysis was carried out by region and time period, of the topics most mentioned by the Portuguese. We were able to conclude that the most talked about topics in Portugal, considering the sample collected on the social network Twitter, are: politics, religion and faith, football players and food and cuisine. Finally, we then analyzed topics by region and by day, among our conclusions, was that the topic of food and cuisine stands out in the Algarve and in the North, and that the topic of elections gains predominance, in general in the country, between the end of January and the middle of February.por
dc.description.abstractEsta tese tem como principal objetivo identificar os tópicos acerca dos quais os portugueses falaram na rede social Twitter, durante os primeiros 6 meses de 2021, em cada região do país. Como fonte de dados, foi-nos possível obter, através da API do Twitter, uma base de dados de cerca de 1 milhão de tweets, escritos ao longo deste período, em todo o país. Tendo os dados disponíveis, foi nos possível, através da criação de um dicionário de palavras, atribuir a cada localidade do país mencionada na base de dados, uma região de NUTS nível 2, de forma a atribuirmos a cada Tweet apenas uma região por entre 5 regiões: Alentejo, Algarve, Centro, Lisboa ou Região Norte. De seguida, fomos analisar os modelos de modelagem de tópicos mais utilizados no momento atual e, em particular, quais os que têm demonstrado melhor performance quando aplicados a textos curtos, como acontece quando falamos de tweets. Após esta análise bibliográfica, optámos por aplicar à nossa base de dados, e avaliar a performace, dos modelos LDA- Latent Dirichlet Allocation e MM - Multinomial Mixture Model. Através da medição da coherência em ambos os modelos, conseguimos resultados mais satisfatórios na aplicação do modelo MM, selecionando então este modelo para aplicar à nossa base de dados. Com os tópicos já definidos e atribuídos a cada tweet, foi realizada uma análise por região e diária, dos tópicos mais referidos pelos portugueses. Conseguimos concluir que os temas mais falados em Portugal, considerando a amostra recolhida na rede social Twitter, são: a política, a religião e a fé, os jogadores de futebol e a comida e a cozinha. Por fim, fizémos então a análise de tópicos por região e por dia, por entre as nossas conclusões, concluímos que o tópico da comida e da cozinha se destacam no Algarve e no Norte, e que o tópico das eleições ganha predominância, no geral do país, entre o final do mês de Janeiro e meados do mês de Fevereiro.por
dc.language.isoengpor
dc.rightsrestrictedAccesspor
dc.subjectTopic modelingpor
dc.subjectShort text clusteringpor
dc.subjectDirichlet multinomial mixturepor
dc.subjectLatent Dirichlet allocationpor
dc.subjectMovie group processpor
dc.subjectNaive Bayes classifierpor
dc.subjectTwitter in Portugalpor
dc.subjectTweets geolocationpor
dc.subjectModelagem de tópicospor
dc.subjectAgrupamento de texto curtopor
dc.subjectMistura multinomial de Dirichletpor
dc.subjectAlocação de Dirichlet latentepor
dc.subjectProcesso de grupo de filmespor
dc.subjectClassificador Naive Bayespor
dc.subjectTwitter em Portugalpor
dc.subjectGeolocalização de tweetspor
dc.titleWhat are people talking about in your region? Applying a topic modeling approach to Portuguese geolocated tweetspor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid203134559por
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
thesis.degree.nameMestrado em Ciência de Dadospor
dc.date.embargo2025-12-01-
thesis.degree.departmentDepartamento de Métodos Quantitativos para Gestão e Economiapor
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informação-
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_erica_santos_rosa.pdf
  Restricted Access
4,95 MBAdobe PDFVer/Abrir Request a copy


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.