Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/22186
Autoria: Pinto, Afonso do Carmo Marques Mendes
Orientação: Batista, Fernando Manuel Marques
Data: 10-Dez-2020
Título próprio: Deteção de palavras emergentes em tweets portugueses e análise do seu percurso na redes sociais
Referência bibliográfica: Pinto, A. do C. M. M. (2020). Deteção de palavras emergentes em tweets portugueses e análise do seu percurso na redes sociais [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório do Iscte. http://hdl.handle.net/10071/22186
Palavras-chave: Palavras emergentes
Twitter
Vocabulário
Redes sociais
Propagação
Mapeamento da propagação
Emerging words
Vocabulary
Social networks
Linguistic propagation
Vocabulary development
Resumo: Este trabalho aborda o problema da deteção de palavras emergentes numa língua, com base em conteúdos de redes sociais. Propõe uma abordagem para a deteção de novas palavras no Twitter, e relata os resultados alcançados para um dataset com dados geolocalizados recolhidos entre Janeiro de 2018 e Junho de 2019 e publicados em território português com um total de 8 milhões de tweets. Os primeiros seis meses de dados foram utilizados para definir um vocabulário inicial, a partir do qual foram identificadas novas palavras nos 12 meses seguintes. O conjunto de palavras resultante foi analisado manualmente, revelando uma série de eventos distintos e sugerindo que o Twitter pode ser um recurso valioso para pesquisar a dinâmica do vocabulário de uma língua. É proposta uma metodologia para o mapeamento da propagação das palavras anteriormente identificadas como emergentes, onde é localizada a origem da emergência e a propagação das mesmas por Portugal através de diferentes meios sociais e geográficos. Foram identificados padrões para a emergência, sejam eles religiosos, musicais, etc. Com base nos resultados, foi identificada a cidade de Lisboa como a principal região para a emergência das palavras seguida a cidade do Porto, onde também está representada a maioria dos utilizadores do Twitter. Com o objetivo de disponibilizar os resultados alcançados neste trabalho recorreu-se ao desenvolvimento de um "website", onde é possível de uma forma facilitada visualizar as palavras emergentes e a sua representação geográfica, assim como estatísticas relacionadas com as mesmas.
This work tackles the problem of detecting emerging words on a language, based on social networks content. It proposes an approach for detecting new words on Twitter, and reports the achieved results for a collection of 8 million Portuguese tweets. This study uses geolocated tweets, collected between January 2018 and June 2019, and written in the Portuguese territory. The first six months of the data were used to define an initial vocabulary, from which new words were identified on the following 12 months. The set of resulting words were manually analyzed, revealing a number of distinct events, and suggesting that Twitter may be a valuable resource for researching the vocabulary dynamics of a language. A methodology is proposed for mapping the propagation of the previous words identified as emerging, where the source of the emergency is located and the propagation by Portugal through different social and geographical. Were identified patterns for the emergency, be they religious, musical, etc. Based on the results, the city of Lisbon was identified as the main region for the emergence of words and followed by the city of Porto, where the majority of Twitter users are also represented. To make the results achieved in this work accessible, a website was developed, where it is possible to visualize in an easy way the emerging words and their geographical representation, as well as statistics related to them.
Designação do grau: Mestrado em Gestão de Sistemas de Informação
Arbitragem científica: yes
Acesso: Acesso Aberto
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_afonso_mendes_pinto.pdf5,26 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.