Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/37290
Autoria: Nunes, Nicole Lopes
Orientação: Almeida, Ana Maria Carvalho de
Peixoto, Ana Rita Henrique
Data: 11-Dez-2025
Título próprio: Topic modeling applied to Portuguese tiny text
Referência bibliográfica: Nunes, N. L. (2025). Topic modeling applied to Portuguese tiny text [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/37290
Palavras-chave: Topic modeling
Tiny text
Short text
Small dataset
Modelação de tópicos
Texto curto
Conjunto de Dados
Resumo: This study applied topic modeling techniques to data collected from PLANAPP workshops, which aim to bridge the gap between science and public policy. The objective of this research was to extract meaningful topics from tiny, user-generated, mainly Portuguese texts written during these workshops, in post-it notes, and to find which topic modeling technique was most suitable for this type of data. Previous studies indicate that although no work has addressed modeling over very short texts, achieving it appears feasible. Furthermore, embedding-based models have been shown to perform better than classical approaches when dealing with short texts and small datasets. Six distinct datasets, with different preprocessing techniques, were created and tested using two modeling methods, LDA and BERTopic. For BERTopic two sentence-transformers were compared, Multilingual and AlBERTina. To evaluate the topic quality, classical metrics were employed, but did not produce reliable results. The main challenge encountered was the evaluation, as most existing metrics are not designed for tiny text. To address this issue, Singularity Score (SS) is proposed with the primary goal of mimicking the annotators behavior. Through both qualitative and quantitative analyses, it was possible to conclude that BERTopic produced more coherent results, despite the classical method (LDA) achieving higher values in traditional evaluation metrics such as, coherence and perplexity. In conclusion, this study successfully applied topic modeling to tiny Portuguese texts, identified BERTopic as the most suitable technique, and introduced SS as a new way to assess topic quality.
Este estudo aplicou técnicas de modelação de tópicos a dados recolhidos em workshops do Centro de Planeamento e Avaliação de Políticas Públicas (PLANAPP), cujo objetivo era aproximar a ciência das políticas públicas. Esta investigação procurou extrair tópicos significativos de textos muito curtos, escritos em português pelos participantes em post-its e identificar a técnica de modelação mais adequada para este tipo de dados. Embora não existam estudos anteriores que abordem modelação de textos extremamente pequenos, parece viável alcançar esse objetivo. Modelos baseados em embeddings têm demonstrado melhor desempenho do que abordagens clássicas em tarefas que envolvem textos curtos e conjuntos de dados pequenos. Foram criados seis conjuntos de dados com diferentes técnicas de pré-processamento e testadas duas abordagens de modelação, Latent Dirichlet Allocation (LDA) e BERTopic. No caso do BERTopic, foram comparados dois sentence-transformers: Multilingual e AlBERTina. As métricas clássicas mostraram-se pouco fiáveis na avaliação da qualidade dos tópicos, pois não foram desenvolvidas para textos tão curtos. Para colmatar essa limitação, foi proposto o Singularity Score (SS), desenvolvido com o objetivo de replicar o comportamento dos anotadores humanos. As análises qualitativas e quantitativas demonstraram que o BERTopic produziu resultados mais coerentes, ainda que o LDA tenha alcançado valores superiores em métricas tradicionais, como coerência e perplexidade. Em suma, o estudo aplicou com sucesso a modelação de tópicos em textos curtos em português, identificou o BERTopic como a técnica mais eficaz e propôs o SS como uma nova forma de avaliar a qualidade dos tópicos.
Designação do Departamento: Departamento de Ciências e Tecnologias da Informação
Designação do grau: Mestrado em Engenharia Informática
Arbitragem científica: yes
Acesso: Acesso Aberto
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_nicole_lopes_nunes.pdf12,83 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons