Please use this identifier to cite or link to this item:
http://hdl.handle.net/10071/37290| Author(s): | Nunes, Nicole Lopes |
| Advisor: | Almeida, Ana Maria Carvalho de Peixoto, Ana Rita Henrique |
| Date: | 11-Dec-2025 |
| Title: | Topic modeling applied to Portuguese tiny text |
| Reference: | Nunes, N. L. (2025). Topic modeling applied to Portuguese tiny text [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/37290 |
| Keywords: | Topic modeling Tiny text Short text Small dataset Modelação de tópicos Texto curto Conjunto de Dados |
| Abstract: | This study applied topic modeling techniques to data collected from PLANAPP workshops, which aim to bridge the gap between science and public policy. The objective of this research was to extract meaningful topics from tiny, user-generated, mainly Portuguese texts written during these workshops, in post-it notes, and to find which topic modeling technique was most suitable for this type of data.
Previous studies indicate that although no work has addressed modeling over very short texts, achieving it appears feasible. Furthermore, embedding-based models have been shown to perform better than classical approaches when dealing with short texts and small datasets.
Six distinct datasets, with different preprocessing techniques, were created and tested using two modeling methods, LDA and BERTopic. For BERTopic two sentence-transformers were compared, Multilingual and AlBERTina. To evaluate the topic quality, classical metrics were employed, but did not produce reliable results. The main challenge encountered was the evaluation, as most existing metrics are not designed for tiny text. To address this issue, Singularity Score (SS) is proposed with the primary goal of mimicking the annotators behavior.
Through both qualitative and quantitative analyses, it was possible to conclude that BERTopic produced more coherent results, despite the classical method (LDA) achieving higher values in traditional evaluation metrics such as, coherence and perplexity.
In conclusion, this study successfully applied topic modeling to tiny Portuguese texts, identified BERTopic as the most suitable technique, and introduced SS as a new way to assess topic quality. Este estudo aplicou técnicas de modelação de tópicos a dados recolhidos em workshops do Centro de Planeamento e Avaliação de Políticas Públicas (PLANAPP), cujo objetivo era aproximar a ciência das políticas públicas. Esta investigação procurou extrair tópicos significativos de textos muito curtos, escritos em português pelos participantes em post-its e identificar a técnica de modelação mais adequada para este tipo de dados. Embora não existam estudos anteriores que abordem modelação de textos extremamente pequenos, parece viável alcançar esse objetivo. Modelos baseados em embeddings têm demonstrado melhor desempenho do que abordagens clássicas em tarefas que envolvem textos curtos e conjuntos de dados pequenos. Foram criados seis conjuntos de dados com diferentes técnicas de pré-processamento e testadas duas abordagens de modelação, Latent Dirichlet Allocation (LDA) e BERTopic. No caso do BERTopic, foram comparados dois sentence-transformers: Multilingual e AlBERTina. As métricas clássicas mostraram-se pouco fiáveis na avaliação da qualidade dos tópicos, pois não foram desenvolvidas para textos tão curtos. Para colmatar essa limitação, foi proposto o Singularity Score (SS), desenvolvido com o objetivo de replicar o comportamento dos anotadores humanos. As análises qualitativas e quantitativas demonstraram que o BERTopic produziu resultados mais coerentes, ainda que o LDA tenha alcançado valores superiores em métricas tradicionais, como coerência e perplexidade. Em suma, o estudo aplicou com sucesso a modelação de tópicos em textos curtos em português, identificou o BERTopic como a técnica mais eficaz e propôs o SS como uma nova forma de avaliar a qualidade dos tópicos. |
| Department: | Departamento de Ciências e Tecnologias da Informação |
| Degree: | Mestrado em Engenharia Informática |
| Peerreviewed: | yes |
| Access type: | Open Access |
| Appears in Collections: | T&D-DM - Dissertações de mestrado |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| master_nicole_lopes_nunes.pdf | 12,83 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License












