Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/33712
Registo completo
Campo DCValorIdioma
dc.contributor.advisorRibeiro, Ricardo Daniel Santos Faro Marques-
dc.contributor.advisorBatista, Fernando Manuel Marques-
dc.contributor.authorD'Oliveira, Pedro Afonso Marques-
dc.date.accessioned2025-03-11T16:48:24Z-
dc.date.available2025-03-11T16:48:24Z-
dc.date.issued2024-11-22-
dc.date.submitted2024-09-
dc.identifier.citationD'Oliveira, P. A. M. (2024). Navigating the mobile app Galaxy: Harnessing textual metadata for app categorization [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/33712por
dc.identifier.urihttp://hdl.handle.net/10071/33712-
dc.description.abstractThis study conducts a comparative analysis of text representation and feature extraction methods for categorizing mobile applications into predefined categories. Effective categorization improves application discoverability, user experience, and application ecosystem organization. To develop an automatic approach for categorizing mobile applications into predefined categories, we used Word2Vec, Labeled Latent Dirichlet Allocation (L-LDA), pre-trained language models and RoBERTa to generate numerical semantic representations of the application descriptions. These representations were then used to classify the apps into predefined categories. Our classification system assigned each app to the same category or categories as it appears on Aptoide, allowing us to evaluate the effectiveness of the methods. Since we are dealing with multi-label classification, we used Classifier Chains, Label PowerSet, Binary Relevance and Multi-Label Binarizer to handle label dependencies and optimize classification performance. Our dataset of mobile apps, consisting of 9,163 entries, was obtained using APIs from Aptoide. The results show that our best text representation model, when properly tuned, is RoBERTa, which has the highest F1 scores in the micro, macro, weighted averages and samples categories. It is closely followed by the pre-trained GPT-4o model, which also performs well, but falls slightly short in comparison. Future research directions include the integration of multimodal data, exploring federated learning, adapting to evolving taxonomies, developing interactive and explainable AI systems, conducting cross-language and cross-cultural studies, creating personalized categorization models, assessing ethical implications, integrating with application development lifecycles and using gamification to enhance user engagement.por
dc.description.abstractEste estudo efectua uma análise comparativa dos métodos de representação de texto e de extração de características para categorizar aplicações móveis em categorias predefinidas. A categorização eficaz melhora a capacidade de descoberta das aplicações, a experiência do utilizador e a organização do ecossistema de aplicações. Para desenvolvermos uma abordagem automática para categorizar as aplicações, utilizámos Word2Vec, Labeled Latent Dirichlet Allocation (L-LDA), modelos de linguagem pré-treinados e Robustly Optimized Bidirecional Encoder Representations from Transformers Approach (RoBERTa) para gerar representações semânticas numéricas das descrições. Estas representações foram usadas para classificar as aplicações com categorias definidas na Aptoide, permitindo avaliar a eficácia dos métodos. Como estamos a lidar com classificação multi-rótulo, utilizámos Classifier Chains, Label PowerSet, Binary Relevance e Multi-Label Binarizer. O nosso conjunto de dados de 9.163 aplicações foi obtido via APIs da Aptoide. Os resultados mostram que o nosso melhor modelo de representação de texto, quando devidamente ajustado, é o RoBERTa, que apresenta as pontuações F1 mais altas nas categorias de médias micro, macro, ponderadas e de amostras. É seguido pelo modelo pré-treinado GPT-4o, que também apresenta um bom desempenho, mas fica ligeiramente atrás em comparação. As futuras direcções de investigação incluem a integração de dados multimodais, a exploração da aprendizagem federada, a adaptação a taxonomias em evolução, o desenvolvimento de sistemas de IA interactivos e explicáveis, a realização de estudos entre línguas e culturas, a criação de modelos de categorização personalizados, a avaliação de implicações éticas, a integração com ciclos de vida de desenvolvimento de aplicações e a utilização de gamificação para aumentar o envolvimento do utilizador.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectMulti label classificationpor
dc.subjectMobile application categorizationpor
dc.subjectText representation modelspor
dc.subjectAPI data integrationpor
dc.subjectClassificação de múltiplas etiquetaspor
dc.subjectCategorização de aplicações móveispor
dc.subjectModelos de representação de textopor
dc.subjectAPI integração de dadospor
dc.titleNavigating the mobile app Galaxy: Harnessing textual metadata for app categorizationpor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid203768876por
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
thesis.degree.nameMestrado em Engenharia Informáticapor
iscte.subject.odsEducação de qualidadepor
iscte.subject.odsIndústria, inovação e infraestruturaspor
iscte.subject.odsParcerias para a implementação dos objetivospor
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informaçãopor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_pedro_marques_oliveira.pdf1,18 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons