Please use this identifier to cite or link to this item:
http://hdl.handle.net/10071/34095
Author(s): | Cosme, Diogo Francisco Machado |
Advisor: | Abreu, Fernando Brito e Galvão, António Miguel Portugal |
Date: | 15-Nov-2024 |
Title: | Smart ETL and LLM-based contents classification: The european smart tourism tools observatory experience |
Reference: | Cosme, D. F. M. (2024). Smart ETL and LLM-based contents classification: The european smart tourism tools observatory experience [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/34095 |
Keywords: | Smart ETL Large language model Contents classification Smart tourism Smart tourism tools Online observatory Classificação de conteúdos Turismo inteligente Observatório online |
Abstract: | This dissertation is about the conception, implementation and validation of a Smart ETL
(Extract, Transform, and Load) process for automatic content integration on the European Smart
Tourism Tools Observatory. One of its key aspects is the automatic classification of those tools
according to a taxonomy of Smart Tourism Tools (STT), based on the usage of Large Language
Models (LLMs).
A systematic literature review was conducted on the application of LLMs in information
retrieval, with a particular focus on content classification. During the quality assessment step
of primary studies, we compared the results obtained using manual and LLM-based methods.
After configuring the PaaS for the Observatory, the methodology for the Smart ETL process
was designed. For the extraction phase, STT catalogs in PDF format are initially used as data
sources and their content is extracted. In the transformation phase, each STT extracted from
the catalogs is classified automatically using LLMs. Finally, in the loading phase, the content is
automatically loaded into the observatory via its API (Application Programming Interface).
Although the results in the classification task did not fully meet the expectations, the first
results confirm the feasibility of this approach and mark a significant step towards efficient
content-based classification, not only in the field of smart tourism, but also adaptable to other
fields. Future work directions were identified to improve these results. Esta dissertação trata da conceção, implementação e validação de um processo Smart ETL (Extract, Transform, and Load) para integração automática de conteúdos no Observatório Europeu de Smart Tourism Tools. Um dos seus aspectos chave é a classificação automática dessas ferramentas de acordo com uma taxonomia de Smart Tourism Tools (STTs), baseada na utilização de Large Language Models (LLMs). Foi efectuada uma revisão sistemática da literatura sobre a aplicação de LLMs na recolha de informação, com especial incidência na classificação de conteúdos. Durante a etapa de avaliação da qualidade dos estudos primários, comparámos os resultados obtidos utilizando métodos manuais e baseados em LLMs. Após a configuração da PaaS para o Observatório, foi concebida a metodologia para o processo Smart ETL. Para a fase de extração, catálogos de STTs em formato PDF são inicialmente utilizados como fontes de dados e o seu conteúdo é extraído. Na fase de transformação, cada STT extraída dos catálogos é classificada automaticamente utilizando LLMs. Finalmente, na fase de carregamento, o conteúdo é carregado automaticamente no observatório através da sua API. Embora os resultados da tarefa de classificação não tenham correspondido totalmente às expectativas, os primeiros resultados confirmam a viabilidade desta abordagem e marcam um passo significativo no sentido de uma classificação eficiente baseada em conteúdos, não só no domínio do turismo inteligente, mas também adaptável a outros domínios. Foram identificadas direcções de trabalho futuras para melhorar estes resultados. |
Department: | Departamento de Ciências e Tecnologias da Informação |
Degree: | Mestrado em Engenharia Informática |
Peerreviewed: | yes |
Access type: | Open Access |
Appears in Collections: | T&D-DM - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
master_diogo_machado_cosme.pdf | 1,9 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.