Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/37230
Author(s): Nanita , António Pedro Barbedo
Advisor: Ribeiro, António Rui Trigo
Date: 11-Dec-2025
Title: Automação de catálogos de dados: Uma revisão sistemática da literatura
Reference: Nanita, A. P. B. (2025). Automação de catálogos de dados: Uma revisão sistemática da literatura [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/37230
Keywords: Governança de dados
Catálogos de dados
Inteligência artificial -- Artificial intelligence
Machine learning -- Machine learning
Metadados -- Metadata
Data governance
Data catalogs
Automatização -- Automation
Abstract: A crescente complexidade e diversidade dos ecossistemas de dados reforça a importância dos catálogos de dados na Governança de Dados, essenciais para a descoberta, gestão e rastreabilidade da informação, promovendo qualidade, conformidade e reutilização dos ativos. Contudo, o aumento exponencial de dados tornou inviável a catalogação manual, exigindo a automação através de Inteligência Artificial (IA) e "Machine Learning" (ML). Este trabalho visa identificar as principais funções dos catálogos de dados e avaliar o seu potencial de automação. Para isso, foi realizada uma Revisão Sistemática da Literatura segundo a metodologia de Kitchenham, complementada por uma análise de sete soluções tecnológicas (Collibra, Alation, Microsoft Purview, AWS Glue, Google Dataplex, Apache Atlas e LinkedIn DataHub) integrando o estado da arte académico e a prática industrial numa perspetiva comparativa. Os resultados obtidos permitiram identificar cinco categorias funcionais nucleares dos catálogos de dados que são: "Data Discovery", "Data Management", Metadata Management, "Data Lineage" (DL) e "Data Governance" (DG). Verificou‐se que as abordagens baseadas em IA e ML estão presentes em mais de 70% das automatizações identificadas, destacando‐se nas tarefas de classificação de dados, enriquecimento de metadados e deteção de linhagem. Foi ainda proposto um modelo de correspondência entre funções e automações, que pode servir de referência para a conceção, avaliação e evolução de catálogos de dados empresariais.
The growing complexity and diversity of data ecosystems reinforces the importance of Data Catalogs in DG, which are essential for the discovery, management, and traceability of information, promoting quality, compliance, and reuse of assets. However, the exponential increase in data has made manual cataloging unfeasible, requiring automation through IA and ML. This work aims to identify the main functions of data catalogs and assess their potential for automation. To this end, a Systematic Literature Review was conducted according to Kitchenham’s methodology, complemented by an analysis of seven technological solutions (Collibra, Alation, Microsoft Purview, AWS Glue, Google Dataplex, Apache Atlas, and LinkedIn DataHub), integrating the state of the art in academia and industrial practice from a comparative perspective. The results obtained allowed us to identify five core functional categories of Data Catalogs, which are: Data Discovery, Data Management, Metadata Management, Data Lineage, and DG. It was found that AI and ML‐based approaches are present in more than 70% of the automations identified, standing out in the tasks of data classification, metadata enrichment, and lineage detection. A model of correspondence between functions and automations was also proposed, which can serve as a reference for the design, evaluation, and evolution of enterprise data catalogs.
Department: Departamento de Ciências e Tecnologias da Informação
Degree: Mestrado em Engenharia Informática
Peerreviewed: yes
Appears in Collections:T&D-DM - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
master_antonio_barbedo_nanita.pdf
  Restricted Access
340,64 kBAdobe PDFView/Open Request a copy


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

This item is licensed under a Creative Commons License Creative Commons