Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/32991
Registo completo
Campo DCValorIdioma
dc.contributor.advisorBatista, Fernando Manuel Marques-
dc.contributor.advisorRibeiro, Ricardo Daniel Santos Faro Marques-
dc.contributor.authorSantos, Samuel Filipe Agostinho dos-
dc.date.accessioned2025-01-10T16:02:39Z-
dc.date.available2025-01-10T16:02:39Z-
dc.date.issued2024-11-22-
dc.date.submitted2024-09-
dc.identifier.citationSantos, F. A. dos (2024). Optical character recognition, text analysis and key information extraction [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32991por
dc.identifier.urihttp://hdl.handle.net/10071/32991-
dc.description.abstractNa atual era digital, a extração eficiente de dados de documentos digitais é essencial para a gestão da informação e para a automatização de processos. Esta tese investiga vários métodos de Reconhecimento Ótico de Caracteres (OCR), Análise de Texto (TA) e Extração de Informação Chave (KIE) a partir de documentos digitais, com um foco particular em recibos e facturas. Existem vários desafios associados à extração manual de dados, como o caso da fraca eficiência na gestão do tempo e o tratamento de erros no processamento de documentos. Ao longo deste trabalho, examinamos a evolução dos métodos KIE, desde abordagens baseadas em regras e modelos até técnicas contemporâneas de A prendizagem Automática e Modelos Generativos que superam os métodos tradicionais. Será utilizado um dataset de recibos digitalizados SROIE disponibilizado pelo ICDAR, no qual iremos fazer extração de informação chave nesses mesmos recibos. Apesar de não serem tão eficientes, as abordagens tradicionais, como a utilização de regex, continuam a ser eficazes na extração de campos específicos, como números e datas. Identificamos desafios significativos em OCR, TA e KIE, incluindo má qualidade de imagem, tamanhos e estilos de letra variados e diferentes orientações de texto, e apresentamos potenciais soluções para estes desafios.por
dc.description.abstractIn today’s digital era, efficiently extracting data from digital documents is essential for managing information and automation processes. This thesis researches various methods of OCR, TA, and KIE from digital documents, particularly focusing on scanned receipts and invoices. There are several challenges associated with manual data extraction and the potential for automation to save time and reduce errors regarding document management. There are several challenges associated with manual data extraction, such as poor time management efficiency and error handling in document processing. Throughout this work, we examine the evolution of KIE methods from rule-based and template-based approaches to contemporary Machine Learning techniques and Generative Models that outperform traditional methods. We will be using a SROIE dataset provided by ICDAR, from which we will extract key information. Despite not being as efficient, traditional approaches like the usage of regex remain effective at extracting specific fields, such as numbers and dates. We identify significant challenges in OCR, TA, and KIE, including poor image quality, varied font sizes and styles, and different text orientations, and provide with potential solutions for these challenges.por
dc.language.isoporpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectExtração de informação chavepor
dc.subjectAnálise de textopor
dc.subjectReconhecimento ótico de caracterespor
dc.subjectAprendizagem automáticapor
dc.subjectInteligência artificial -- Artificial intelligencepor
dc.subjectKey information extractionpor
dc.subjectText analysispor
dc.subjectOptical character recognitionpor
dc.subjectMachine learning -- Machine learningpor
dc.titleOptical character recognition, text analysis and key information extractionpor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid203740467por
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
thesis.degree.nameMestrado em Informática e Gestãopor
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informaçãopor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_samuel_agostinho_santos.pdf12,21 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons