Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/32991
Autoria: Santos, Samuel Filipe Agostinho dos
Orientação: Batista, Fernando Manuel Marques
Ribeiro, Ricardo Daniel Santos Faro Marques
Data: 22-Nov-2024
Título próprio: Optical character recognition, text analysis and key information extraction
Referência bibliográfica: Santos, F. A. dos (2024). Optical character recognition, text analysis and key information extraction [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32991
Palavras-chave: Extração de informação chave
Análise de texto
Reconhecimento ótico de caracteres
Aprendizagem automática
Inteligência artificial -- Artificial intelligence
Key information extraction
Text analysis
Optical character recognition
Machine learning -- Machine learning
Resumo: Na atual era digital, a extração eficiente de dados de documentos digitais é essencial para a gestão da informação e para a automatização de processos. Esta tese investiga vários métodos de Reconhecimento Ótico de Caracteres (OCR), Análise de Texto (TA) e Extração de Informação Chave (KIE) a partir de documentos digitais, com um foco particular em recibos e facturas. Existem vários desafios associados à extração manual de dados, como o caso da fraca eficiência na gestão do tempo e o tratamento de erros no processamento de documentos. Ao longo deste trabalho, examinamos a evolução dos métodos KIE, desde abordagens baseadas em regras e modelos até técnicas contemporâneas de A prendizagem Automática e Modelos Generativos que superam os métodos tradicionais. Será utilizado um dataset de recibos digitalizados SROIE disponibilizado pelo ICDAR, no qual iremos fazer extração de informação chave nesses mesmos recibos. Apesar de não serem tão eficientes, as abordagens tradicionais, como a utilização de regex, continuam a ser eficazes na extração de campos específicos, como números e datas. Identificamos desafios significativos em OCR, TA e KIE, incluindo má qualidade de imagem, tamanhos e estilos de letra variados e diferentes orientações de texto, e apresentamos potenciais soluções para estes desafios.
In today’s digital era, efficiently extracting data from digital documents is essential for managing information and automation processes. This thesis researches various methods of OCR, TA, and KIE from digital documents, particularly focusing on scanned receipts and invoices. There are several challenges associated with manual data extraction and the potential for automation to save time and reduce errors regarding document management. There are several challenges associated with manual data extraction, such as poor time management efficiency and error handling in document processing. Throughout this work, we examine the evolution of KIE methods from rule-based and template-based approaches to contemporary Machine Learning techniques and Generative Models that outperform traditional methods. We will be using a SROIE dataset provided by ICDAR, from which we will extract key information. Despite not being as efficient, traditional approaches like the usage of regex remain effective at extracting specific fields, such as numbers and dates. We identify significant challenges in OCR, TA, and KIE, including poor image quality, varied font sizes and styles, and different text orientations, and provide with potential solutions for these challenges.
Designação do Departamento: Departamento de Ciências e Tecnologias da Informação
Designação do grau: Mestrado em Informática e Gestão
Arbitragem científica: yes
Acesso: Acesso Aberto
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_samuel_agostinho_santos.pdf12,21 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons