Optical character recognition, text analysis and key information extraction

Santos, Samuel Filipe Agostinho dos

Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/32991

Author(s):	Santos, Samuel Filipe Agostinho dos
Advisor:	Batista, Fernando Manuel Marques Ribeiro, Ricardo Daniel Santos Faro Marques
Date:	22-Nov-2024
Title:	Optical character recognition, text analysis and key information extraction
Reference:	Santos, F. A. dos (2024). Optical character recognition, text analysis and key information extraction [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32991
Keywords:	Extração de informação chave Análise de texto Reconhecimento ótico de caracteres Aprendizagem automática Inteligência artificial -- Artificial intelligence Key information extraction Text analysis Optical character recognition Machine learning -- Machine learning
Abstract:	Na atual era digital, a extração eficiente de dados de documentos digitais é essencial para a gestão da informação e para a automatização de processos. Esta tese investiga vários métodos de Reconhecimento Ótico de Caracteres (OCR), Análise de Texto (TA) e Extração de Informação Chave (KIE) a partir de documentos digitais, com um foco particular em recibos e facturas. Existem vários desafios associados à extração manual de dados, como o caso da fraca eficiência na gestão do tempo e o tratamento de erros no processamento de documentos. Ao longo deste trabalho, examinamos a evolução dos métodos KIE, desde abordagens baseadas em regras e modelos até técnicas contemporâneas de A prendizagem Automática e Modelos Generativos que superam os métodos tradicionais. Será utilizado um dataset de recibos digitalizados SROIE disponibilizado pelo ICDAR, no qual iremos fazer extração de informação chave nesses mesmos recibos. Apesar de não serem tão eficientes, as abordagens tradicionais, como a utilização de regex, continuam a ser eficazes na extração de campos específicos, como números e datas. Identificamos desafios significativos em OCR, TA e KIE, incluindo má qualidade de imagem, tamanhos e estilos de letra variados e diferentes orientações de texto, e apresentamos potenciais soluções para estes desafios. In today’s digital era, efficiently extracting data from digital documents is essential for managing information and automation processes. This thesis researches various methods of OCR, TA, and KIE from digital documents, particularly focusing on scanned receipts and invoices. There are several challenges associated with manual data extraction and the potential for automation to save time and reduce errors regarding document management. There are several challenges associated with manual data extraction, such as poor time management efficiency and error handling in document processing. Throughout this work, we examine the evolution of KIE methods from rule-based and template-based approaches to contemporary Machine Learning techniques and Generative Models that outperform traditional methods. We will be using a SROIE dataset provided by ICDAR, from which we will extract key information. Despite not being as efficient, traditional approaches like the usage of regex remain effective at extracting specific fields, such as numbers and dates. We identify significant challenges in OCR, TA, and KIE, including poor image quality, varied font sizes and styles, and different text orientations, and provide with potential solutions for these challenges.
Department:	Departamento de Ciências e Tecnologias da Informação
Degree:	Mestrado em Informática e Gestão
Peerreviewed:	yes
Access type:	Open Access
Appears in Collections:	T&D-DM - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
master_samuel_agostinho_santos.pdf		12,21 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License