Optical character recognition, text analysis and key information extraction

Santos, Samuel Filipe Agostinho dos

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/32991

Autoria:	Santos, Samuel Filipe Agostinho dos
Orientação:	Batista, Fernando Manuel Marques Ribeiro, Ricardo Daniel Santos Faro Marques
Data:	22-Nov-2024
Título próprio:	Optical character recognition, text analysis and key information extraction
Referência bibliográfica:	Santos, F. A. dos (2024). Optical character recognition, text analysis and key information extraction [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32991
Palavras-chave:	Extração de informação chave Análise de texto Reconhecimento ótico de caracteres Aprendizagem automática Inteligência artificial -- Artificial intelligence Key information extraction Text analysis Optical character recognition Machine learning -- Machine learning
Resumo:	Na atual era digital, a extração eficiente de dados de documentos digitais é essencial para a gestão da informação e para a automatização de processos. Esta tese investiga vários métodos de Reconhecimento Ótico de Caracteres (OCR), Análise de Texto (TA) e Extração de Informação Chave (KIE) a partir de documentos digitais, com um foco particular em recibos e facturas. Existem vários desafios associados à extração manual de dados, como o caso da fraca eficiência na gestão do tempo e o tratamento de erros no processamento de documentos. Ao longo deste trabalho, examinamos a evolução dos métodos KIE, desde abordagens baseadas em regras e modelos até técnicas contemporâneas de A prendizagem Automática e Modelos Generativos que superam os métodos tradicionais. Será utilizado um dataset de recibos digitalizados SROIE disponibilizado pelo ICDAR, no qual iremos fazer extração de informação chave nesses mesmos recibos. Apesar de não serem tão eficientes, as abordagens tradicionais, como a utilização de regex, continuam a ser eficazes na extração de campos específicos, como números e datas. Identificamos desafios significativos em OCR, TA e KIE, incluindo má qualidade de imagem, tamanhos e estilos de letra variados e diferentes orientações de texto, e apresentamos potenciais soluções para estes desafios. In today’s digital era, efficiently extracting data from digital documents is essential for managing information and automation processes. This thesis researches various methods of OCR, TA, and KIE from digital documents, particularly focusing on scanned receipts and invoices. There are several challenges associated with manual data extraction and the potential for automation to save time and reduce errors regarding document management. There are several challenges associated with manual data extraction, such as poor time management efficiency and error handling in document processing. Throughout this work, we examine the evolution of KIE methods from rule-based and template-based approaches to contemporary Machine Learning techniques and Generative Models that outperform traditional methods. We will be using a SROIE dataset provided by ICDAR, from which we will extract key information. Despite not being as efficient, traditional approaches like the usage of regex remain effective at extracting specific fields, such as numbers and dates. We identify significant challenges in OCR, TA, and KIE, including poor image quality, varied font sizes and styles, and different text orientations, and provide with potential solutions for these challenges.
Designação do Departamento:	Departamento de Ciências e Tecnologias da Informação
Designação do grau:	Mestrado em Informática e Gestão
Arbitragem científica:	yes
Acesso:	Acesso Aberto
Aparece nas coleções:	T&D-DM - Dissertações de mestrado