Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/33967
Registo completo
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | Ribeiro, Ricardo Daniel Santos Faro Marques | - |
dc.contributor.advisor | Batista, Fernando Manuel Marques | - |
dc.contributor.author | Pereira, Marta Gameiro Francisco Moreno | - |
dc.date.accessioned | 2025-03-25T12:31:27Z | - |
dc.date.issued | 2024-12-11 | - |
dc.date.submitted | 2024-10 | - |
dc.identifier.citation | Pereira, M. G. F. M. (2024). From regular expressions to language models: A text-based approach for invoice information extraction [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/33967 | por |
dc.identifier.uri | http://hdl.handle.net/10071/33967 | - |
dc.description.abstract | Automating the extraction of invoice information through Machine Learning (ML) offers significant benefits to organizations, particularly in enhancing efficiency and accuracy. By leveraging ML algorithms, businesses can significantly reduce the time and effort required for manual data entry and validation, allowing them to focus on more strategic activities. However, global companies face unique challenges when handling multilingual invoices and documents with varying layouts, which complicates the extraction process and necessitates the development of tailored solutions. Despite the growing interest in this topic, there are relatively few studies focusing on text-based techniques for information extraction from invoices. This gap in the literature highlights the need for further research to identify and optimize effective methodologies for extracting relevant data fields such as Value Added Tax (VAT) numbers, issuance dates, and total values. The present work, based on a dataset provided by a private company, allows for an analysis in a real-world context. The goal was to develop effective extraction techniques and assess their applicability in the company’s environment. Two tests were conducted: regular expressions achieved 75% accuracy for VAT extraction, while generative models, specifically Mistral-7B-Instruct-v0.3, achieved 76% accuracy for date and 71% for total value extraction. This performance suggests that, by deepening the study, testing additional techniques, and overcoming limitations, particularly with respect to privacy restrictions, extraction methodologies could be further refined, revealing substantial potential for automating invoice information extraction. | por |
dc.description.abstract | A automatização da extração de informações de faturas através de aprendizagem automática apresenta benefícios significativos para as organizações, especialmente na melhoria da eficiência e precisão. A implementação de algoritmos de aprendizagem automática permite às empresas reduzir o tempo e o esforço dedicados à introdução e validação manual de dados, permitindo que as empresas se concentrem em atividades mais estratégicas. Contudo, empresas globais enfrentam desafios particulares ao lidar com faturas em diversas línguas e formatos distintos, o que exige soluções personalizadas. Apesar do crescente interesse nesta temática, são escassos os estudos que abordam técnicas baseadas em texto para a extração de informação de faturas. Esta lacuna na literatura evidencia a necessidade de mais investigações para otimizar metodologias que visam extrair dados como o NIF, datas de emissão e valores totais. O presente trabalho, baseado num conjunto de dados fornecido por uma empresa privada, permite realizar uma análise em contexto real. O objetivo foi desenvolver técnicas eficazes de extração e avaliar a sua aplicabilidade no ambiente da empresa. Foram realizados dois testes: expressões regulares alcançaram 75% de precisão na extração do NIF, enquanto modelos generativos, especificamente o Mistral-7B-Instruct-v0.3, obtiveram 76% para datas e 71% para valores totais. Estes resultados indicam que, aprofundando o estudo, testando técnicas adicionais e superando algumas limitações, especialmente no que diz respeito a restrições de privacidade, as metodologias de extração podem ser refinadas, evidenciando um grande potencial para a automação de extração de informações de faturas. | por |
dc.language.iso | eng | por |
dc.rights | restrictedAccess | por |
dc.subject | Information extraction | por |
dc.subject | Invoice processing | por |
dc.subject | Machine learning -- Machine learning | por |
dc.subject | Regular expressions | por |
dc.subject | Language models | por |
dc.subject | Automatização -- Automation | por |
dc.subject | Extração de Informação, | por |
dc.subject | Processamento de faturas | por |
dc.subject | Expressões regulares | por |
dc.subject | Modelos de linguagem | por |
dc.title | From regular expressions to language models: A text-based approach for invoice information extraction | por |
dc.type | masterThesis | por |
dc.peerreviewed | yes | por |
dc.identifier.tid | 203805135 | por |
dc.subject.fos | Domínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologias | por |
dc.subject.fos | Domínio/Área Científica::Ciências Sociais::Economia e Gestão | por |
thesis.degree.name | Mestrado em Sistemas Integrados de Apoio à Decisão | por |
dc.date.embargo | 2025-12-11 | - |
thesis.degree.department | Departamento de Ciências e Tecnologias da Informação | por |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_marta_moreno_pereira.pdf Restricted Access | 3,9 MB | Adobe PDF | Ver/Abrir Request a copy |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.