Decoding the numbers and language behind financial statement fraud

Oliveira, João de Brito Brás de

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/33578

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Costa, Anabela Ribeiro Dias da	-
dc.contributor.advisor	Mendes, Diana Elisabeta Aldea	-
dc.contributor.author	Oliveira, João de Brito Brás de	-
dc.date.accessioned	2025-03-05T16:38:13Z	-
dc.date.available	2025-03-05T16:38:13Z	-
dc.date.issued	2024-11-27	-
dc.date.submitted	2024-09	-
dc.identifier.citation	Oliveira, J. de B. B. de. (2024). Decoding the numbers and language behind financial statement fraud [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/33578	por
dc.identifier.uri	http://hdl.handle.net/10071/33578	-
dc.description.abstract	Financial statement fraud costs companies, in addition to corruption and asset misappropriation, over 5 trillion US dollars annually. The timely detection of this offense plays a crucial role in the damage suffered. Therefore, automated methods capable of identifying high-probability fraud occurrences are essential. Therefore, this study evaluates the potential of Large Language Models (LLMs) such as BERT and FinBERT by comparing their performance to that of well-established models like the Logistic Regression and the XGBoost. To accomplished this, in our study, we went over the Management’s Discussion & Analysis (MD&A) section of 1850 10-K reports (1436 non-fraud and 414 fraud), alongside financial ratios and raw accounting variables from companies which were known to have manipulated at least a single report in the past spanning from 1993 to 2014. Models were trained using three variable types: financial, text, and a combination of both. Evaluation was done using three metrics, AUC, NDCG@k and a threshold-based ‘Capture’, as to the specific problem, probabilities can be more informative than labels. The results suggest that the last part of the MD&A section captures more relevant information than the beginning. Additionally, rank-averaging predictions from models based on the first and last parts of the section did not yield significant improvements despite the improved capture. FinBERT outperformed BERT and achieved AUC scores comparable to traditional models that leverage OpenAI’s ‘text-embedding-3-large’ and surpass them in both NDCG@k and capture rates. Thus, FinBERT’s domain-specific pretraining proved to be particularly advantageous in enhancing fraud detection performance.	por
dc.description.abstract	A fraude de reporte financeiro custa às empresas, a par da corrupção e da apropriação indevida de ativos, mais de 5 biliões de dólares americanos por ano. A deteção atempada desta infração desempenha um papel crucial nos danos sofridos. Por conseguinte, é essencial dispor de métodos automatizados capazes de identificar ocorrências com elevada probabilidade de fraude. Neste sentido, este estudo avaliou o potencial dos Modelos de Linguagem de Grande Escala (LLMs) como o BERT e o FinBERT, comparando o seu desempenho com modelos como a Regressão Logística e o XGBoost. Para tal, analisou-se a secção “Management's Discussion & Analysis” de 1850 relatórios 10-K (1436 não fraudulentos e 414 fraudulentos), juntamente com rácios financeiros e variáveis contabilísticas de empresas, entre 1993 e 2014. Os modelos treinados utilizaram três tipos de variáveis: financeiras, textuais e uma combinação de ambas. A avaliação baseou-se em três métricas: AUC, NDCG@k e uma ‘Captura’ baseada num valor limite, visto que, neste caso, as probabilidades de fraude podem ser mais informativas do que as classes preditas pelo modelo. Os resultados sugerem que a última parte da secção MD&A capta informações mais relevantes do que a inicial. Além disso, a média das previsões dos modelos baseados na primeira e na última parte da secção aparenta não melhorar significativamente os resultados apesar de melhorar a captura. O FinBERT superou o BERT e obteve valores de AUC comparáveis aos modelos tradicionais que utilizam o 'text-embedding-3-large' da OpenAI, obtendo também valores superiores de NDCG@k e de ‘Captura’.	por
dc.language.iso	eng	por
dc.rights	openAccess	por
dc.subject	Fraud detection	por
dc.subject	Demonstração financeira -- Financial statement	por
dc.subject	SEC	por
dc.subject	Deep learning	por
dc.subject	Machine learning -- Machine learning	por
dc.subject	LLM	por
dc.title	Decoding the numbers and language behind financial statement fraud	por
dc.type	masterThesis	por
dc.peerreviewed	yes	por
dc.identifier.tid	203758536	por
dc.subject.fos	Domínio/Área Científica::Ciências Sociais::Economia e Gestão	por
dc.subject.fos	Domínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologias	por
thesis.degree.name	Mestrado em Ciência de Dados	por
iscte.subject.ods	Trabalho digno e crescimento económico	por
iscte.subject.ods	Paz, justiça e instituições eficazes	por
dc.subject.jel	C63	por
dc.subject.jel	M41	por
dc.subject.jel1	C Mathematical and quantitative methods	por
dc.subject.jel1	M Business administration and business economics - Marketing - Accounting - Personnel economics	por
thesis.degree.department	Departamento de Métodos Quantitativos para Gestão e Economia	por
thesis.degree.department	Departamento de Ciências e Tecnologias da Informação	por
Aparece nas coleções:	T&D-DM - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
master_joao_bras_oliveira.pdf		2,23 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato simples Visualizar estatísticas