Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/33578
Registo completo
Campo DCValorIdioma
dc.contributor.advisorCosta, Anabela Ribeiro Dias da-
dc.contributor.advisorMendes, Diana Elisabeta Aldea-
dc.contributor.authorOliveira, João de Brito Brás de-
dc.date.accessioned2025-03-05T16:38:13Z-
dc.date.available2025-03-05T16:38:13Z-
dc.date.issued2024-11-27-
dc.date.submitted2024-09-
dc.identifier.citationOliveira, J. de B. B. de. (2024). Decoding the numbers and language behind financial statement fraud [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/33578por
dc.identifier.urihttp://hdl.handle.net/10071/33578-
dc.description.abstractFinancial statement fraud costs companies, in addition to corruption and asset misappropriation, over 5 trillion US dollars annually. The timely detection of this offense plays a crucial role in the damage suffered. Therefore, automated methods capable of identifying high-probability fraud occurrences are essential. Therefore, this study evaluates the potential of Large Language Models (LLMs) such as BERT and FinBERT by comparing their performance to that of well-established models like the Logistic Regression and the XGBoost. To accomplished this, in our study, we went over the Management’s Discussion & Analysis (MD&A) section of 1850 10-K reports (1436 non-fraud and 414 fraud), alongside financial ratios and raw accounting variables from companies which were known to have manipulated at least a single report in the past spanning from 1993 to 2014. Models were trained using three variable types: financial, text, and a combination of both. Evaluation was done using three metrics, AUC, NDCG@k and a threshold-based ‘Capture’, as to the specific problem, probabilities can be more informative than labels. The results suggest that the last part of the MD&A section captures more relevant information than the beginning. Additionally, rank-averaging predictions from models based on the first and last parts of the section did not yield significant improvements despite the improved capture. FinBERT outperformed BERT and achieved AUC scores comparable to traditional models that leverage OpenAI’s ‘text-embedding-3-large’ and surpass them in both NDCG@k and capture rates. Thus, FinBERT’s domain-specific pretraining proved to be particularly advantageous in enhancing fraud detection performance.por
dc.description.abstractA fraude de reporte financeiro custa às empresas, a par da corrupção e da apropriação indevida de ativos, mais de 5 biliões de dólares americanos por ano. A deteção atempada desta infração desempenha um papel crucial nos danos sofridos. Por conseguinte, é essencial dispor de métodos automatizados capazes de identificar ocorrências com elevada probabilidade de fraude. Neste sentido, este estudo avaliou o potencial dos Modelos de Linguagem de Grande Escala (LLMs) como o BERT e o FinBERT, comparando o seu desempenho com modelos como a Regressão Logística e o XGBoost. Para tal, analisou-se a secção “Management's Discussion & Analysis” de 1850 relatórios 10-K (1436 não fraudulentos e 414 fraudulentos), juntamente com rácios financeiros e variáveis contabilísticas de empresas, entre 1993 e 2014. Os modelos treinados utilizaram três tipos de variáveis: financeiras, textuais e uma combinação de ambas. A avaliação baseou-se em três métricas: AUC, NDCG@k e uma ‘Captura’ baseada num valor limite, visto que, neste caso, as probabilidades de fraude podem ser mais informativas do que as classes preditas pelo modelo. Os resultados sugerem que a última parte da secção MD&A capta informações mais relevantes do que a inicial. Além disso, a média das previsões dos modelos baseados na primeira e na última parte da secção aparenta não melhorar significativamente os resultados apesar de melhorar a captura. O FinBERT superou o BERT e obteve valores de AUC comparáveis aos modelos tradicionais que utilizam o 'text-embedding-3-large' da OpenAI, obtendo também valores superiores de NDCG@k e de ‘Captura’.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.subjectFraud detectionpor
dc.subjectDemonstração financeira -- Financial statementpor
dc.subjectSECpor
dc.subjectDeep learningpor
dc.subjectMachine learning -- Machine learningpor
dc.subjectLLMpor
dc.titleDecoding the numbers and language behind financial statement fraudpor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid203758536por
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
thesis.degree.nameMestrado em Ciência de Dadospor
iscte.subject.odsTrabalho digno e crescimento económicopor
iscte.subject.odsPaz, justiça e instituições eficazespor
dc.subject.jelC63por
dc.subject.jelM41por
dc.subject.jel1C Mathematical and quantitative methodspor
dc.subject.jel1M Business administration and business economics - Marketing - Accounting - Personnel economicspor
thesis.degree.departmentDepartamento de Métodos Quantitativos para Gestão e Economiapor
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informaçãopor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_joao_bras_oliveira.pdf2,23 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.