Imbalanced learning on bank account frauds

Conceição, Dílan Vera Cruz Viana da

Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/34503

Author(s):	Conceição, Dílan Vera Cruz Viana da
Advisor:	Almeida, Ana Maria Carvalho de Nunes, Luís Miguel Martins
Date:	11-Dec-2024
Title:	Imbalanced learning on bank account frauds
Reference:	Conceição, D. V. C. V. da (2024). Imbalanced learning on bank account frauds [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/34503
Keywords:	Imbalanced learning Imbalance ratio Data sampling Feature selection Threshold moving Cost-sensitive Aprendizagem não equilibrada Rácio de desequilíbrio Seleção de características Ajuste de thresholds Cost-sensitive learning
Abstract:	Imbalanced learning, a common challenge in machine learning, occurs when one class, usually the one of primary interest, is significantly underrepresented compared to others. This can impact the performance of the machine learning algorithm because it will become biased toward the majority class, resulting in poor classification of the minority class. This thesis aims to explore the existing imbalanced learning techniques and understand how effective they are in dealing with class imbalance. It explores data-level methods such as resampling and feature selection techniques, and algorithm-level methods such as cost-sensitivity techniques and threshold moving techniques, examining the impact of these techniques when used separately as well as combined. A total of hundred and sixteen models were built using the XGBoost algorithm and evaluated using evaluation metrics such as prediction, recall, F1-score and roc. The dataset used is a bank account fraud dataset that contains a total of one million instances, being only one percent of them of the positive class. This thesis provides valuable insight into the performance of imbalanced learning techniques, offering valuable recommendations for practitioners working with imbalanced datasets in fields like fraud detection. A aprendizagem não equilibrada ocorre quando uma classe, geralmente a de maior interesse, é de significativamente menor quantidade em relação às outras. Isto pode impactar o desempenho do algoritmo de Machine Learning, pois este tende a ser enviesado para a classe maioritária, resultando numa má classificação da classe minoritária. Esta tese visa explorar as técnicas existentes de aprendizagem não equilibrada e compreender a sua eficácia na resolução do desequilíbrio entre classes. Nesta tese também foi feita um estudo de métodos de aprendizagem não equilibrada ao nível de dados, como técnicas de amostragem e seleção de características, e métodos ao nível dos algoritmos, como cost-sensitive learning e ajuste de thresholds, examinando o impacto destas técnicas quando utilizadas separadamente e em conjunto. Foram construídos e um total de cento e dezasseis modelos utilizando o XGBoost e os mesmos foram avaliados usando métricas de avaliação como precisão, recall, F1-score e roc. O conjunto de dados utilizado é de fraudes na abertura de contas bancárias e contém um milhão de linhas, sendo apenas um porcento destas da classe minoritária. Esta tese fornece uma visão valiosa sobre o desempenho das técnicas de aprendizagem não equilibrada, oferecendo recomendações úteis para profissionais que trabalham com conjuntos de dados não equilibrados em áreas como a deteção de fraudes.
Department:	Departamento de Ciências e Tecnologias da Informação
Degree:	Mestrado em Sistemas Integrados de Apoio à Decisão
Peerreviewed:	yes
Access type:	Restricted Access
Appears in Collections:	T&D-DM - Dissertações de mestrado