Modelos de machine learning na avaliação do risco de crédito

Tomé, Beatriz Maurício A.

Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/33601

Author(s):	Tomé, Beatriz Maurício A.
Advisor:	Mendes, Diana E. Aldea
Date:	11-Dec-2024
Title:	Modelos de machine learning na avaliação do risco de crédito
Reference:	Tomé, B. M. A. (2024). Modelos de machine learning na avaliação do risco de crédito [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/33601
Keywords:	Análise de risco -- Risk analysis Risco de crédito -- Credit risk Previsão Machine learning -- Machine learning Forecast
Abstract:	Avaliar a probabilidade de default de um candidato ao crédito é um desafio constante para as instituições financeiras e, por isso, estas têm procurado utilizar técnicas e modelos mais evoluídos que permitam monitorizar o risco com maior precisão. Existem vários algoritmos de Machine Learning que possibilitam uma previsão mais rigorosa de quais os candidatos ao crédito que têm uma maior probabilidade de entrar em incumprimento, classificando-os como bons ou maus candidatos. Neste estudo usou-se um conjunto de dados que contém informação sobre 32409 candidatos ao crédito e compararam-se, com base na sua performance, cinco modelos de Machine Learning: Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Adaptive Boosting (AdaBoost) e eXtreme Gradient Boosting (XGBoost). Escolheram-se estes modelos com o intuito de perceber se a utilização de um modelo mais simples, como o LR ou o DT, permite resultados tão satisfatórios quanto a utilização de um modelo mais complexo cuja explicabilidade será mais reduzida e, além disso, perceber qual o modelo que efetua melhores previsões neste âmbito. Para esta comparação analisaram-se métricas de performance, dando-se especial importância à area under the curve (AUC), uma vez que o conjunto de dados em estudo é não balanceado. Após a análise, o modelo que se destacou foi o XGBoost e, procurando responder ao intuito da escolha dos modelos, a otimização dos parâmetros do modelo DT permitiu obter resultados consideravelmente bons, tendo inclusive superado o modelo AdaBoost. Assessing the likelihood of a credit applicant defaulting is a constant challenge for financial institutions and that's why they have sought to use more advanced techniques and models to monitor the risk more accurately. There are various Machine Learning algorithms that make it possible to predict more accurately which credit applicants are more likely to default, classifying them as good or bad candidates. This study used the a dataset that contains information of 32409 credit applicants, and compared five Machine Learning models based on their performance: Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Adaptive Boosting (AdaBoost) and eXtreme Gradient Boosting (XGBoost). These models were chosen in order to see whether using a simpler model, such as LR or DT, gives as satisfactory results as using a more complex model whose explainability will be lower and, furthermore, to see which model makes the best predictions in this area. For this comparison, performance metrics were analysed, with special emphasis on the area under the curve (AUC), since the dataset under study is unbalanced. After the analysis, the model that stood out was XGBoost and, in order to respond to the purpose of choosing the models, optimising the parameters of the DT model produced considerably good results, even outperforming the AdaBoost model.
Department:	Departamento de Finanças
Degree:	Mestrado em Matemática Financeira
Peerreviewed:	yes
Access type:	Restricted Access
Appears in Collections:	T&D-DM - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
master_beatriz_arantes_tome.pdf Restricted Access		1,06 MB	Adobe PDF	View/Open Request a copy

Show full item record