Adaptive value-at-risk policy optimization: a deep reinforcement learning approach for minimizing the capital charge

Banhudo, Guilherme Sousa Falcão Duarte

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/19197

Autoria:	Banhudo, Guilherme Sousa Falcão Duarte
Orientação:	Barbosa, António
Data:	12-Nov-2019
Título próprio:	Adaptive value-at-risk policy optimization: a deep reinforcement learning approach for minimizing the capital charge
Referência bibliográfica:	Banhudo, G. S. F. D. (2019). Adaptive value-at-risk policy optimization: a deep reinforcement learning approach for minimizing the capital charge [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório do Iscte. http://hdl.handle.net/10071/19197
Palavras-chave:	Value at risk Basel accord Artificial intelligence Deep learning Deep reinforcement learning Proximal policy optimization
Resumo:	In 1995, the Basel Committee on Banking Supervision emitted an amendment to the first Basel Accord, allowing financial institutions to develop internal risk models, based on the value-at-risk (VaR), as opposed to using the regulator’s predefined model. From that point onwards, the scientific community has focused its efforts on improving the accuracy of the VaR models to reduce the capital requirements stipulated by the regulatory framework. In contrast, some authors proposed that the key towards disclosure optimization would not lie in improving the existing models, but in manipulating the estimated value. The most recent progress in this field employed dynamic programming (DP), based on Markov decision processes (MDPs), to create a daily report policy. However, the use of dynamic programming carries heavy costs for the solution; not only does the algorithm require an explicit transition probability matrix, the high computational storage requirements and inability to operate in continuous MDPs demand simplifying the problem. The purpose of this work is to introduce deep reinforcement learning as an alternative to solving problems characterized by a complex or continuous MDP. To this end, the author benchmarks the DP generated policy with one generated via proximal policy optimization. In conclusion, and despite the small number of employed learning iterations, the algorithm showcased a strong convergence with the optimal policy, allowing for the methodology to be used on the unrestricted problem, without incurring in simplifications such as action and state discretization. Em 1995 foi emitida uma adenda ao Acordo de Basileia vigente, o Basileia I, que permitiu que as instituições financeiras optassem por desenvolver modelos internos de medição de risco, tendo por base o value-at-risk (VaR), ao invés de recorrer ao modelo estipulado pelo regulador. Desde então, a comunidade científica focou os seus esforços na melhoria da precisão dos modelos de VaR procurando assim reduzir os requisitos de capital definidos na regulamentação. No entanto, alguns autores propuseram que a chave para a optimização do reporte não estaria na melhoria dos modelos existentes, mas na manipulação do valor estimado. O progresso mais recente recorreu ao uso de programação dinâmica (DP), baseada em processos de decisão de Markov (MDP) para atingir este fim, criando uma regra de reporte diária. No entanto, o uso de DP acarreta custos para a solução, uma vez que por um lado, o algoritmo requer uma matriz de probabilidades de transição definida, e por outro, os elevados requisitos de armazenamento computacional e incapacidade de lidar com processos de decisão de Markov (MDP) contínuos, exigem a simplificação do problema em questão. Este trabalho visa introduzir "deep reinforcement learning" como uma alternativa a problemas caracterizados por um MDP contínuo ou complexo. Para o efeito, é realizado um "benchmarking" com a "policy" criada por programação dinâmica, recorrendo ao algoritmo "proximal policy optimization". Em suma, e apesar do reduzido montante de iterações empregue, o algoritmo demonstrou fortes capacidades de convergência com a solução óptima, podendo ser empregue na estimativa do problema sem incorrer em simplificações.
Designação do grau:	Mestrado em Finanças
Arbitragem científica:	yes
Acesso:	Acesso Aberto
Aparece nas coleções:	T&D-DM - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
master_guilherme_duarte_banhudo.pdf		2,86 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo Visualizar estatísticas