Forecasting the European courts of Human Rights' decisions: Fine-tuning LLM for predicting Human Rights violations

Fernandes, Sara Batista Vicente

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/36878

Autoria:	Fernandes, Sara Batista Vicente
Orientação:	Cruz, Francisco
Data:	7-Nov-2025
Título próprio:	Forecasting the European courts of Human Rights' decisions: Fine-tuning LLM for predicting Human Rights violations
Referência bibliográfica:	Fernandes, S. B. V. (2025). Forecasting the European courts of Human Rights' decisions: Fine-tuning LLM for predicting Human Rights violations [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36878
Palavras-chave:	European court of Human Rights Human Rights law Judicial decision prediction Legal text classification Generative pre-trained Large language models Tribunal Europeu dos Direitos Humanos Previsão de Decisões Judiciais Classificação de texto jurídico Modelos de linguagem -- Language models
Resumo:	This master’s thesis examines the possibility of predicting decisions of the European Court of Human Rights based on applicants’ petitions, using exclusively the petition text. The task was framed as a binary classification problem: predicting whether the Court will or will not find a violation of the European Convention on Human Rights. Unlike previous studies that relied on structured metadata and manually engineered features, this work focused solely on textual content. To enable more scalable use of Large Language Models, a GPT-4o-prompted summarisation step was introduced to reduce input length and computational cost without affecting performance, while preserving essential legal information. A comparative analysis of fine-tuning across three GPT models was conducted, alongside experiments that (i) compared zero-shot performance on summarised petitions versus full text to assess potential information loss, and (ii) examined the effect of hyperparameter adjustments. The results show that meaningful predictive performance can be achieved even with relatively small training sets. The best configuration, based on GPT-4o, achieved 73% accuracy, 81% recall, and an F1-score of 78% for the “violation” class. These results met the predefined success criteria and demonstrated the potential of LLMs to support the early triage of petitions, identifying cases more likely to involve human-rights violations. The findings contribute to ongoing debates on judicial decision prediction with artificial intelligence, proposing a simple and reproducible pipeline for legal text classification. Although challenges remain regarding interpretability, this study shows that LLMs can complement judicial work by improving consistency and efficiency without replacing human reasoning. Esta dissertação analisa a previsão de decisões do Tribunal Europeu dos Direitos Humanos a partir do texto das petições apresentadas. O problema é de classificação binária: antecipar se o Tribunal declarará ou não a violação da Convenção Europeia dos Direitos Humanos. Ao contrário de estudos baseados em variáveis estruturadas, este trabalho focou-se apenas no conteúdo textual. Para escalar o uso de "Large Language Models", introduziu-se uma sumarização com instruções no GPT-4o que reduz o comprimento da entrada e o custo computacional, preservando a informação jurídica essencial sem perda de desempenho. Foi realizada uma análise comparativa do "fine-tuning" em três modelos GPT e, em paralelo, experiências para (i) comparar o desempenho "zero-shot" em petições sumarizadas versus" texto integral, avaliando eventual perda de informação, e (ii) estudar o efeito dos ajustes de hiperparâmetros. Os resultados mostram que se obtém desempenho preditivo relevante mesmo com conjuntos de treino pequenos. A melhor configuração, baseada no GPT-4o, alcançou 73% de "accuracy", 81% de "recall" e "F1-score" de 78% na classe "violação". Estes resultados cumpriram os critérios de sucesso pré-definidos e demonstraram o potencial dos LLMs para apoiar a triagem inicial de petições, identificando casos mais propensos a envolver violações de direitos humanos. As conclusões contribuem para o debate sobre a previsão de decisões judiciais com inteligência artificial, propondo um processo simples e reproduzível para a classificação de textos jurídicos. Embora persistam desafios de interpretabilidade, o estudo indica que os LLMs podem complementar o trabalho judicial, promovendo consistência e eficiência sem substituir o raciocínio humano.
Designação do Departamento:	Departamento de Marketing, Operações e Gestão Geral
Designação do grau:	Mestrado em Métodos Analíticos para Gestão
Arbitragem científica:	yes
Acesso:	Acesso Aberto
Aparece nas coleções:	T&D-DM - Dissertações de mestrado