Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/33681
Autoria: | Dias, Margarida Rebelo |
Orientação: | Ribeiro, Ricardo Daniel Santos Faro Marques Pinto, Helena Sofia Andrade Nunes Pereira |
Data: | 26-Nov-2024 |
Título próprio: | Contributions to automatic legal document summarization: Judgements from the Portuguese Supreme Court |
Referência bibliográfica: | Dias, M. R. (2024). Contributions to automatic legal document summarization: Judgements from the Portuguese Supreme Court [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/33681 |
Palavras-chave: | Automatic text summarization Legal document summarization Extractive summarization Abstractive summarization European Portuguese Sumarização de texto automática Sumarização de documentos jurídicos Sumarização extrativa Sumarização abstrativa Português Europeu |
Resumo: | As information continues to grow in an exponential way, overtaking humans capacity to
reach all of it, it is crucial to develop strategies to minimize the time spent on reading
and comprehending information. In the legal field, the process of summarization has been
used for this purpose, however, it is still done manually by legal experts.
This dissertation focuses on testing different summarization models in order to understand
their efficacy in automating the summarization process, specifically for Portuguese
legal documents from the Portuguese Supreme Court of Justice.
Automatic summarization models have been developed in a variety of areas. Conversely,
the legal field brings some constraints because of the length of the documents
and the particular vocabulary used in them. We implemented three different models:
a sentence-level model, a summary-level model, and a hybrid approach to evaluate the
generation of summaries using both extractive and abstractive summarization methods.
For each experiment, we used two different input texts: the original documents and
specific sections from the original documents. For the evaluation process, we use the
ROUGE and BERTscore metrics, where we compare the generated summaries with the
reference summaries available for each document.
The analysis of the results made us conclude that the extractive models are effective
at reducing document length, particularly with the summary-level approach, and that
abstractive techniques can improve summary fluency. Furthermore, it was confirmed that
the use of a summary-level approach has a significant effect on the summarization of
Portuguese legal documents. Com o aumento exponencial das diferentes formas de informação, ultrapassando a capacidade humana de as acompanhar, torna-se crucial desenvolver estratégias que minimizem o tempo gasto tanto na leitura como na compreensão da informação. No meio jurídico, o processo de sumarização tem sido requerido para este fim, no entanto sendo feito manualmente. Esta dissertação foca-se na avaliação de diferentes modelos de sumarização cujo objetivo é entender a eficácia dos mesmos na automatização do processo de sumarização, especificamente para documentos jurídicos portugueses do Supremo Tribunal de Justiça. Diferentes modelos de sumarização têm sido desenvolvidos em várias áreas. O meio jurídico apresenta algumas limitações devido não só à extensão dos documentos, mas também ao vocabulário específico utilizado. Neste trabalho, foram desenvolvidos três modelos: um modelo ao nível das frases, um modelo ao nível do sumário e uma abordagem híbrida. Estas implementações tiveram como objetivo perceber as diferenças na geração de sumários usando tanto modelos de sumarização extrativos quanto abstrativos. Para cada implementação, usámos dois tipos de input: os documentos originais e secções específicas dos documentos. Para a fase de avaliação, usamos as métricas de avaliação ROUGE e BERTscore, onde comparamos os sumários gerados com os de referência. A análise dos resultados levou-nos a concluir que os modelos extrativos são eficazes na redução do tamanho dos documentos, especialmente no modelo ao nível do sumário e a utilizão de algoritmos abstractivos permite tornar o texto mais fluído. Além disso, verificou-se que a experiência ao nível do sumário teve um impacto substancial no processo de sumarização de documentos jurídicos portugueses. |
Designação do Departamento: | Departamento de Ciências e Tecnologias da Informação |
Designação do grau: | Mestrado em Engenharia Informática |
Arbitragem científica: | yes |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_margarida_rebelo_dias.pdf | 1,51 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.