Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/32158
Author(s): Nunes, Miguel Joaquim Bonacho
Advisor: Ferreira, João Carlos Amaro
Boné, João Miguel Baptista
Date: 8-Jul-2024
Title: MediAlbertina: A family of European Portuguese medical language models
Reference: Nunes, M. J. B. (2024). MediAlbertina: A family of European Portuguese medical language models [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32158
Keywords: Language Model
Information extraction
Healthcare
Domain adaptation
European Portuguese
Processamento de linguagem natural - -- NLP Natural language processing
Modelo de linguagem
Extração de informação
Saúde
Adaptação de domínio
Português europeu
Abstract: This dissertation aimed to create MediAlbertina, the first publicly available European Portuguese (PT-PT) medical language model trained using electronic medical records from 3 services at Hospital de Santa Maria. MediAlbertina was developed by continuing the pre-training of a selected baseline language model (Albertina PT-PT) through domain adaptation on more than 15 million sentences extracted from electronic medical records. To conduct this dissertation, we followed the Design Science Research Methodology (DSRM), beginning with a problem-centered approach. We identified a gap regarding the absence of PT-PT medical language models and established objectives to address it. Our literature review revealed similar approaches conducted with data from other languages, commonly evaluating the medical language models through fine-tuning them on downstream tasks. Our first DSRM iteration resulted in the development of two MediAlbertina PT-PT checkpoints, which were evaluated by measuring perplexity and validation loss. In the second DSRM iteration, we fine-tuned these checkpoints and the baseline Albertina PT-PT checkpoints to create Named Entity Recognition (NER) and Assertion Status models. The evaluation consisted of comparing the results of Precision, Recall, and F1 Score for all fine-tuned models. Our findings aligned with the literature review, demonstrating that MediAlbertina PT-PT checkpoints outperformed their respective baseline in both medical Information Extraction tasks by 1 to 4%, confirming the benefits of the domain adaptation. Both MediAlbertina PT-PT checkpoints are publicly available on the HuggingFace repository. These checkpoints can be further trained or fine-tuned on downstream medical Natural Language Processing tasks, contributing to the advancement of PT-PT Artificial Intelligence.
Esta dissertação visou a criação do MediAlbertina, o primeiro modelo de linguagem médica (MLM) Português Europeu (PT-PT) publicamente disponível, treinado utilizando registos médicos eletrónicos (RME) de 3 serviços do Hospital de Santa Maria. O MediAlbertina foi desenvolvido pela continuação do pré-treino do modelo de linguagem base (Albertina PT-PT) utilizando adaptação de domínio em 15 milhões de frases dos RME. Foi seguida a "Design Science Research Methodology" (DSRM), começando por uma abordagem centrada no problema onde identificámos uma lacuna na ausência de MLM em PT-PT. A revisão de literatura revelou abordagens semelhantes realizadas com dados de outras línguas, com a avaliação dos modelos de linguagem médica a ser feita pelo seu "fine-tuning" em tarefas "downstream". A primeira iteração de DSRM resultou no desenvolvimento de 2 checkpoints MediAlbertina PT-PT, avaliados medindo a sua perplexidade e "validation loss". Na segunda iteração de DSRM, realizámos "fine-tuning" aos nossos "checkpoints" e aos "checkpoints" base Albertina PT-PT para modelos de "Named Entity Recognition" (NER) e "Assertion Status". A avaliação consistiu na comparação dos resultados utilizando as métricas "Precision", "Recall" e "F1 Score". As conclusões foram consistentes com a revisão de literatura, demonstrando que os "checkpoints" MediAlbertina PT-PT superaram os resultados das suas "baselines" em ambas as tarefas de Extração de Informação por 1-4%, confirmando os benefícios da adaptação de domínio. Os checkpoints MediAlbertina PT-PT estão publicamente disponíveis no repositório "HuggingFace" e podem ser treinados ou sofrer "fine-tuning" em tarefas "downstream" de Processamento da Língua Natural médica, contribuindo para o avanço da Inteligência Artificial em Portugal.
Department: Departamento de Ciências e Tecnologias da Informação
Degree: Mestrado em Sistemas Integrados de Apoio à Decisão
Peerreviewed: yes
Access type: Embargoed Access
Appears in Collections:T&D-DM - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
master_miguel_bonacho_nunes.pdf
  Restricted Access
1,75 MBAdobe PDFView/Open Request a copy


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

This item is licensed under a Creative Commons License Creative Commons