Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/32158| Autoria: | Nunes, Miguel Joaquim Bonacho |
| Orientação: | Ferreira, João Carlos Amaro Boné, João Miguel Baptista |
| Data: | 8-Jul-2024 |
| Título próprio: | MediAlbertina: A family of European Portuguese medical language models |
| Referência bibliográfica: | Nunes, M. J. B. (2024). MediAlbertina: A family of European Portuguese medical language models [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32158 |
| Palavras-chave: | Language Model Information extraction Healthcare Domain adaptation European Portuguese Processamento de linguagem natural - -- NLP Natural language processing Modelo de linguagem Extração de informação Saúde Adaptação de domínio Português europeu |
| Resumo: | This dissertation aimed to create MediAlbertina, the first publicly available European Portuguese (PT-PT) medical language model trained using electronic medical records from 3 services at Hospital de Santa Maria. MediAlbertina was developed by continuing the pre-training of a selected baseline language model (Albertina PT-PT) through domain adaptation on more than 15 million sentences extracted from electronic medical records.
To conduct this dissertation, we followed the Design Science Research Methodology (DSRM), beginning with a problem-centered approach. We identified a gap regarding the absence of PT-PT medical language models and established objectives to address it. Our literature review revealed similar approaches conducted with data from other languages, commonly evaluating the medical language models through fine-tuning them on downstream tasks.
Our first DSRM iteration resulted in the development of two MediAlbertina PT-PT checkpoints, which were evaluated by measuring perplexity and validation loss. In the second DSRM iteration, we fine-tuned these checkpoints and the baseline Albertina PT-PT checkpoints to create Named Entity Recognition (NER) and Assertion Status models. The evaluation consisted of comparing the results of Precision, Recall, and F1 Score for all fine-tuned models.
Our findings aligned with the literature review, demonstrating that MediAlbertina PT-PT checkpoints outperformed their respective baseline in both medical Information Extraction tasks by 1 to 4%, confirming the benefits of the domain adaptation. Both MediAlbertina PT-PT checkpoints are publicly available on the HuggingFace repository. These checkpoints can be further trained or fine-tuned on downstream medical Natural Language Processing tasks, contributing to the advancement of PT-PT Artificial Intelligence. Esta dissertação visou a criação do MediAlbertina, o primeiro modelo de linguagem médica (MLM) Português Europeu (PT-PT) publicamente disponível, treinado utilizando registos médicos eletrónicos (RME) de 3 serviços do Hospital de Santa Maria. O MediAlbertina foi desenvolvido pela continuação do pré-treino do modelo de linguagem base (Albertina PT-PT) utilizando adaptação de domínio em 15 milhões de frases dos RME. Foi seguida a "Design Science Research Methodology" (DSRM), começando por uma abordagem centrada no problema onde identificámos uma lacuna na ausência de MLM em PT-PT. A revisão de literatura revelou abordagens semelhantes realizadas com dados de outras línguas, com a avaliação dos modelos de linguagem médica a ser feita pelo seu "fine-tuning" em tarefas "downstream". A primeira iteração de DSRM resultou no desenvolvimento de 2 checkpoints MediAlbertina PT-PT, avaliados medindo a sua perplexidade e "validation loss". Na segunda iteração de DSRM, realizámos "fine-tuning" aos nossos "checkpoints" e aos "checkpoints" base Albertina PT-PT para modelos de "Named Entity Recognition" (NER) e "Assertion Status". A avaliação consistiu na comparação dos resultados utilizando as métricas "Precision", "Recall" e "F1 Score". As conclusões foram consistentes com a revisão de literatura, demonstrando que os "checkpoints" MediAlbertina PT-PT superaram os resultados das suas "baselines" em ambas as tarefas de Extração de Informação por 1-4%, confirmando os benefícios da adaptação de domínio. Os checkpoints MediAlbertina PT-PT estão publicamente disponíveis no repositório "HuggingFace" e podem ser treinados ou sofrer "fine-tuning" em tarefas "downstream" de Processamento da Língua Natural médica, contribuindo para o avanço da Inteligência Artificial em Portugal. |
| Designação do Departamento: | Departamento de Ciências e Tecnologias da Informação |
| Designação do grau: | Mestrado em Sistemas Integrados de Apoio à Decisão |
| Arbitragem científica: | yes |
| Acesso: | Acesso Embargado |
| Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| master_miguel_bonacho_nunes.pdf Restricted Access | 1,75 MB | Adobe PDF | Ver/Abrir Request a copy |
Este registo está protegido por Licença Creative Commons












