MediAlbertina: A family of European Portuguese medical language models

Nunes, Miguel Joaquim Bonacho

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/32158

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Ferreira, João Carlos Amaro	-
dc.contributor.advisor	Boné, João Miguel Baptista	-
dc.contributor.author	Nunes, Miguel Joaquim Bonacho	-
dc.date.accessioned	2024-08-06T09:53:23Z	-
dc.date.issued	2024-07-08	-
dc.date.submitted	2024-06	-
dc.identifier.citation	Nunes, M. J. B. (2024). MediAlbertina: A family of European Portuguese medical language models [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32158	por
dc.identifier.uri	http://hdl.handle.net/10071/32158	-
dc.description.abstract	This dissertation aimed to create MediAlbertina, the first publicly available European Portuguese (PT-PT) medical language model trained using electronic medical records from 3 services at Hospital de Santa Maria. MediAlbertina was developed by continuing the pre-training of a selected baseline language model (Albertina PT-PT) through domain adaptation on more than 15 million sentences extracted from electronic medical records. To conduct this dissertation, we followed the Design Science Research Methodology (DSRM), beginning with a problem-centered approach. We identified a gap regarding the absence of PT-PT medical language models and established objectives to address it. Our literature review revealed similar approaches conducted with data from other languages, commonly evaluating the medical language models through fine-tuning them on downstream tasks. Our first DSRM iteration resulted in the development of two MediAlbertina PT-PT checkpoints, which were evaluated by measuring perplexity and validation loss. In the second DSRM iteration, we fine-tuned these checkpoints and the baseline Albertina PT-PT checkpoints to create Named Entity Recognition (NER) and Assertion Status models. The evaluation consisted of comparing the results of Precision, Recall, and F1 Score for all fine-tuned models. Our findings aligned with the literature review, demonstrating that MediAlbertina PT-PT checkpoints outperformed their respective baseline in both medical Information Extraction tasks by 1 to 4%, confirming the benefits of the domain adaptation. Both MediAlbertina PT-PT checkpoints are publicly available on the HuggingFace repository. These checkpoints can be further trained or fine-tuned on downstream medical Natural Language Processing tasks, contributing to the advancement of PT-PT Artificial Intelligence.	por
dc.description.abstract	Esta dissertação visou a criação do MediAlbertina, o primeiro modelo de linguagem médica (MLM) Português Europeu (PT-PT) publicamente disponível, treinado utilizando registos médicos eletrónicos (RME) de 3 serviços do Hospital de Santa Maria. O MediAlbertina foi desenvolvido pela continuação do pré-treino do modelo de linguagem base (Albertina PT-PT) utilizando adaptação de domínio em 15 milhões de frases dos RME. Foi seguida a "Design Science Research Methodology" (DSRM), começando por uma abordagem centrada no problema onde identificámos uma lacuna na ausência de MLM em PT-PT. A revisão de literatura revelou abordagens semelhantes realizadas com dados de outras línguas, com a avaliação dos modelos de linguagem médica a ser feita pelo seu "fine-tuning" em tarefas "downstream". A primeira iteração de DSRM resultou no desenvolvimento de 2 checkpoints MediAlbertina PT-PT, avaliados medindo a sua perplexidade e "validation loss". Na segunda iteração de DSRM, realizámos "fine-tuning" aos nossos "checkpoints" e aos "checkpoints" base Albertina PT-PT para modelos de "Named Entity Recognition" (NER) e "Assertion Status". A avaliação consistiu na comparação dos resultados utilizando as métricas "Precision", "Recall" e "F1 Score". As conclusões foram consistentes com a revisão de literatura, demonstrando que os "checkpoints" MediAlbertina PT-PT superaram os resultados das suas "baselines" em ambas as tarefas de Extração de Informação por 1-4%, confirmando os benefícios da adaptação de domínio. Os checkpoints MediAlbertina PT-PT estão publicamente disponíveis no repositório "HuggingFace" e podem ser treinados ou sofrer "fine-tuning" em tarefas "downstream" de Processamento da Língua Natural médica, contribuindo para o avanço da Inteligência Artificial em Portugal.	por
dc.language.iso	eng	por
dc.rights	embargoedAccess	por
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	por
dc.subject	Language Model	por
dc.subject	Information extraction	por
dc.subject	Healthcare	por
dc.subject	Domain adaptation	por
dc.subject	European Portuguese	por
dc.subject	Processamento de linguagem natural - -- NLP Natural language processing	por
dc.subject	Modelo de linguagem	por
dc.subject	Extração de informação	por
dc.subject	Saúde	por
dc.subject	Adaptação de domínio	por
dc.subject	Português europeu	por
dc.title	MediAlbertina: A family of European Portuguese medical language models	por
dc.type	masterThesis	por
dc.peerreviewed	yes	por
dc.identifier.tid	203659945	por
dc.subject.fos	Domínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologias	por
dc.subject.fos	Domínio/Área Científica::Ciências Sociais::Economia e Gestão	por
thesis.degree.name	Mestrado em Sistemas Integrados de Apoio à Decisão	por
dc.date.embargo	2027-07-08	-
thesis.degree.department	Departamento de Ciências e Tecnologias da Informação	por
Aparece nas coleções:	T&D-DM - Dissertações de mestrado