Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/32158Registo completo
| Campo DC | Valor | Idioma |
|---|---|---|
| dc.contributor.advisor | Ferreira, João Carlos Amaro | - |
| dc.contributor.advisor | Boné, João Miguel Baptista | - |
| dc.contributor.author | Nunes, Miguel Joaquim Bonacho | - |
| dc.date.accessioned | 2024-08-06T09:53:23Z | - |
| dc.date.issued | 2024-07-08 | - |
| dc.date.submitted | 2024-06 | - |
| dc.identifier.citation | Nunes, M. J. B. (2024). MediAlbertina: A family of European Portuguese medical language models [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32158 | por |
| dc.identifier.uri | http://hdl.handle.net/10071/32158 | - |
| dc.description.abstract | This dissertation aimed to create MediAlbertina, the first publicly available European Portuguese (PT-PT) medical language model trained using electronic medical records from 3 services at Hospital de Santa Maria. MediAlbertina was developed by continuing the pre-training of a selected baseline language model (Albertina PT-PT) through domain adaptation on more than 15 million sentences extracted from electronic medical records. To conduct this dissertation, we followed the Design Science Research Methodology (DSRM), beginning with a problem-centered approach. We identified a gap regarding the absence of PT-PT medical language models and established objectives to address it. Our literature review revealed similar approaches conducted with data from other languages, commonly evaluating the medical language models through fine-tuning them on downstream tasks. Our first DSRM iteration resulted in the development of two MediAlbertina PT-PT checkpoints, which were evaluated by measuring perplexity and validation loss. In the second DSRM iteration, we fine-tuned these checkpoints and the baseline Albertina PT-PT checkpoints to create Named Entity Recognition (NER) and Assertion Status models. The evaluation consisted of comparing the results of Precision, Recall, and F1 Score for all fine-tuned models. Our findings aligned with the literature review, demonstrating that MediAlbertina PT-PT checkpoints outperformed their respective baseline in both medical Information Extraction tasks by 1 to 4%, confirming the benefits of the domain adaptation. Both MediAlbertina PT-PT checkpoints are publicly available on the HuggingFace repository. These checkpoints can be further trained or fine-tuned on downstream medical Natural Language Processing tasks, contributing to the advancement of PT-PT Artificial Intelligence. | por |
| dc.description.abstract | Esta dissertação visou a criação do MediAlbertina, o primeiro modelo de linguagem médica (MLM) Português Europeu (PT-PT) publicamente disponível, treinado utilizando registos médicos eletrónicos (RME) de 3 serviços do Hospital de Santa Maria. O MediAlbertina foi desenvolvido pela continuação do pré-treino do modelo de linguagem base (Albertina PT-PT) utilizando adaptação de domínio em 15 milhões de frases dos RME. Foi seguida a "Design Science Research Methodology" (DSRM), começando por uma abordagem centrada no problema onde identificámos uma lacuna na ausência de MLM em PT-PT. A revisão de literatura revelou abordagens semelhantes realizadas com dados de outras línguas, com a avaliação dos modelos de linguagem médica a ser feita pelo seu "fine-tuning" em tarefas "downstream". A primeira iteração de DSRM resultou no desenvolvimento de 2 checkpoints MediAlbertina PT-PT, avaliados medindo a sua perplexidade e "validation loss". Na segunda iteração de DSRM, realizámos "fine-tuning" aos nossos "checkpoints" e aos "checkpoints" base Albertina PT-PT para modelos de "Named Entity Recognition" (NER) e "Assertion Status". A avaliação consistiu na comparação dos resultados utilizando as métricas "Precision", "Recall" e "F1 Score". As conclusões foram consistentes com a revisão de literatura, demonstrando que os "checkpoints" MediAlbertina PT-PT superaram os resultados das suas "baselines" em ambas as tarefas de Extração de Informação por 1-4%, confirmando os benefícios da adaptação de domínio. Os checkpoints MediAlbertina PT-PT estão publicamente disponíveis no repositório "HuggingFace" e podem ser treinados ou sofrer "fine-tuning" em tarefas "downstream" de Processamento da Língua Natural médica, contribuindo para o avanço da Inteligência Artificial em Portugal. | por |
| dc.language.iso | eng | por |
| dc.rights | embargoedAccess | por |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | por |
| dc.subject | Language Model | por |
| dc.subject | Information extraction | por |
| dc.subject | Healthcare | por |
| dc.subject | Domain adaptation | por |
| dc.subject | European Portuguese | por |
| dc.subject | Processamento de linguagem natural - -- NLP Natural language processing | por |
| dc.subject | Modelo de linguagem | por |
| dc.subject | Extração de informação | por |
| dc.subject | Saúde | por |
| dc.subject | Adaptação de domínio | por |
| dc.subject | Português europeu | por |
| dc.title | MediAlbertina: A family of European Portuguese medical language models | por |
| dc.type | masterThesis | por |
| dc.peerreviewed | yes | por |
| dc.identifier.tid | 203659945 | por |
| dc.subject.fos | Domínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologias | por |
| dc.subject.fos | Domínio/Área Científica::Ciências Sociais::Economia e Gestão | por |
| thesis.degree.name | Mestrado em Sistemas Integrados de Apoio à Decisão | por |
| dc.date.embargo | 2027-07-08 | - |
| thesis.degree.department | Departamento de Ciências e Tecnologias da Informação | por |
| Aparece nas coleções: | T&D-DM - Dissertações de mestrado | |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| master_miguel_bonacho_nunes.pdf Restricted Access | 1,75 MB | Adobe PDF | Ver/Abrir Request a copy |
Este registo está protegido por Licença Creative Commons












