Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/32158
Registo completo
Campo DCValorIdioma
dc.contributor.advisorFerreira, João Carlos Amaro-
dc.contributor.advisorBoné, João Miguel Baptista-
dc.contributor.authorNunes, Miguel Joaquim Bonacho-
dc.date.accessioned2024-08-06T09:53:23Z-
dc.date.issued2024-07-08-
dc.date.submitted2024-06-
dc.identifier.citationNunes, M. J. B. (2024). MediAlbertina: A family of European Portuguese medical language models [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/32158por
dc.identifier.urihttp://hdl.handle.net/10071/32158-
dc.description.abstractThis dissertation aimed to create MediAlbertina, the first publicly available European Portuguese (PT-PT) medical language model trained using electronic medical records from 3 services at Hospital de Santa Maria. MediAlbertina was developed by continuing the pre-training of a selected baseline language model (Albertina PT-PT) through domain adaptation on more than 15 million sentences extracted from electronic medical records. To conduct this dissertation, we followed the Design Science Research Methodology (DSRM), beginning with a problem-centered approach. We identified a gap regarding the absence of PT-PT medical language models and established objectives to address it. Our literature review revealed similar approaches conducted with data from other languages, commonly evaluating the medical language models through fine-tuning them on downstream tasks. Our first DSRM iteration resulted in the development of two MediAlbertina PT-PT checkpoints, which were evaluated by measuring perplexity and validation loss. In the second DSRM iteration, we fine-tuned these checkpoints and the baseline Albertina PT-PT checkpoints to create Named Entity Recognition (NER) and Assertion Status models. The evaluation consisted of comparing the results of Precision, Recall, and F1 Score for all fine-tuned models. Our findings aligned with the literature review, demonstrating that MediAlbertina PT-PT checkpoints outperformed their respective baseline in both medical Information Extraction tasks by 1 to 4%, confirming the benefits of the domain adaptation. Both MediAlbertina PT-PT checkpoints are publicly available on the HuggingFace repository. These checkpoints can be further trained or fine-tuned on downstream medical Natural Language Processing tasks, contributing to the advancement of PT-PT Artificial Intelligence.por
dc.description.abstractEsta dissertação visou a criação do MediAlbertina, o primeiro modelo de linguagem médica (MLM) Português Europeu (PT-PT) publicamente disponível, treinado utilizando registos médicos eletrónicos (RME) de 3 serviços do Hospital de Santa Maria. O MediAlbertina foi desenvolvido pela continuação do pré-treino do modelo de linguagem base (Albertina PT-PT) utilizando adaptação de domínio em 15 milhões de frases dos RME. Foi seguida a "Design Science Research Methodology" (DSRM), começando por uma abordagem centrada no problema onde identificámos uma lacuna na ausência de MLM em PT-PT. A revisão de literatura revelou abordagens semelhantes realizadas com dados de outras línguas, com a avaliação dos modelos de linguagem médica a ser feita pelo seu "fine-tuning" em tarefas "downstream". A primeira iteração de DSRM resultou no desenvolvimento de 2 checkpoints MediAlbertina PT-PT, avaliados medindo a sua perplexidade e "validation loss". Na segunda iteração de DSRM, realizámos "fine-tuning" aos nossos "checkpoints" e aos "checkpoints" base Albertina PT-PT para modelos de "Named Entity Recognition" (NER) e "Assertion Status". A avaliação consistiu na comparação dos resultados utilizando as métricas "Precision", "Recall" e "F1 Score". As conclusões foram consistentes com a revisão de literatura, demonstrando que os "checkpoints" MediAlbertina PT-PT superaram os resultados das suas "baselines" em ambas as tarefas de Extração de Informação por 1-4%, confirmando os benefícios da adaptação de domínio. Os checkpoints MediAlbertina PT-PT estão publicamente disponíveis no repositório "HuggingFace" e podem ser treinados ou sofrer "fine-tuning" em tarefas "downstream" de Processamento da Língua Natural médica, contribuindo para o avanço da Inteligência Artificial em Portugal.por
dc.language.isoengpor
dc.rightsembargoedAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectLanguage Modelpor
dc.subjectInformation extractionpor
dc.subjectHealthcarepor
dc.subjectDomain adaptationpor
dc.subjectEuropean Portuguesepor
dc.subjectProcessamento de linguagem natural - -- NLP Natural language processingpor
dc.subjectModelo de linguagempor
dc.subjectExtração de informaçãopor
dc.subjectSaúdepor
dc.subjectAdaptação de domíniopor
dc.subjectPortuguês europeupor
dc.titleMediAlbertina: A family of European Portuguese medical language modelspor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid203659945por
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
thesis.degree.nameMestrado em Sistemas Integrados de Apoio à Decisãopor
dc.date.embargo2027-07-08-
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informaçãopor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_miguel_bonacho_nunes.pdf
  Restricted Access
1,75 MBAdobe PDFVer/Abrir Request a copy


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons