Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/36347
Registo completo
Campo DCValorIdioma
dc.contributor.advisorBarateiro, José Eduardo de Mendonça Tomás-
dc.contributor.advisorRibeiro, Eugénio Alves-
dc.contributor.authorDias, David Bernardes-
dc.date.accessioned2026-02-18T17:22:14Z-
dc.date.issued2025-11-20-
dc.date.submitted2025-09-
dc.identifier.citationDias, D. B. (2025). Análise e normalização de transcrições médicas através de PLN [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36347por
dc.identifier.urihttp://hdl.handle.net/10071/36347-
dc.description.abstractO volume crescente de dados clínicos não estruturados - como transcrições, notas e relatórios - dificulta a extração de informação consistente e pertinente para apoio à decisão em saúde. Esta dissertação propõe uma abordagem de Processamento de Linguagem Natural (PLN) para analisar e normalizar transcrições médicas, transformando texto livre em dados estruturados úteis. O trabalho enquadra o problema e os seus desafios e define objetivos centrados na extração de entidades e no mapeamento ontológico para terminologias padronizadas. Adotou-se a metodologia CRISP-DM para conceber um "pipeline" reprodutível com quatro etapas: (i) reconhecimento de entidades clínicas (NER) com modelos de domínio geral e biomédico; (ii) normalização lexical e pós-processamento para recompor entidades; (iii) mapeamento para UMLS e codificação ICD-10; e (iv) avaliação por níveis de confiança e taxas de mapeamento, na ausência de "gold standard" anotado. Os resultados mostram a inadequação de modelos NER de uso geral em contexto clínico e a superioridade de modelos biomédicos na extração de categorias relevantes. O pós-processamento aumentou substancialmente a normalização. Um modelo da família BERT destacou-se na deteção inicial, enquanto o modelo BioGPT foi mais estável no mapeamento ontológico. Verificou-se ainda um compromisso entre cobertura e precisão, dependente dos limiares de similaridade e de confiança. O "pipeline" proposto constitui uma abordagem promissora que poderá contribuir para a viabilização da normalização semântica de transcrições médicas e poderá ser proposto para integração em Registos de Saúde Eletrónicos (RSE) e sistemas de apoio à decisão. Futuramente, propõe-se incorporar deteção explícita de negação, adaptação ao português clínico e estratégias híbridas de mapeamento.por
dc.description.abstractThe growing volume of unstructured clinical data - such as transcripts, notes, and reports - makes it difficult to extract consistent and relevant information to support healthcare decision-making. This dissertation proposes a Natural Language Processing (NLP) approach to analyse and standardise medical transcripts, transforming free text into useful structured data. The work frames the problem and its challenges and defines objectives focused on entity extraction and ontological mapping to standardised terminologies. The CRISP-DM methodology was adopted to design a reproducible pipeline with four steps: (i) clinical entity recognition (NER) with general and biomedical domain models; (ii) lexical standardisation and post-processing to recompose entities; (iii) mapping to UMLS and ICD-10 coding; and (iv) evaluation by confidence levels and mapping rates, in the absence of an annotated gold standard. The results show the inadequacy of general-purpose NER models in a clinical context and the superiority of biomedical models in extracting relevant categories. Post-processing substantially increased normalisation. The BERT model stood out in initial detection, while BioGPT approach was more stable in ontological mapping. There was also a trade-off between coverage and accuracy, depending on similarity and confidence thresholds. The proposed pipeline is a promising approach that could contribute to the feasibility of semantic normalisation of medical transcripts and could be proposed for integration into Electronic Health Records (EHRs) and decision support systems. In the future, we propose to incorporate explicit negation detection, adaptation to clinical Portuguese, and hybrid mapping strategies.por
dc.language.isoporpor
dc.rightsrestrictedAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectProcessamento de linguagem natural - -- NLP Natural language processingpor
dc.subjectTranscriões médicaspor
dc.subjectReconhecimento de entidades nomeadaspor
dc.subjectNormalização ontológicapor
dc.subjectMedical transcriptspor
dc.subjectNamed entity recognitionpor
dc.subjectOntological normalisationpor
dc.titleAnálise e normalização de transcrições médicas através de PLNpor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid204089794por
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Sociologiapor
thesis.degree.nameMestrado em Sistemas Integrados de Apoio à Decisãopor
dc.date.embargo2026-11-20-
thesis.degree.departmentDepartamento de Ciências e Tecnologias da Informaçãopor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_david_bernardes_dias.pdf
  Restricted Access
1,25 MBAdobe PDFVer/Abrir Request a copy


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons