Análise e normalização de transcrições médicas através de PLN

Dias, David Bernardes

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/36347

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Barateiro, José Eduardo de Mendonça Tomás	-
dc.contributor.advisor	Ribeiro, Eugénio Alves	-
dc.contributor.author	Dias, David Bernardes	-
dc.date.accessioned	2026-02-18T17:22:14Z	-
dc.date.issued	2025-11-20	-
dc.date.submitted	2025-09	-
dc.identifier.citation	Dias, D. B. (2025). Análise e normalização de transcrições médicas através de PLN [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36347	por
dc.identifier.uri	http://hdl.handle.net/10071/36347	-
dc.description.abstract	O volume crescente de dados clínicos não estruturados - como transcrições, notas e relatórios - dificulta a extração de informação consistente e pertinente para apoio à decisão em saúde. Esta dissertação propõe uma abordagem de Processamento de Linguagem Natural (PLN) para analisar e normalizar transcrições médicas, transformando texto livre em dados estruturados úteis. O trabalho enquadra o problema e os seus desafios e define objetivos centrados na extração de entidades e no mapeamento ontológico para terminologias padronizadas. Adotou-se a metodologia CRISP-DM para conceber um "pipeline" reprodutível com quatro etapas: (i) reconhecimento de entidades clínicas (NER) com modelos de domínio geral e biomédico; (ii) normalização lexical e pós-processamento para recompor entidades; (iii) mapeamento para UMLS e codificação ICD-10; e (iv) avaliação por níveis de confiança e taxas de mapeamento, na ausência de "gold standard" anotado. Os resultados mostram a inadequação de modelos NER de uso geral em contexto clínico e a superioridade de modelos biomédicos na extração de categorias relevantes. O pós-processamento aumentou substancialmente a normalização. Um modelo da família BERT destacou-se na deteção inicial, enquanto o modelo BioGPT foi mais estável no mapeamento ontológico. Verificou-se ainda um compromisso entre cobertura e precisão, dependente dos limiares de similaridade e de confiança. O "pipeline" proposto constitui uma abordagem promissora que poderá contribuir para a viabilização da normalização semântica de transcrições médicas e poderá ser proposto para integração em Registos de Saúde Eletrónicos (RSE) e sistemas de apoio à decisão. Futuramente, propõe-se incorporar deteção explícita de negação, adaptação ao português clínico e estratégias híbridas de mapeamento.	por
dc.description.abstract	The growing volume of unstructured clinical data - such as transcripts, notes, and reports - makes it difficult to extract consistent and relevant information to support healthcare decision-making. This dissertation proposes a Natural Language Processing (NLP) approach to analyse and standardise medical transcripts, transforming free text into useful structured data. The work frames the problem and its challenges and defines objectives focused on entity extraction and ontological mapping to standardised terminologies. The CRISP-DM methodology was adopted to design a reproducible pipeline with four steps: (i) clinical entity recognition (NER) with general and biomedical domain models; (ii) lexical standardisation and post-processing to recompose entities; (iii) mapping to UMLS and ICD-10 coding; and (iv) evaluation by confidence levels and mapping rates, in the absence of an annotated gold standard. The results show the inadequacy of general-purpose NER models in a clinical context and the superiority of biomedical models in extracting relevant categories. Post-processing substantially increased normalisation. The BERT model stood out in initial detection, while BioGPT approach was more stable in ontological mapping. There was also a trade-off between coverage and accuracy, depending on similarity and confidence thresholds. The proposed pipeline is a promising approach that could contribute to the feasibility of semantic normalisation of medical transcripts and could be proposed for integration into Electronic Health Records (EHRs) and decision support systems. In the future, we propose to incorporate explicit negation detection, adaptation to clinical Portuguese, and hybrid mapping strategies.	por
dc.language.iso	por	por
dc.rights	restrictedAccess	por
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	por
dc.subject	Processamento de linguagem natural - -- NLP Natural language processing	por
dc.subject	Transcriões médicas	por
dc.subject	Reconhecimento de entidades nomeadas	por
dc.subject	Normalização ontológica	por
dc.subject	Medical transcripts	por
dc.subject	Named entity recognition	por
dc.subject	Ontological normalisation	por
dc.title	Análise e normalização de transcrições médicas através de PLN	por
dc.type	masterThesis	por
dc.peerreviewed	yes	por
dc.identifier.tid	204089794	por
dc.subject.fos	Domínio/Área Científica::Ciências Sociais::Sociologia	por
thesis.degree.name	Mestrado em Sistemas Integrados de Apoio à Decisão	por
dc.date.embargo	2026-11-20	-
thesis.degree.department	Departamento de Ciências e Tecnologias da Informação	por
Aparece nas coleções:	T&D-DM - Dissertações de mestrado