Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/36347Registo completo
| Campo DC | Valor | Idioma |
|---|---|---|
| dc.contributor.advisor | Barateiro, José Eduardo de Mendonça Tomás | - |
| dc.contributor.advisor | Ribeiro, Eugénio Alves | - |
| dc.contributor.author | Dias, David Bernardes | - |
| dc.date.accessioned | 2026-02-18T17:22:14Z | - |
| dc.date.issued | 2025-11-20 | - |
| dc.date.submitted | 2025-09 | - |
| dc.identifier.citation | Dias, D. B. (2025). Análise e normalização de transcrições médicas através de PLN [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36347 | por |
| dc.identifier.uri | http://hdl.handle.net/10071/36347 | - |
| dc.description.abstract | O volume crescente de dados clínicos não estruturados - como transcrições, notas e relatórios - dificulta a extração de informação consistente e pertinente para apoio à decisão em saúde. Esta dissertação propõe uma abordagem de Processamento de Linguagem Natural (PLN) para analisar e normalizar transcrições médicas, transformando texto livre em dados estruturados úteis. O trabalho enquadra o problema e os seus desafios e define objetivos centrados na extração de entidades e no mapeamento ontológico para terminologias padronizadas. Adotou-se a metodologia CRISP-DM para conceber um "pipeline" reprodutível com quatro etapas: (i) reconhecimento de entidades clínicas (NER) com modelos de domínio geral e biomédico; (ii) normalização lexical e pós-processamento para recompor entidades; (iii) mapeamento para UMLS e codificação ICD-10; e (iv) avaliação por níveis de confiança e taxas de mapeamento, na ausência de "gold standard" anotado. Os resultados mostram a inadequação de modelos NER de uso geral em contexto clínico e a superioridade de modelos biomédicos na extração de categorias relevantes. O pós-processamento aumentou substancialmente a normalização. Um modelo da família BERT destacou-se na deteção inicial, enquanto o modelo BioGPT foi mais estável no mapeamento ontológico. Verificou-se ainda um compromisso entre cobertura e precisão, dependente dos limiares de similaridade e de confiança. O "pipeline" proposto constitui uma abordagem promissora que poderá contribuir para a viabilização da normalização semântica de transcrições médicas e poderá ser proposto para integração em Registos de Saúde Eletrónicos (RSE) e sistemas de apoio à decisão. Futuramente, propõe-se incorporar deteção explícita de negação, adaptação ao português clínico e estratégias híbridas de mapeamento. | por |
| dc.description.abstract | The growing volume of unstructured clinical data - such as transcripts, notes, and reports - makes it difficult to extract consistent and relevant information to support healthcare decision-making. This dissertation proposes a Natural Language Processing (NLP) approach to analyse and standardise medical transcripts, transforming free text into useful structured data. The work frames the problem and its challenges and defines objectives focused on entity extraction and ontological mapping to standardised terminologies. The CRISP-DM methodology was adopted to design a reproducible pipeline with four steps: (i) clinical entity recognition (NER) with general and biomedical domain models; (ii) lexical standardisation and post-processing to recompose entities; (iii) mapping to UMLS and ICD-10 coding; and (iv) evaluation by confidence levels and mapping rates, in the absence of an annotated gold standard. The results show the inadequacy of general-purpose NER models in a clinical context and the superiority of biomedical models in extracting relevant categories. Post-processing substantially increased normalisation. The BERT model stood out in initial detection, while BioGPT approach was more stable in ontological mapping. There was also a trade-off between coverage and accuracy, depending on similarity and confidence thresholds. The proposed pipeline is a promising approach that could contribute to the feasibility of semantic normalisation of medical transcripts and could be proposed for integration into Electronic Health Records (EHRs) and decision support systems. In the future, we propose to incorporate explicit negation detection, adaptation to clinical Portuguese, and hybrid mapping strategies. | por |
| dc.language.iso | por | por |
| dc.rights | restrictedAccess | por |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | por |
| dc.subject | Processamento de linguagem natural - -- NLP Natural language processing | por |
| dc.subject | Transcriões médicas | por |
| dc.subject | Reconhecimento de entidades nomeadas | por |
| dc.subject | Normalização ontológica | por |
| dc.subject | Medical transcripts | por |
| dc.subject | Named entity recognition | por |
| dc.subject | Ontological normalisation | por |
| dc.title | Análise e normalização de transcrições médicas através de PLN | por |
| dc.type | masterThesis | por |
| dc.peerreviewed | yes | por |
| dc.identifier.tid | 204089794 | por |
| dc.subject.fos | Domínio/Área Científica::Ciências Sociais::Sociologia | por |
| thesis.degree.name | Mestrado em Sistemas Integrados de Apoio à Decisão | por |
| dc.date.embargo | 2026-11-20 | - |
| thesis.degree.department | Departamento de Ciências e Tecnologias da Informação | por |
| Aparece nas coleções: | T&D-DM - Dissertações de mestrado | |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| master_david_bernardes_dias.pdf Restricted Access | 1,25 MB | Adobe PDF | Ver/Abrir Request a copy |
Este registo está protegido por Licença Creative Commons












