Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/31005
Autoria: | Gonçalves, Ana Catarina Martins |
Orientação: | Almeida, Ana Maria Carvalho de Breternitz Jr., Maurício |
Data: | 4-Dez-2023 |
Título próprio: | Text mining de relatórios clínicos |
Referência bibliográfica: | Gonçalves, A. C. M. (2023). Text mining de relatórios clínicos [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/31005 |
Palavras-chave: | Processamento de linguagem natural - -- NLP Natural language processing Texto clínico Anonimização de texto Clinical text Text anonymization |
Resumo: | No âmbito do projeto de investigação em Inteligência Artificial AIM Health, foram obtidos
ficheiros de texto, em português europeu, com relatórios de procedimentos e exames
médicos, para explorar a possibilidade de extrair variáveis para melhorar algoritmos de
Aprendizagem Automática. Uma análise inicial revelou que os textos incluíam dados
pessoais, como nomes de médicos e pacientes ou datas.
A recolha, tratamento e armazenamento de dados são estritamente regulamentados
na Europa e, sem consentimento explícito, dados pessoais não podem ser partilhados.
A remoção de dados pessoais em grandes volumes de textos não é uma tarefa simples.
Identificar os dados manualmente é uma solução onerosa e propensa a erros. Existem
soluções automáticas para apoiar esta identificação, mas surgem inúmeras dúvidas ao
avaliar o desempenho e a equidade destes mecanismos.
Este trabalho visa proporcionar uma melhor compreensão dos textos, dos possíveis
dados pessoais neles contidos e dar apoio sobre como geri-los. O objetivo final e fornecer
um solido ponto de partida para trabalhos futuros e promover o uso responsável dos dados.
Foram analisados cerca de 2.000 notas de admissão e relatórios de procedimentos e
exames, e identificados quase 4.000 blocos de texto com eventual informação identificável,
em 12 categorias distintas. Para apoiar a anotação manual, foi desenvolvida uma ferramenta
customizada, e cerca de 12.000 abreviaturas registadas, resultando num dicionário
auxiliar com 967 abreviaturas distintas, a sua forma completa e tipo semântico.
Finalmente, com base no relatório anterior, algumas experiências com identificação
automática provaram que estes métodos, com supervisão responsável, podem ser um recurso
valioso. In the context of the Artificial Intelligence scientific research project AIM Health, text files, in European Portuguese, with reports of medical procedures and exams were made available, to explore the possibility of extracting features to improve Machine Learning algorithms. An initial analysis revealed that the texts included Personally Identifiable Information, such as full names of physicians and patients or dates. Data collection, treatment, and storage are strictly regulated in Europe and without explicit consent, personal data cannot be shared. Removing Personally Identifiable Information from large amounts of text is not a simple endeavor. Manually identifying data is a very costly solution and prone to error. Automatic solutions can support the identification of sensitive data, but questions arise when assessing these mechanisms’ performance and fairness. This work aims to provide a better understanding of the texts, possible personal information in them, and support on how to govern them. The end goal is to provide a solid stepping stone for following works and promote responsible use of the data. Around 2,000 admission notes and procedure reports were read and almost 4,000 possible Personally Identifiable Information were identified, in 12 distinct categories. To support manual annotation, a custom tool was developed, and nearly 12,000 abbreviations were registered, resulting in an auxiliary dictionary with 967 unique abbreviations, their complete form, and corresponding semantic types. Finally, based on the previous report, some experiments with automatic identification proved that these methods, with responsible supervision, can be a valuable resource. |
Designação do Departamento: | Departamento de Métodos Quantitativos para Gestão e Economia Departamento de Ciências e Tecnologias da Informação |
Designação do grau: | Mestrado em Ciência de Dados |
Arbitragem científica: | yes |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_ana_martins_goncalves.pdf | 1,51 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.