Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/34792
Autoria: | Faria, Carlos Daniel Costa |
Orientação: | Mendes, Diana E. Aldea |
Data: | 16-Dez-2024 |
Título próprio: | Data augmentation with GANs applied to healthcare |
Referência bibliográfica: | Faria, C. D. C. (2024). Data augmentation with GANs applied to healthcare [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/34792 |
Palavras-chave: | Generative adversarial networks Electrocardiogram Data augmentation Time-series Redes adversariais generativas Electrocardiograma Aumento de dados Séries temporais |
Resumo: | This dissertation explores the application of Generative Adversarial Networks (GANs)
to generate time-series data, with a particular focus on Electrocardiogram (ECG) signals
used for arrhythmia detection. Data scarcity in medical fields is compounded by privacy
regulations, the technical complexities of data collection, and the rarity of certain
pathologies, all of which limit access to comprehensive datasets.
With a foundation in the MIT-BIH Arrhythmia Database, this study leverages a
Wasserstein GAN with Gradient Penalty (WGAN-GP) architecture and changes the
model’s structure by adding bidirectional Long Short-Term Memory (LSTM) layers to
generate realistic synthetic ECG signals. These synthetic signals aim to balance datasets
for arrhythmia classification, improving classifier performance where traditional Data
Augmentation (DA) methods fall short due to privacy, rarity, and complexity constraints
in medical data.
The GAN model’s training was evaluated using a combination of quantitative metrics
such as Euclidean Distance and Dynamic Time Warping (DTW), alongside visual
techniques like Principal Component Analysis (PCA) and t-distributed Stochastic Neighbor
Embedding (t-SNE). Additionally, a classification model trained on augmented ECG
data demonstrated potential in addressing dataset imbalances and enhancing accuracy in
detecting arrhythmic events, demonstrating the GAN’s effectiveness in enhancing model
performance.
This work contributes to the broader field of healthcare data science. It highlights
the potential of GANs to overcome significant challenges by providing privacy-preserving,
diverse datasets that improve diagnostic model accuracy. Through this approach, GANs
offer a tool for medical research, facilitating the development of robust predictive models
while maintaining data integrity and confidentiality. The results underscore the potential
for GANs to impact, where enhanced data accessibility and diversity can significantly
improve patient outcomes in arrhythmia detection and beyond. Esta dissertação explora a aplicação de Redes Adversariais Generativas (GANs) para gerar dados de séries temporais, com foco particular em sinais de eletrocardiograma (ECG) usados para detecção de arritmias. A escassez de dados nas áreas médicas é agravada pelas regulamentações de privacidade, pelas complexidades técnicas da recolha de dados e pela raridade de certas patologias, que limitam o acesso a conjuntos de dados abrangentes. Recorrendo `a base de dados de arritmia do MIT-BIH, este estudo aproveita uma arquitetura Wasserstein GAN com Gradient Penalty (WGAN-GP) e altera a estrutura do modelo adicionando camadas Long Short-Term Memory (LSTM) bidirecionais para gerar sinais de ECG sintéticos realistas. Esses sinais sintéticos visam equilibrar conjuntos de dados para classificação de arritmia, melhorando o desempenho do classificador onde os métodos tradicionais de aumento de dados são insuficientes devido a restrições de privacidade, raridade e complexidade em dados médicos. O processo de treino do modelo GAN foi avaliado usando uma combinação de métricas quantitativas, como Euclidean Distance e Dynamic Time Warping, juntamente com técnicas visuais como PCA e t-SNE. Além disso, um modelo de classificação treinado com dados de ECG aumentados demonstrou potencial na abordagem de desequilíbrios no conjunto de dados e no aumento da precisão na detecção de eventos arrítmicos, demonstrando a eficácia do GAN na melhoria do desempenho do modelo. Este trabalho contribui para o campo da ciência de dados em saúde. Destaca o potencial das GANs para superar desafios significativos, fornecendo conjuntos de dados diversos que preservam a privacidade e melhoram a precisão do modelo de diagnóstico. Através desta abordagem, os GANs oferecem uma ferramenta para a investigação médica, facilitando o desenvolvimento de modelos preditivos robustos, mantendo ao mesmo tempo, a integridade e a confidencialidade dos dados. Os resultados realçam o potencial de impacto dos GANs, onde a maior acessibilidade e diversidade dos dados podem melhorar significativamente os resultados dos pacientes na detecção de arritmia e muito mais. |
Designação do Departamento: | Departamento de Métodos Quantitativos para Gestão e Economia Departamento de Ciências e Tecnologias da Informação |
Designação do grau: | Mestrado em Ciência de Dados |
Arbitragem científica: | yes |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_carlos_costa_faria.pdf | 5,5 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.