Please use this identifier to cite or link to this item:
http://hdl.handle.net/10071/34792
Author(s): | Faria, Carlos Daniel Costa |
Advisor: | Mendes, Diana E. Aldea |
Date: | 16-Dec-2024 |
Title: | Data augmentation with GANs applied to healthcare |
Reference: | Faria, C. D. C. (2024). Data augmentation with GANs applied to healthcare [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/34792 |
Keywords: | Generative adversarial networks Electrocardiogram Data augmentation Time-series Redes adversariais generativas Electrocardiograma Aumento de dados Séries temporais |
Abstract: | This dissertation explores the application of Generative Adversarial Networks (GANs)
to generate time-series data, with a particular focus on Electrocardiogram (ECG) signals
used for arrhythmia detection. Data scarcity in medical fields is compounded by privacy
regulations, the technical complexities of data collection, and the rarity of certain
pathologies, all of which limit access to comprehensive datasets.
With a foundation in the MIT-BIH Arrhythmia Database, this study leverages a
Wasserstein GAN with Gradient Penalty (WGAN-GP) architecture and changes the
model’s structure by adding bidirectional Long Short-Term Memory (LSTM) layers to
generate realistic synthetic ECG signals. These synthetic signals aim to balance datasets
for arrhythmia classification, improving classifier performance where traditional Data
Augmentation (DA) methods fall short due to privacy, rarity, and complexity constraints
in medical data.
The GAN model’s training was evaluated using a combination of quantitative metrics
such as Euclidean Distance and Dynamic Time Warping (DTW), alongside visual
techniques like Principal Component Analysis (PCA) and t-distributed Stochastic Neighbor
Embedding (t-SNE). Additionally, a classification model trained on augmented ECG
data demonstrated potential in addressing dataset imbalances and enhancing accuracy in
detecting arrhythmic events, demonstrating the GAN’s effectiveness in enhancing model
performance.
This work contributes to the broader field of healthcare data science. It highlights
the potential of GANs to overcome significant challenges by providing privacy-preserving,
diverse datasets that improve diagnostic model accuracy. Through this approach, GANs
offer a tool for medical research, facilitating the development of robust predictive models
while maintaining data integrity and confidentiality. The results underscore the potential
for GANs to impact, where enhanced data accessibility and diversity can significantly
improve patient outcomes in arrhythmia detection and beyond. Esta dissertação explora a aplicação de Redes Adversariais Generativas (GANs) para gerar dados de séries temporais, com foco particular em sinais de eletrocardiograma (ECG) usados para detecção de arritmias. A escassez de dados nas áreas médicas é agravada pelas regulamentações de privacidade, pelas complexidades técnicas da recolha de dados e pela raridade de certas patologias, que limitam o acesso a conjuntos de dados abrangentes. Recorrendo `a base de dados de arritmia do MIT-BIH, este estudo aproveita uma arquitetura Wasserstein GAN com Gradient Penalty (WGAN-GP) e altera a estrutura do modelo adicionando camadas Long Short-Term Memory (LSTM) bidirecionais para gerar sinais de ECG sintéticos realistas. Esses sinais sintéticos visam equilibrar conjuntos de dados para classificação de arritmia, melhorando o desempenho do classificador onde os métodos tradicionais de aumento de dados são insuficientes devido a restrições de privacidade, raridade e complexidade em dados médicos. O processo de treino do modelo GAN foi avaliado usando uma combinação de métricas quantitativas, como Euclidean Distance e Dynamic Time Warping, juntamente com técnicas visuais como PCA e t-SNE. Além disso, um modelo de classificação treinado com dados de ECG aumentados demonstrou potencial na abordagem de desequilíbrios no conjunto de dados e no aumento da precisão na detecção de eventos arrítmicos, demonstrando a eficácia do GAN na melhoria do desempenho do modelo. Este trabalho contribui para o campo da ciência de dados em saúde. Destaca o potencial das GANs para superar desafios significativos, fornecendo conjuntos de dados diversos que preservam a privacidade e melhoram a precisão do modelo de diagnóstico. Através desta abordagem, os GANs oferecem uma ferramenta para a investigação médica, facilitando o desenvolvimento de modelos preditivos robustos, mantendo ao mesmo tempo, a integridade e a confidencialidade dos dados. Os resultados realçam o potencial de impacto dos GANs, onde a maior acessibilidade e diversidade dos dados podem melhorar significativamente os resultados dos pacientes na detecção de arritmia e muito mais. |
Department: | Departamento de Métodos Quantitativos para Gestão e Economia Departamento de Ciências e Tecnologias da Informação |
Degree: | Mestrado em Ciência de Dados |
Peerreviewed: | yes |
Access type: | Open Access |
Appears in Collections: | T&D-DM - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
master_carlos_costa_faria.pdf | 5,5 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.