Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/23699
Registo completo
Campo DCValorIdioma
dc.contributor.advisorNunes, Luís Miguel Martins-
dc.contributor.advisorCardoso, Elsa Alexandra Cabral da Rocha-
dc.contributor.authorOliveira, Nicole Furtado-
dc.date.accessioned2021-12-13T16:29:21Z-
dc.date.available2021-12-13T16:29:21Z-
dc.date.issued2021-11-25-
dc.date.submitted2021-11-
dc.identifier.citationOliveira, N. F. (2021). ETL for data science?: A case study [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório do Iscte. http://hdl.handle.net/10071/23699pt-PT
dc.identifier.urihttp://hdl.handle.net/10071/23699-
dc.description.abstractBig data has driven data science development and research over the last years. However, there is a problem - most of the data science projects don't make it to production. This can happen because many data scientists don’t use a reference data science methodology. Another aggravating element is data itself, its quality and processing. The problem can be mitigated through research, progress and case studies documentation about the topic, fostering knowledge dissemination and reuse. Namely, data mining can benefit from other mature fields’ knowledge that explores similar matters, like data warehousing. To address the problem, this dissertation performs a case study about the project “IA-SI - Artificial Intelligence in Incentives Management”, which aims to improve the management of European grant funds through data mining. The key contributions of this study, to the academia and to the project’s development and success are: (1) A combined process model of the most used data mining process models and their tasks, extended with the ETL’s subsystems and other selected data warehousing best practices. (2) Application of this combined process model to the project and all its documentation. (3) Contribution to the project’s prototype implementation, regarding the data understanding and data preparation tasks. This study concludes that CRISP-DM is still a reference, as it includes all the other data mining process models’ tasks and detailed descriptions, and that its combination with the data warehousing best practices is useful to the project IA-SI and potentially to other data mining projects.por
dc.description.abstractA big data tem impulsionado o desenvolvimento e a pesquisa da ciência de dados nos últimos anos. No entanto, há um problema - a maioria dos projetos de ciência de dados não chega à produção. Isto pode acontecer porque muitos deles não usam uma metodologia de ciência de dados de referência. Outro elemento agravador são os próprios dados, a sua qualidade e o seu processamento. O problema pode ser mitigado através da documentação de estudos de caso, pesquisas e desenvolvimento da área, nomeadamente o reaproveitamento de conhecimento de outros campos maduros que exploram questões semelhantes, como data warehousing. Para resolver o problema, esta dissertação realiza um estudo de caso sobre o projeto “IA-SI - Inteligência Artificial na Gestão de Incentivos”, que visa melhorar a gestão dos fundos europeus de investimento através de data mining. As principais contribuições deste estudo, para a academia e para o desenvolvimento e sucesso do projeto são: (1) Um modelo de processo combinado dos modelos de processo de data mining mais usados e as suas tarefas, ampliado com os subsistemas de ETL e outras recomendadas práticas de data warehousing selecionadas. (2) Aplicação deste modelo de processo combinado ao projeto e toda a sua documentação. (3) Contribuição para a implementação do protótipo do projeto, relativamente a tarefas de compreensão e preparação de dados. Este estudo conclui que CRISP-DM ainda é uma referência, pois inclui todas as tarefas dos outros modelos de processos de data mining e descrições detalhadas e que a sua combinação com as melhores práticas de data warehousing é útil para o projeto IA-SI e potencialmente para outros projetos de data mining.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.subjectData mining --por
dc.subjectBusiness understandingpor
dc.subjectData understandingpor
dc.subjectData preparationpor
dc.subjectData extractionpor
dc.subjectData transformationpor
dc.subjectData cleaningpor
dc.subjectData normalizationpor
dc.subjectPipelinepor
dc.subjectETLpor
dc.subjectData warehousepor
dc.subjectProcess modelspor
dc.subjectMethodologiespor
dc.subjectCRISP-DMpor
dc.subjectKDDpor
dc.subjectPythonpor
dc.subjectGrant funds managementpor
dc.subjectGrant funds for the private sectorpor
dc.subjectEuropean structural and investment fundspor
dc.subjectMachine learningpor
dc.subjectArtificial intelligencepor
dc.subjectData sciencepor
dc.subjectCase studypor
dc.subjectCompreensão do negóciopor
dc.subjectCompreensão de dadospor
dc.subjectPreparação de dadospor
dc.subjectExtração de dadospor
dc.subjectTransformação de dadospor
dc.subjectLimpeza de dadospor
dc.subjectNormalização de dadospor
dc.subjectModelos de processopor
dc.subjectMetodologiapor
dc.subjectGestão de fundos de investimentopor
dc.subjectFundos de investimento para o setor privadopor
dc.subjectFundos estruturais e de investimento europeuspor
dc.subjectInteligência artificialpor
dc.subjectCiência de dadospor
dc.subjectCaso de estudopor
dc.titleETL for data science?: A case studypor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid202806790por
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapor
thesis.degree.nameMestrado em Engenharia Informáticapor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_nicole_furtado_oliveira.pdf4,22 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.