Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/12329
Registo completo
Campo DCValorIdioma
dc.contributor.advisorCardoso, Maria Margarida Guerreiro Martins dos Santos-
dc.contributor.authorAmorim, Maria José de Pina da Cruz-
dc.date.accessioned2017-01-11T16:29:48Z-
dc.date.available2017-01-11T16:29:48Z-
dc.date.issued2016-
dc.date.submitted2015-12por
dc.identifier.citationAmorim, M. J. P. C. (2016). On clustering stability [Tese de doutoramento, Iscte - Instituto Universitário de Lisboa]. Repositório do Iscte. http://hdl.handle.net/10071/12329por
dc.identifier.isbn978-989-8862-01-3-
dc.identifier.urihttp://hdl.handle.net/10071/12329-
dc.description.abstractThis work is dedicated to the evaluation of the stability of clustering solutions, namely the stability of crisp clusterings or partitions. We specifically refer to stability as the concordance of clusterings across several samples. In order to evaluate stability, we use a weighted cross-validation procedure, the result of which is summarized by simple and paired agreement indices values. To exclude the amount of agreement by chance of these values, we propose a new method – IADJUST – that resorts to simulated crossclassification tables. This contribution makes viable the correction of any index of agreement. Experiments on stability rely on 540 simulated data sets, design factors being the number of clusters, their balance and overlap. Six real data with a priori known clusters are also considered. The experiments conducted enable to illustrate the precision and pertinence of the IADJUST procedure and allow to know the distribution of indices under the hypothesis of agreement by chance. Therefore, we recommend the use of adjusted indices to be common practice when addressing stability. We then compare the stability of two clustering algorithms and conclude that Expectation-Maximization (EM) results are more stable when referring to unbalanced data sets than K means results. Finally, we explore the relationship between stability and external validity of a clustering solution. When all experimental scenarios’ results are considered there is a strong correlation between stability and external validity. However, within a specific experimental scenario (when a practical clustering task is considered), we find no relationship between stability and agreement with ground truth.por
dc.description.abstractEste trabalho é dedicado à avaliação da estabilidade de agrupamentos, nomeadamente de partições. Consideramos a estabilidade como sendo a concordância dos agrupamentos obtidos sobre diversas amostras. Para avaliar a estabilidade, usamos um procedimento de validação cruzada ponderada, cujo resultado é resumido pelos valores de índices de concordância simples e pareados. Para excluir, destes valores, a parcela de concordância por acaso, propomos um novo método - IADJUST - que recorre à simulação de tabelas cruzadas de classificação. Essa contribuição torna viável a correção de qualquer índice de concordância. A análise experimental da estabilidade baseia-se em 540 conjuntos de dados simulados, controlando os números de grupos, dimensões relativas e graus de sobreposição dos grupos. Também consideramos seis conjuntos de dados reais com classes a priori conhecidas. As experiências realizadas permitem ilustrar a precisão e pertinência do procedimento IADJUST e conhecer a distribuição dos índices sob a hipótese de concordância por acaso. Assim sendo, recomendamos a utilização de índices ajustados como prática comum ao abordar a estabilidade. Comparamos, então, a estabilidade de dois algoritmos de agrupamento e concluímos que as soluções do algoritmo Expectation Maximization são mais estáveis que as do K-médias em conjuntos de dados não balanceados. Finalmente, estudamos a relação entre a estabilidade e validade externa de um agrupamento. Agregando os resultados dos cenários experimentais obtemos uma forte correlação entre estabilidade e validade externa. No entanto, num cenário experimental particular (para uma tarefa prática de agrupamento), não encontramos relação entre estabilidade e a concordância com a verdadeira estrutura dos dados.por
dc.language.isoengpor
dc.rightsopenAccess-
dc.subjectAdjusted índices of agreementpor
dc.subjectClustering evaluationpor
dc.subjectExternal evaluationpor
dc.subjectClustering stabilitypor
dc.subjectClusters --por
dc.subjectAnálise de clusters -- Cluster analysispor
dc.subjectEstabilidadepor
dc.subjectModelos de concordânciapor
dc.titleOn clustering stabilitypor
dc.typedoctoralThesispor
dc.peerreviewedyespor
dc.identifier.tid101374305-
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
thesis.degree.nameDoutoramento em Métodos Quantitativospor
dc.date.embargo2020-01-11-
dc.subject.jelC10-
dc.subject.jelC15-
dc.subject.jelC38-
dc.subject.jel1C Mathematical and quantitative methods-
Aparece nas coleções:T&D-TD - Teses de doutoramento

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
phd_maria_pina_amorim.pdf19,73 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.