Automatic detection of disfluencies in a corpus of university lectures

Medeiros, Henrique Rodrigues Barbosa de

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/8683

Autoria:	Medeiros, Henrique Rodrigues Barbosa de
Orientação:	Batista, Fernando Manuel Marques
Data:	2014
Título próprio:	Automatic detection of disfluencies in a corpus of university lectures
Referência bibliográfica:	MEDEIROS, Henrique Rodrigues Barbosa de - Automatic detection of disfluencies in a corpus of university lectures [Em linha]. Lisboa: ISCTE-IUL, 2014. Dissertação de mestrado. [Consult. Dia Mês Ano] Disponível em www:<http://hdl.handle.net/10071/8683>.
Palavras-chave:	Automatic disfluency detection Spontaneous speech University lectures Machine learning Speech processing Prosodic features Filled pauses Statistical methods Deteção automática de disfluências Fala espontânea Corpus de aulas universitárias Aprendizagem automática Processamento de fala Features prosódicas Pausas preenchidas Métodos estatísticos
Resumo:	This dissertation focuses on the identification of disfluent sequences and their distinct structural regions. Reported experiments are based on audio segmentation and prosodic features, calculated from a corpus of university lectures in European Portuguese, containing about 32 hours of speech and about 7.7% of disfluencies. The set of features automatically extracted from the forced alignment corpus proved to be discriminant of the regions contained in the production of a disfluency. The best results concern the detection of the interregnum, followed by the detection of the interruption point. Several machine learning methods have been applied, but experiments show that Classification and Regression Trees usually outperform the other methods. The set of most informative features for cross-region identification encompasses word duration ratios, word confidence score, silent ratios, and pitch and energy slopes. Features such as the number of phones and syllables per word proved to be more useful for the identification of the interregnum, whereas energy slopes were most suited for identifying the interruption point. We have also conducted initial experiments on automatic detecting filled pauses, the most frequent disfluency type. For now, only force aligned transcripts were used, since the ASR system is not well adapted to this domain. This study is a step towards automatic detection of filled pauses for European Portuguese using prosodic features. Future work will extend this study for fully automatic transcripts, and will also tackle other domains, also exploring extended sets of linguistic features. Esta tese aborda a identificação de sequências disfluentes e respetivas regiões estruturais. As experiências aqui descritas baseiam-se em segmentação e informação relativa a prosódia, calculadas a partir de um corpus de aulas universitárias em Português Europeu, contendo cerca de 32 horas de fala e de cerca de 7,7% de disfluências. O conjunto de características utilizadas provou ser discriminatório na identificação das regiões contidas na produção de disfluências. Os melhores resultados dizem respeito à deteção do interregnum, seguida da deteção do ponto de interrupção. Foram testados vários métodos de aprendizagem automática, sendo as Árvores de Decisão e Regressão as que geralmente obtiveram os melhores resultados. O conjunto de características mais informativas para a identificação e distinção de regiões disfluentes abrange rácios de duração de palavras, nível de confiança da palavra atual, rácios envolvendo silêncios e declives de pitch e de energia. Características tais como o número de fones e sílabas por palavra provaram ser mais úteis para a identificação do interregnum, enquanto pitch e energia foram os mais adequados para identificar o ponto de interrupção. Foram também realizadas experiências focando a deteção de pausas preenchidas. Por enquanto, para estas experiências foi utilizado apenas material proveniente de alinhamento forçado, já que o sistema de reconhecimento automático não está bem adaptado a este domínio. Este estudo representa um novo passo no sentido da deteção automática de pausas preenchidas para Português Europeu, utilizando recursos prosódicos. Em trabalho futuro pretende-se estender esse estudo para transcrições automáticas e também abordar outros domínios, explorando conjuntos mais extensos de características linguísticas.
Designação do grau:	Mestrado em Engenharia Informática
Arbitragem científica:	Sim
Acesso:	Acesso Aberto
Aparece nas coleções:	T&D-DM - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Dissertacao-HM-53807.pdf		367,93 kB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo Visualizar estatísticas