Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/18245
Autoria: | Silva, André de Vasconcelos Santos |
Orientação: | Ribeiro, Ricardo Daniel Santos Faro Marques |
Data: | 12-Dez-2018 |
Título próprio: | Sparse distributed representations as word embeddings for language understanding |
Referência bibliográfica: | Silva, A. de V. S. (2018). Sparse distributed representations as word embeddings for language understanding [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório do Iscte. http://hdl.handle.net/10071/18245 |
Palavras-chave: | Word embedding Distributional semantic model Text clustering Binary sparse vectors Neural networks Redes neuronais Análise vetorial |
Resumo: | Word embeddings are vector representations of words that capture semantic and syntactic
similarities between them. Similar words tend to have closer vector representations in a N
dimensional space considering, for instance, Euclidean distance between the points associated
with the word vector representations in a continuous vector space. This property, makes word
embeddings valuable in several Natural Language Processing tasks, from word analogy and
similarity evaluation to the more complex text categorization, summarization or translation tasks.
Typically state of the art word embeddings are dense vector representations, with low
dimensionality varying from tens to hundreds of floating number dimensions, usually obtained
from unsupervised learning on considerable amounts of text data by training and optimizing an
objective function of a neural network.
This work presents a methodology to derive word embeddings as binary sparse vectors, or word
vector representations with high dimensionality, sparse representation and binary features (e.g.
composed only by ones and zeros). The proposed methodology tries to overcome some
disadvantages associated with state of the art approaches, namely the size of corpus needed for
training the model, while presenting comparable evaluations in several Natural Language
Processing tasks.
Results show that high dimensionality sparse binary vectors representations, obtained from a
very limited amount of training data, achieve comparable performances in similarity and
categorization intrinsic tasks, whereas in analogy tasks good results are obtained only for nouns
categories. Our embeddings outperformed eight state of the art word embeddings in word
similarity tasks, and two word embeddings in categorization tasks. A designação word embeddings refere-se a representações vetoriais das palavras que capturam as similaridades semânticas e sintáticas entre estas. Palavras similares tendem a ser representadas por vetores próximos num espaço N dimensional considerando, por exemplo, a distância Euclidiana entre os pontos associados a estas representações vetoriais num espaço vetorial contínuo. Esta propriedade, torna as word embeddings importantes em várias tarefas de Processamento Natural da Língua, desde avaliações de analogia e similaridade entre palavras, às mais complexas tarefas de categorização, sumarização e tradução automática de texto. Tipicamente, as word embeddings são constituídas por vetores densos, de dimensionalidade reduzida. São obtidas a partir de aprendizagem não supervisionada, recorrendo a consideráveis quantidades de dados, através da otimização de uma função objetivo de uma rede neuronal. Este trabalho propõe uma metodologia para obter word embeddings constituídas por vetores binários esparsos, ou seja, representações vetoriais das palavras simultaneamente binárias (e.g. compostas apenas por zeros e uns), esparsas e com elevada dimensionalidade. A metodologia proposta tenta superar algumas desvantagens associadas às metodologias do estado da arte, nomeadamente o elevado volume de dados necessário para treinar os modelos, e simultaneamente apresentar resultados comparáveis em várias tarefas de Processamento Natural da Língua. Os resultados deste trabalho mostram que estas representações, obtidas a partir de uma quantidade limitada de dados de treino, obtêm performances consideráveis em tarefas de similaridade e categorização de palavras. Por outro lado, em tarefas de analogia de palavras apenas se obtém resultados consideráveis para a categoria gramatical dos substantivos. As word embeddings obtidas com a metodologia proposta, e comparando com o estado da arte, superaram a performance de oito word embeddings em tarefas de similaridade, e de duas word embeddings em tarefas de categorização de palavras. |
Designação do grau: | Mestrado em Engenharia Informática |
Arbitragem científica: | yes |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
master_andre_santos_silva.pdf | 1,71 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.