Detecting portuguese and english Twitter users’ gender

Vicente, Marco Paulo Fernandes

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/11050

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Batista, Fernando	-
dc.contributor.advisor	Carvalho, João Paulo	-
dc.contributor.author	Vicente, Marco Paulo Fernandes	-
dc.date.accessioned	2016-03-10T12:42:06Z	-
dc.date.available	2016-03-10T12:42:06Z	-
dc.date.issued	2015	-
dc.date.submitted	2015-10	por
dc.identifier.citation	VICENTE, Marco Paulo Fernandes - Detecting portuguese and english Twitter users’ gender [Em linha]. Lisboa: ISCTE-IUL, 2015. Dissertação de mestrado. [Consult. Dia Mês Ano] Disponível em www:<http://hdl.handle.net/10071/11050>.	pt-PT
dc.identifier.uri	http://hdl.handle.net/10071/11050	-
dc.description.abstract	Existing social networking services provide means for people to communicate and express their feelings in a easy way. Such user generated content contains clues of user’s behaviors and preferences, as well as other metadata information that is now available for scientific research. Twitter, in particular, has become a relevant source for social networking studies, mainly because: it provides a simple way for users to express their feelings, ideas, and opinions; makes the user generated content and associated metadata available to the community; and furthermore provides easy-to-use web interfaces and application programming interfaces (API) to access data. For many studies, the available information about a user is relevant. However, the gender attribute is not provided when creating a Twitter account. The main focus of this study is to infer the users’ gender from other available information. We propose a methodology for gender detection of Twitter users, using unstructured information found on Twitter profile, user generated content, and later using the user’s profile picture. In previous studies, one of the challenges presented was the labor-intensive task of manually labelling datasets. In this study, we propose a method for creating extended labelled datasets in a semi-automatic fashion. With the extended labelled datasets, we associate the users’ textual content with their gender and created gender models, based on the users’ generated content and profile information. We explore supervised and unsupervised classifiers and evaluate the results in both Portuguese and English Twitter user datasets. We obtained an accuracy of 93.2% with English users and an accuracy of 96.9% with Portuguese users. The proposed methodology of our research is language independent, but our focus was given to Portuguese and English users.	por
dc.description.abstract	Os serviços de redes sociais existentes proporcionam meios para as pessoas comunicarem e exprimirem os seus sentimentos de uma forma fácil. O conteúdo gerado por estes utilizadores contém indícios dos seus comportamentos e preferências, bem como outros metadados que estão agora disponíveis para investigação científica. O Twitter em particular, tornou-se uma fonte importante para estudos das redes socias, sobretudo porque fornece um modo simples para os utilizadores expressarem os seus sentimentos, ideias e opiniões; disponibiliza o conteúdo gerado pelos utilizadores e os metadados associados à comunidade; e fornece interfaces web e interfaces de programação de aplicações (API) para acesso aos dados de fácil utilização. Para muitos estudos, a informação disponível sobre um utilizador é relevante. No entanto, o atributo de género não é fornecido ao criar uma conta no Twitter. O foco principal deste estudo é inferir o género dos utilizadores através da informação disponível. Propomos uma metodologia para a detecção de género de utilizadores do Twitter, usando informação não estruturada encontrada no perfil do Twitter, no conteúdo gerado pelo utilizador, e mais tarde usando a imagem de perfil do utilizador. Em estudos anteriores, um dos desafios apresentados foi a tarefa de etiquetar manualmente dados, que revelou exigir bastante trabalho. Neste estudo, propomos um método para a criação de conjuntos de dados etiquetados de uma forma semi-automática, utilizando um conjunto de atributos com base na informação não estruturada de perfil. Utilizando os conjuntos de dados etiquetados, associamos conteúdo textual ao seu género e criamos modelos, com base no conteúdo gerado pelos utilizadores, e na informação de perfil. Exploramos classificadores supervisionados e não supervisionados e avaliamos os resultados em ambos os conjuntos de dados de utilizadores Portugueses e Ingleses do Twitter. Obtivemos uma precisão de 93,2% com utilizadores Ingleses e uma precisão de 96,9% com utilizadores Portugueses. A metodologia proposta é independente do idioma, mas o foco foi dado a utilizadores Portugueses e Ingleses.	por
dc.language.iso	eng	eng
dc.rights	openAccess	por
dc.subject	Text mining	eng
dc.subject	Gender classification	eng
dc.subject	Twitter user	eng
dc.subject	Feature selection	eng
dc.subject	Text classification	eng
dc.subject	Mineração de texto	por
dc.subject	Classificação de género	por
dc.subject	Utilizador Twitter	por
dc.subject	Selecção de atributos	por
dc.subject	Classificação de texto	por
dc.title	Detecting portuguese and english Twitter users’ gender	por
dc.type	masterThesis	pt-PT
dc.peerreviewed	Sim	por
dc.identifier.tid	201080168	-
thesis.degree.name	Mestrado em Software de Código Aberto	-
Aparece nas coleções:	T&D-DM - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Tese-MFV-Completa.pdf		4,07 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato simples Visualizar estatísticas