Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/10966
Autoria: | Brogueira, Gaspar Manuel Rocha |
Orientação: | Batista, Fernando Manuel Marques Carvalho, João Paulo Baptista de |
Data: | 2015 |
Título próprio: | Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter |
Referência bibliográfica: | BROGUEIRA, Gaspar Manuel Rocha - Sistema inteligente de recolha e armazenamento de informação proveniente do Twitter [Em linha]. Lisboa: ISCTE-IUL, 2015. Dissertação de mestrado. [Consult. Dia Mês Ano] Disponível em www:<http://hdl.handle.net/10071/10966>. |
Palavras-chave: | Sistema de Informação Redes sociais Big data MongoDB REST API Visualização de dados Information system Social networks Data visualization |
Resumo: | Independentemente do grau de conhecimento e utilização das redes sociais é inegável a sua importância
na sociedade contemporânea. Publicitar um evento, comentar ou divulgar uma ideia são práticas
comuns nas redes sociais, tornando-as num meio propício à expressão da opinião individual e sua disseminação
através dos vários canais levando, consequentemente, à conceção e formação de juízos de
valor e facto acerca das mudanças e acontecimentos no mundo que nos rodeia. Analisar e monitorizar
sentimentos relativos a uma organização em especifico, prever vendas e aceitação de um produto ou
serviço por parte do consumidor, antecipar a propagação de um vírus pela população, são exemplos
concretos de como a informação recolhida nas redes sociais, pode ser útil em diversos campos da
investigação (áreas como o turismo, marketing e saúde são as que mais se tem vindo a fortalecer mediante
este fenómeno). Considerando tal relevância, levantam-se questões acerca do impacto que as
redes sociais têm na atual sociedade e indubitavelmente debate-se a temática de como tratar e abordar
essa informação de forma analítica e efetivamente útil. Para construir (ou desconstruir) um fato credível,
é necessário um volume considerável de dados e uma cobertura assinalável do conjunto de utilizadores
do Twitter. Diversos autores que desenvolveram trabalhos relacionados com esta problemática, têm
constatado dificuldade em obter volumes significativos de informação, por limitação do Twitter em fornecer
acesso aos seus dados. Perante estas circunstâncias, os dados recolhidos estão muitas vezes
condicionados a uma análise limitada onde se torna complexo compreender os verdadeiros contornos
das questões, ou por vezes são consideradas apenas algumas das suas características, de modo a
simplificar a modelação e armazenamento. Tendo como premissa reduzir este enviesamento de informação,
o objetivo deste trabalho consiste em desenvolver uma arquitetura para construção de um
corpus de tweets tentando ultrapassar as limitações impostas pelo Twitter. Explora-se o paradigma das
bases de dados NoSQL de modo a armazenar integralmente cada tweet, resultando num Sistema de
Informação que automatiza a recolha, processamento, armazenamento e acesso a um volume considerável
de tweets, produzidos em Portugal por autores portugueses e escritos em Português Europeu. A
arquitetura apresentada produz um corpus de tweets produzidos em tempo real, que contêm indicação
da sua geolocalização. A partir de tweets geolocalizados é efetuada a expansão do corpus pela leitura
da timeline dos autores de tweets geolocalizados, conseguindo-se a recuperação de grande parte da
informação produzida por estes. Em média são recuperados cerca de 530 mil tweets por dia. Regardless the degree of knowledge and use of social networks, it is undeniable its importance in contemporary society. Advertise an event, comment or release an idea are common practices in social networks, making them an environment conducive to the expression of individual opinion and its dissemination through the main channels, leading consequently to the build of judgments of value and fact about changes and developments in the world around us. Analyze and monitor feelings relating to a specific organization, sales forecasting and acceptance of a product or service by the consumer, anticipate propagation of a virus among the population, are concrete examples of how the information collected on social networks can be useful in several fields of research (areas such as tourism, marketing and health are the most contemplated by this phenomenon). Considering such relevance, arise questions about the impact that social networks have in society and, undoubtedly, it is debated how to treat analytically and effectively this information, making it really useful information. To construct (or deconstruct) a credible fact, it is needed a considerable amount of data and a remarkable coverage of Twitter users. Several authors, who developed works related to this issue, have found difficulty in obtaining large volumes of information, having in account the limitation of Twitter concerning to give access to private data. In those circumstances, the data collected are often constrained to a limited analysis and becomes complex to understand the true contours of the themes. Sometimes it is even considered only some of the many characteristics in order to simplify the modeling and storage. Having as a premise reduce this skewing of information, the objective of this work is to develop an architecture having as a foundation the building of a corpus of tweets in attempt to overcome the limitations imposed by Twitter. It is exploited the paradigm of NoSQL databases in order to fully store each tweet, resulting in an Information System that automates the collection, processing, storage and access to a considerable volume of tweets, produced in Portugal, by Portuguese authors and written in European Portuguese. The presented architecture produces a corpus of tweets done in real time containing indication of its geolocation. From geolocated tweets is made the expansion of corpus by reading the timeline of the authors of geolocated tweets and it is possible to recover much of the information produced by them. On average, are recovered 530K tweets per day. |
Designação do grau: | Mestrado em Software de Código Aberto |
Arbitragem científica: | Sim |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2015_ISTA_DCTI_GasparBrogueira.pdf | 6,08 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.