Please use this identifier to cite or link to this item:
http://hdl.handle.net/10071/2871
Author(s): | Ricardo, André Parreira |
Advisor: | Serrão, Carlos |
Date: | 11-Aug-2011 |
Title: | Building a scalable index and a web search engine for music on the internet using open source software |
Reference: | Ricardo, A. P. (2010). Building a scalable index and a web search engine for music on the internet using open source software [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/2871 |
Keywords: | Content analysis and indexing Information storage and retrieval Information filtering Retrieval process Selection process Open source Creative Commons Música -- Music MP3 Análise e indexação de conteúdos Armazenamento e recuperação de informação Processo de disponibilização Filtração de informação |
Abstract: | The Internet has made possible the access to thousands of freely available music tracks
with Creative Commons or Public Domain licenses. Actually, this number keeps growing
every year.
In practical terms, it is very difficult to browse this music collection, because it is wide
and disperse in hundreds of websites.
To address the music recommendation issue, a case study on existing systems was
made, to put the problem in context in order to identify necessary building blocks.
This thesis is mainly focused on the problem of indexing this large collection of
music. The reason to focus on this problem, is that there is no database or index holding
information about this music material, thus making this research on the subject extremely
difficult.
In order to figure out what software could help solve this problem, the state of the art
in “Open Source tools for web crawling and indexing” was assessed.
Based on the conclusions from the state of the art, a prototype was developed and
implemented using the most appropriate software framework. The created solution proved it
was capable of crawling the web pages, while parsing and indexing MP3 files. The produced
index is available through a web search engine interface also producing results in XML
format.
The results obtained lead to the conclusion that it is attainable to build a scalable index
and web search engine for music in the Internet using Open Source software. This is
supported by the proof of concept achieved with the working prototype. A Internet tornou possível o acesso a milhares de faixas musicais disponíveis gratuitamente segundo uma licença Creative Commons ou de Domínio Público. Na realidade, este número continua a aumentar em cada ano. Em termos práticos, é muito difícil navegar nesta colecção de música, pois a mesma é vasta e encontra-se dispersa em milhares de sites na Web. Para abordar o assunto da recomendação de música, um caso de estudo sobre sistemas de recomendação de música existentes foi elaborado, para contextualizar o problema e identificar os grandes blocos que os constituem. Esta tese foca-se na problemática da indexação de uma grande colecção de música, pela razão de que, não existe uma base de dados ou índice que contenha informação sobre este repositório musical, tornando muito difícil o estudo nesta matéria. De forma a compreender que software poderia ajudar a resolver o problema, foi avaliado o estado da arte em ferramentas de rastreio de conteúdos web e indexação de código aberto. Com base nas conclusões do estado da arte, o protótipo foi desenvolvido e implementado, utilizando o software mais apropriado para a tarefa. A solução criada provou que era possível percorrer as páginas Web, enquanto se analisavam e indexavam MP3. O índice produzido encontra-se disponível através de um motor de busca online e também com resultados no formato XML. Os resultados obtidos levam a concluir que é possível, construir um índice escalável e motor de busca na web para música na Internet utilizando software Open Source. Estes resultados são fundamentados pela prova de conceito obtida com o protótipo funcional. |
Department: | Departamento de Ciências e Tecnologias da Informação |
Degree: | Mestrado em Informática e Gestão |
Access type: | Open Access |
Appears in Collections: | T&D-DM - Dissertações de mestrado |
Files in This Item:
File | Size | Format | |
---|---|---|---|
master_andre_parreira_ricardo.pdf | 1,33 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.