Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/12995
Autoria: | Dias, Luís Jorge Gregório |
Orientação: | Brandão, Tomás Gomes Silva Serpa Batista, Fernando Manuel Marques |
Data: | 2016 |
Título próprio: | Detecting violent excerpts in movies using audio |
Referência bibliográfica: | DIAS, Luís Jorge Gregório - Detecting violent excerpts in movies using audio [Em linha]. Lisboa: ISCTE-IUL, 2016. Dissertação de mestrado. [Consult. Dia Mês Ano] Disponível em www:<http://hdl.handle.net/10071/12995>. |
Palavras-chave: | Engenharia da programação Machine learning Tecnologia audiovisual Rede neuronal Violência Classificação Filme Violence detection Audio and video features Classification of movie excerpts Neural network Support vector machine Deteção de violência Aprendizagem automática Características de áudio e vídeo Classificação de excertos de filme |
Resumo: | This thesis addresses the problem of automatically detecting violence in movie excerpts, based on audio and video features. A solution to this problem is relevant for a
number of applications, including preventing children from being exposed to violence in
the existing media, which may avoid the development of violent behavior. We analyzed and
extracted audio and video features directly from the movie excerpt and used them to classify the movie excerpt as violent or non-violent. In order to find the best feature set and
to achieve the best performance, our experiments use two different machine learning classifiers: Support Vector Machines (SVM) and Neural Networks (NN). We used a balanced
subset of the existing ACCEDE database of movie excerpts containing 880 movie excerpts
manually tagged as violent or non-violent. During an early experimental stage, using the
features originally included in the ACCEDE database, we tested the use of audio features
alone, video features alone and combinations of audio and video features. These results
provided our baseline for further experiments using alternate audio features, extracted using available toolkits, and alternate video features, extracted using our own methods. Our
most relevant conclusions are as follows: 1) audio features can be easily extracted using
existing tools and have a strong impact in the system performance; 2) in terms of video features, features related with motion and shot transitions on a scene seem to have a better
impact when compared with features related with color or luminance; 3) the best results
are achieved by combining audio and video features. In general, the SVM classifier seems
to work better for this problem, despite the performance of both classifiers being similar
for the best feature set Esta tese aborda o problema da deteção de violência em excertos de filmes, com base em características extraídas do audio e do video. A resolução deste problema é relevante para um vasto leque de aplicações, incluindo evitar ou monitorizar a exposição de crianças à violência que existe nos vários tipos de média, o que pode evitar que estas desenvolvam comportamentos violentos. Analisámos e extraímos características áudio e vídeo diretamente do excerto de filme e usámo-las para classificar excertos de filme como violentos ou não violentos. De forma a encontrar o melhor conjunto de caracteristicas e atingir a melhor performance, as nossas experiências utilizam dois classificadores, nomeadamente: Support Vector Machines (SVM) e Redes Neuronais(NN). Foi usado um conjunto balanceado de excertos de filmes, retirado da base de dados ACCEDE, conjunto esse, que contém 880 excertos de filme, anotados manualmente como violentos ou não violentos. Durante as primeiras experiências, usando características incluídas na base de dados ACCEDE, testámos caracteristicas áudio e características vídeo, individualmente, e combinações de características áudio e vídeo. Estes resultados estabeleceram o ponto de partida para as experiências que os seguiram, usando outras características áudio, extraídas através de ferramentas disponíveis, e outras características vídeo, extraídas através dos nossos próprios métodos. As conclusões mais relevantes a que chegámos são as seguintes: 1) características áudio podem ser facilmente extraídas usando ferramentas já existentes e têm grande impacto na performance do sistema; 2) em termos de características vídeo, caracteristicas relacionadas com o movimentos e transições entre planos numa cena, parecem ter mais impacto do que características relacionadas com cor e luminância; 3) Os melhores resultados ocorrem quando se combinam características áudio e vídeo, sendo que, em geral, o classificador SVM parece ser mais adequado para o problema, apesar da performance dos dois classificadores ser semelhante para o melhor conjunto de características a que chegámos. |
Designação do grau: | Mestrado em Engenharia Informática |
Arbitragem científica: | yes |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
tese-main.pdf | 1,26 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.