Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10071/2866
Autoria: | Jardim, David Walter Figueira |
Orientação: | Nunes, Luís Miguel Martins |
Data: | 11-Ago-2011 |
Título próprio: | Hierarchical reinforcement learning: Learning sub-goals and state-abstraction |
Referência bibliográfica: | Jardim, D. W. F. (2010). Hierarchical reinforcement learning: Learning sub-goals and state-abstraction [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/2866 |
Palavras-chave: | Aprendizagem automática Aprendizagem hierárquica por reforço Abstrações Sub-objectivos Machine learning -- Machine learning Reinforcement learning Abstractions Subgoals |
Resumo: | Human beings have the incredible capability of creating and using abstractions.
With these abstractions we are able to solve extremely complex tasks that require
a lot of foresight and planning. Research in Hierarchical Reinforcement Learning
has demonstrated the utility of abstractions, but, it also has introduced a new
problem. How can we find a way to autonomously discover and create useful
abstractions while learning? In this dissertation we present a new method that
allows an agent to discover and create temporal abstractions autonomously based
in the options framework. Our method is based on the concept that to reach the
goal, the agent must pass through certain states. Throughout time these states
will begin to differentiate from others, and will be detected as useful subgoals
and be used by the agent to create new temporal abstractions, whose objective
is to help achieve these subgoals. To detect useful subgoals, our method creates
intersections between several paths leading to a goal. In order for a task to be
solved successfully the agent must pass through certain regions of the state space,
these regions will correspond to our definition of subgoals.
Our research focused on domains largely used in the study of the utility of
temporal abstractions, which is the room-to-room navigation problem, and also
the taxi problem. We determined that, in the problems tested, an agent can learn
more rapidly in more complex problems by automatically discovering subgoals
and creating abstractions without needing a programmer to provide additional
information and handcraft the abstractions. Os seres humanos possuem a incrível capacidade de criar e utilizar abstracções. Com essas abstracções somos capazes de resolver tarefas extremamente complexas que requerem muita antevisão e planeamento. A pesquisa efectuada em Hierarchical Reinforcement Learning demonstrou a utilidade das abstracções, mas também introduziu um novo problema. Como encontrar uma maneira de descobrir de forma autónoma abstracções úteis e criá-las enquanto aprende? Neste trabalho, apresentamos um novo método que permite a um agente descobrir e criar abstracções temporais de forma autónoma. Essas abstracções são baseadas na framework das Options. O nosso método é baseado no conceito de que para alcançar o objectivo, o agente deve passar por determinados estados. Ao longo do tempo estes estados vão começar a diferenciar-se dos restantes, e serão identificados como sub-objectivos úteis. Poderão ser utilizados pelo agente para criar novas abstracções temporais, cujo objectivo é ajudar a atingir esses objectivos secundários. Para detectar subobjectivos, o nosso método cria intersecções entre os vários caminhos que levam ao objectivo principal. Para que uma tarefa seja resolvida com sucesso, o agente deve passar por certas regiões do espaço de estados, estas regiões correspondem à nossa definição de sub-objectivos. A nossa investigação focou-se no problema da navegação em salas, e também no problema do táxi. Concluímos que um agente pode aprender mais rapidamente em problemas mais complexos, ao automaticamente descobrir sub-objectivos e criar abstracções sem precisar de um programador para fornecer informações adicionais e de criar as abstracções manualmente. |
Designação do Departamento: | Departamento de Ciências e Tecnologias da Informação |
Designação do grau: | Mestrado em Engenharia Informática |
Acesso: | Acesso Aberto |
Aparece nas coleções: | T&D-DM - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Tamanho | Formato | |
---|---|---|---|
master_david_figueira_jardim.pdf | 2,44 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.