A-A+

利用先验知识进行学习控制 之一:模仿学习与学徒学习

2012年12月28日 Machine Learning 暂无评论 阅读 40,500 次

利用先验知识进行学习之一:模仿学习与学徒学习

Exploit Prior Knowledge to Learn Control

1. Imitation Learning and Apprenticeship Learning

刘锦涛

2012-12-28

导言:使用已有知识进行强化学习,我认为控制策略的“先验知识”可以是以下三种形式:1)失败或成功的例子(下文讨论的LfD);2)数学模型(目前研究相对成熟)3)知识符号(人工智能领域研究较为充分,但缺少实用的方法)。如何在强化学习中融合多种形式的知识,并形成统一的表示形式,是我现在考虑的问题。今天主要先把示教学习总结整理了一下。

 

 

人类或动物的学习过程通常是结合模仿和试错进行的。示教学习(Learning from DemonstrationLfD)不同于从经验(experice)中学习,而是通过示教者(teacher)给出的示例(example)进行学习。通过模仿,使学习者(student)避免了盲目地全局搜索,而能专注于更有意义地局部优化。Argall[1]LfD算法进行了系统的介绍,并将学习过程分为两个阶段对相应算法进行分类:1)如何演示以及收集示例;2)如何从示例中获取策略以及获取什么内容,其中可以是状态-动作的映射函数、系统模型、回报函数、动作规划等。

Ijspeert et al.[2]提出用一组非线性微分方程来表示运动控制策略并进行模仿学习,进一步联系起动态系统与强化学习。使用动态系统表示的控制策略具有更好的特性:如可保证稳定性、可方便地嵌入其他的动作、可根据时间、目标、幅度进行调节等[3]。在运动控制应用中,如打乒乓球[2]、棒球击球[4]、击鼓[4]、平面双足行走[5],模仿学习均有成功的应用。但以上的运动控制策略只是通过模仿进行学习而未进行后期的自我提升,因而需要在后期通过强化学习进行进一步的策略调整与性能提升。

另一种不同的LfD方法是学徒学习(Apprenticeship learning),它通过逆向强化学习(inverse reinforcement learning)的方法来推测示教者(teacher)的意图,以学习示教者的策略。学徒学习是由Pieter AbbeelAndrew Ng2004年提出,其动机是解决难以给出显式的回报函数、却可以通过观察专家演示完成任务的期望动作来学习的一类问题[6]。学徒学习在无人直升机的特技飞行中得到成功的应用。通过观测专业飞行员的操作演示,学徒学习算法可以学习用于控制的一阶马尔科夫过程、无需显式探索(exploration)而学习直升机的动力模型,通过学习多个近似完美的机动演示可以确保实现期望的轨迹控制,并通过进一步的强化学习得到更好的轨迹控制性能[7]。在[8]中,Abbeel给出了学徒学习严格的公式证明。

 

学徒学习相关主页:

  1. 1.         Stanford直升机特技飞行视频及论文

http://heli.stanford.edu/

  1. 2.         Stanford直升机强化学习仿真软件(开源)

http://library.rl-community.org/wiki/Helicopter_%28Java%29

 直升机强化学习仿真

 

  1. 3.         CMU通过模仿学习实现无人机树林中飞行

美国海军研究办公室资助项目“Provably-Stable Vision-Based Control of High-Speed Flight through Forests and Urban Environments”

http://robotwhisperer.org/bird-muri/

 

 

视频

http://v.youku.com/v_show/id_XNDk0MDI1MzQw.html

http://v.youku.com/v_show/id_XNDk0MDE4MDc2.html

 

 

参考文献

[1]         B. D. Argall, S. Chernova, M. Veloso, and B. Browning, “A survey of robot learning from demonstration,” Robotics and Autonomous Systems, pp. 1–15, 2009.

[2]         A. J. Ijspeert, J. Nakanishi, and S. Schaal, “Movement imitation with nonlinear dynamical systems in humanoid robots,” in Robotics and Automation, 2002. Proceedings. ICRA’02. IEEE International Conference on, 2002, vol. 2, pp. 1398–1403.

[3]         J. Kober and J. Peters, “Imitation and reinforcement learning,” Robotics & Automation Magazine, IEEE, vol. 17, no. 2, pp. 55–62, 2010.

[4]         J. Peters and S. Schaal, “Reinforcement learning of motor skills with policy gradients,” Neural Networks, vol. 21, no. 4, pp. 682–697, 2008.

[5]         J. Nakanishi, J. Morimoto, G. Endo, G. Cheng, S. Schaal, and M. Kawato, “Learning from demonstration and adaptation of biped locomotion,” Robotics and Autonomous Systems, vol. 47, no. 2, pp. 79–91, 2004.

[6]         P. Abbeel and A. Y. Ng, “Apprenticeship learning via inverse reinforcement learning,” in Proceedings of the twenty-first international conference on Machine learning, 2004, p. 1.

[7]         P. Abbeel, A. Coates, and A. Y. Ng, “Autonomous helicopter aerobatics through apprenticeship learning,” The International Journal of Robotics Research, vol. 29, no. 13, pp. 1608–1639, 2010.

[8]         P. Abbeel, “APPRENTICESHIP LEARNING AND REINFORCEMENT LEARNING WITH APPLICATION TO ROBOTIC CONTROL,” STANFORD UNIVERSITY, 2008.

 

 

给我留言

Copyright © ExBot易科机器人实验室 保留所有权利.   Theme   Robin modified by poyoten

用户登录

分享到: