A-A+

机器学习的安全性(Top笔记)

2013年01月01日 Machine Learning, note 评论 3 条 阅读 65,441 次
摘要:

机器学习,相对于传统的控制律,能够实现更为复杂的任务,也可以使无人机更智能。同样,对于像飞行器等执行高度危险任务的设备而言,安全性仍是第一考虑的问题。同样,我们也不希望它们学出些具有破坏性的行为来,当前对于安全的强化学习(Safe Reinforcement Learning)的研究主要集中在保证状态迁移的安全性上[1]、[2]、[3]。并理论上进行了部分证明[4]、[5]。

作者:刘锦涛

现在是2013年0时39分,祝大家新年快乐!    

safety first

机器学习,相对于传统的控制律,能够实现更为复杂的任务,也可以使无人机更智能。同样,对于像飞行器等执行高度危险任务的设备而言,安全性仍是第一考虑的问题。同样,我们也不希望它们学出些具有破坏性的行为来,当前对于安全的强化学习(Safe Reinforcement Learning)的研究主要集中在保证状态迁移的安全性上[1][2][3]。并理论上进行了部分证明[4][5]。以下是我对主要文献的一些总结。

 

研究现状

Heger[6]提出一种-学习算法,使用minimax准则,选取可以使最坏情况最小化的策略。这是一种较为保守的算法。Perkins[7]首先通过Lyapunov方法设计出多个确保稳定性的基准控制器,然后agent则学习如何在这多个基准控制器间切换,此方法虽能确保稳定性,但无法实现最优性能。Geibel[1]为避免控制系统进入危险的状态,在最优指标上增加一个安全指标,并在二者间使用一个可调节的权重,此方法缺乏收敛性保证。Abbeel[8]使用学徒学习建立一个直升机安全飞行策略,但缺乏严格的安全性保证。Hans[2]定义了一个安全函数以计算系统的安全等级,以及一个备份策略在系统处于危急状态时将其调整回安全状态。Garcia[9]提出一种PI-SRLPolicy Improvement through Safe Reinforcement Learning)方法,PI-SRL包括一个安全函数和一个基准策略行为,在基准行为上施加一个高斯噪声来进行探索,安全函数计算动作后状态与当前状态间的欧式距离,若小于一定值则认为是安全的。Gillulay[4]提出使用可达性分析来解决安全性的问题,并在[5]提出了GSOLR结构(Guaranteed Safe Online Learning via Reachability),通过分析Hamilton-Jacobi-Isaacs可达性来解决安全性问题。

 

结论

[5]GSOLR结构、以及使用Hamilton-Jacobi-Isaacs可达性可能是解决状态安全迁移的理论途径。[2]安全函数的定义较为新颖,一个好的安全评价函数现对于确定性的安全状态区间可能更有灵活性和可计算性。

 

[1]          P. Geibel and F. Wysotzki, “Risk-sensitive reinforcement learning applied to control under constraints,” Journal of Artificial Intelligence Research, vol. 24, no. 1, pp. 81–108, 2005.

[2]          A. Hans, D. Schneegaß, A. M. Schäfer, and S. Udluft, “Safe exploration for reinforcement learning,” in Proceedings of the European Symposium on Artificial Neural Networks (ESANN), Bruges, 2008.

[3]          P. Geibel and others, “Reinforcement learning with bounded risk,” in MACHINE LEARNING-INTERNATIONAL WORKSHOP THEN CONFERENCE-, 2001, pp. 162–169.

[4]          J. H. Gillulay and C. J. Tomlin, “Guaranteed safe online learning of a bounded system,” in Intelligent Robots and Systems (IROS), 2011 IEEE/RSJ International Conference on, 2011, pp. 2979–2984.

[5]          J. H. Gillula and C. J. Tomlin, “Guaranteed Safe Online Learning via Reachability: tracking a ground target using a quadrotor,” in Robotics and Automation (ICRA), 2012 IEEE International Conference on, 2012, pp. 2723–2730.

[6]          M. Heger, “Consideration of risk in reinforcement learning,” in Proceedings of the Eleventh International Conference on Machine Learning, 1994, vol. 105, p. 111.

[7]         T. J. Perkins and A. G. Barto, “Lyapunov design for safe reinforcement learning,” The Journal of Machine Learning Research, vol. 3, pp. 803–832, 2003.

[8]          P. Abbeel and A. Y. Ng, “Exploration and apprenticeship learning in reinforcement learning,” in Proceedings of the 22nd international conference on Machine learning, 2005, pp. 1–8.

[9]          F. J. Garcia Polo and F. Fernandez Rebollo, “Safe reinforcement learning in high-risk tasks through policy improvement,” in Adaptive Dynamic Programming And Reinforcement Learning (ADPRL), 2011 IEEE Symposium on, 2011, pp. 76–83.

 

3 条留言  访客:3 条  博主:0 条

  1. 风机盘管

    也可以使无人机更

  2. 苏州婚纱摄影

    很想亲自体验,以后要多加这门课程,嘿嘿,希望能够坚持的下来!

  3. 苏州婚纱摄影工作室

    好可惜!我不是做这个的、、、、

给我留言

Copyright © ExBot易科机器人实验室 保留所有权利.   Theme   Robin modified by poyoten

用户登录

分享到: