A-A+

近似动态规划与强化学习入门步骤(文献篇)

2013年04月25日 Machine Learning, note, Resource 评论 4 条 阅读 1 次
摘要:

Lendaris对控制工程发展阶段进行了划分:第一阶段为反馈机制的引入;第二阶段的特点是通过微分方程对动态系统进行分析,Fourier和Laplace变换,状态空间法、随机方法、Hilbert空间等数学工具奠定了控制系统分析的理论基础,在此基础上发展起了经典控制、现代控制。最优控制、随机控制和鲁棒控制等理论和方法。

by Top 2013.4,25

Lendaris对控制工程发展阶段进行了划分:

第一阶段为反馈机制的引入;

第二阶段的特点是通过微分方程对动态系统进行分析,Fourier和Laplace变换,状态空间法、随机方法、Hilbert空间等数学工具奠定了控制系统分析的理论基础,在此基础上发展起了经典控制、现代控制。最优控制、随机控制和鲁棒控制等理论和方法。

第三阶段的特点是可在线选择控制器,如自适应控制和学习控制,通过状态观测和性能评价在一个特定的控制器集合内在线选择控制器,却仍不具备经验策略的记忆能力。Lendaris认为第四阶段的控制系统应该是具有经验记忆能力的,能够利用以往的经验更为有效、高效地实施控制。

那么,实现经验记忆具体方法是什么?是的,强化学习。

最近打算写一篇关于近似动态规划与强化学习的综述。当然了,看了几百篇论文,值得引用可能只会有几十篇。值得推荐给大家读的那就需要优中选优了。文章不想多推荐,毕竟更新太快,也不适合入门。下面主要介绍几本书.

Lewis的几篇重要综述还是需要读的:

2009 Reinforcement Learning and Adaptive Dynamic Programming for Feedback Control
2011 Approximate reinforcement learning An overview

另外,Reinforcement Learning State-Of-the-Art这本书各方面介绍的很详细了,体现的是欧洲体系。

下面是几本书,请依次阅读。(大部分我都上传至新浪共享了,感兴趣的可以去找一下)

1.强化学习入门

Reinforcement Learning: An Introduction

2.强化学习最新进展

Reinforcement Learning: State-of-the-Art (Adaptation, Learning, and Optimization)

3.强化学习算法

Algorithms for Reinforcement Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

4.近似动态规划专题

Reinforcement Learning and Dynamic Programming Using Function Approximators

Reinforcement Learning and Approximate Dynamic Programming for Feedback Control

Approximate Dynamic Programming

国内的图书有木有?回答有!我看到的有两本,但需要一定的基础,至少需要掌握1,3以及4中某一本的知识才能看

第一本徐昕的主要研究的是线性时域差值、核方法等

增强学习与近似动态规划

第二本

随机学习与优化——基于灵敏度的方法(信息技术和电气工程学科国际知名教材中译本系列)

用摄动分析的方法,将马尔可大决策过程、强化学习、辨识和自适应控制等学习和优化的不同学科统一起来,思想比较屌,对内功要求也比较高。

欢迎补充!

4 条留言  访客:4 条  博主:0 条

  1. 猫猫

    您好!请问Lendaris的哪篇文章提到了这种阶段划分?最近要做一个汇报,想讲一下这个~

  2. choovin

    都是高大上的玩意

  3. 高清摄像手表

    希望多写些这么好的文章。

  4. 摄像表

    很欣赏你的看法,学习了。

给我留言

Copyright © ExBot易科机器人实验室 保留所有权利.   Theme   Robin modified by poyoten

用户登录

分享到: