强化学习之Learning VS Shaping

强化学习之Learning VS Shaping
以前只知道learning,不知道shaping为何物。查了一下意思shaping可翻译成“行为塑造”。不同于trail-and-error的盲目的搜索方法,在学习初期,通过reward shaping尽可能早的尝试有前景的动作。 具体算法可以看看Eric Wiewiora最新的Potential-Based Shaping 文章 http://academic.research.microsoft.com/Author/904203/eric-wiewiora?query=Eric%20Wiewiora 定义: Reward shaping is a technique inspired ...
Copyright © ExBot易科机器人实验室 保留所有权利.   Theme   Robin modified by poyoten

用户登录

分享到: