手写笔记
笔记中无法画出的图在下面:
从1-step到n-step到mc的认知

从n-step TD到TD(lambda)

TD(lambda)到sarsa(lambda)

对sarsa(lambda)的理解

可以看出1-step sarsa只能达到目标前1步value才增加,n-step sarsa是达到目标前最后n步value增加,而sarsa(lambda)是整个路线上都有value值,但是占比不同。
手写笔记
笔记中无法画出的图在下面:
从1-step到n-step到mc的认知

从n-step TD到TD(lambda)

TD(lambda)到sarsa(lambda)

对sarsa(lambda)的理解

可以看出1-step sarsa只能达到目标前1步value才增加,n-step sarsa是达到目标前最后n步value增加,而sarsa(lambda)是整个路线上都有value值,但是占比不同。
愤怒的叉烧肉丶
这个人很懒,什么都没留下
文章评论