Angry Csr

  • Home
  • About me
  • Blog
  • GuildWar2
Welcome to my HomePage!!
  1. 首页
  2. 学习记录
  3. 正文

强化学习笔记(补1)TD(lambda)和sarsa(lambda)的进一步理解

2022年4月13日 2942点热度 0人点赞 0条评论

手写笔记

IMG_2253(20220413-150740).JPG

IMG_2255(20220413-150740).JPG

IMG_2254(20220413-150740).JPG

笔记中无法画出的图在下面:

从1-step到n-step到mc的认知

figure-7.1.png

从n-step TD到TD(lambda)

figure-12.1.png

TD(lambda)到sarsa(lambda)

捕获12.PNG

对sarsa(lambda)的理解

捕获11.PNG

可以看出1-step sarsa只能达到目标前1步value才增加,n-step sarsa是达到目标前最后n步value增加,而sarsa(lambda)是整个路线上都有value值,但是占比不同。

标签: 暂无
最后更新:2022年4月13日

愤怒的叉烧肉丶

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

取消回复
最近评论
分类
  • Blog / 36篇
  • GuildWar2 / 1篇
  • 卡尔曼滤波与组合导航原理 / 13篇
  • 学习记录 / 72篇
  • 工程流体力学基础 / 3篇
  • 强化学习 / 23篇
  • 机器学习 / 10篇
  • 深度学习与神经网络 / 7篇
  • 鲁棒控制 / 14篇
最新 热点 随机
最新 热点 随机
文章近况 跑步记录:26年3、4月份总结 跑步记录:下半年总结 难绷(5) 难绷(4) 难绷(3)
好课推荐+不自量力的简评 鲁棒控制理论(5)线性代数与线性系统 鲁棒控制理论(2)鲁棒控制基础 跑步记录:1、2、3月总结 强化学习笔记(7)价值函数逼近 文章近况
Background
https://www.angryovocsr.cn/wp-content/uploads/2021/11/waiting-for-love.mp3

COPYRIGHT © 2021 angryovocsr.cn. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

辽ICP备2021011214号