Angry Csr

  • Home
  • About me
  • Blog
  • GuildWar2
Welcome to my HomePage!!
学习记录

强化学习笔记(12)第七节梳理

策略梯度和Actor—Critic梳理及总结.pdf

2022年4月15日 0条评论 2027点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(3)sarsa及sarsa(lambda)

matlab示例: sarsa:Sarsa.zip sarsa(lambda):接下来试试按照matlab的思路,编写一下rlSARSAAlambdagent和新的table以及eligibility trace 我把sarsa单独放在了一个m文件中,训练过程和示例不一样,没找到问题出在了哪里。 python示例: sarsa:Sarsa.zip sarsa(lambda):Sarsa(lambda).7z 总结:matlab全部模块化,只有sarsa函数没有sarsa(lambda)函数,硬写m文件也就失去了使用…

2022年4月13日 0条评论 2229点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(补1)TD(lambda)和sarsa(lambda)的进一步理解

手写笔记 IMG_2253(20220413-150740).JPG IMG_2255(20220413-150740).JPG IMG_2254(20220413-150740).JPG 笔记中无法画出的图在下面: 从1-step到n-step到mc的认知 从n-step TD到TD(lambda) TD(lambda)到sarsa(lambda) 对sarsa(lambda)的理解 可以看出1-step sarsa只能达到目标前1步value才增加,n-step sarsa是达到目标前最后n步value增加,而…

2022年4月13日 0条评论 2142点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(2)Q-learning小例子,matlab和python双端实现

python版本代码来源:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow 我自己给自己注释的版本: python版本:Q_learning2.zip matlab版本:qlearning.zip 总结:          两者相似点都在于先编写环境。          python编程模板要记住,三个文件分别编写环境、table…

2022年4月11日 0条评论 2016点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(1)python的环境配置及清华源的切换

写在前面:我的本意是用matlab的强化学习模块来进行实践的,因为可以很好地结合simunlink。但是主流都是基于python的强化学习实践,在matlab上的实践教学较少,我只好先学习python平台的实践,加深对理论知识的理解。 一、python的安装及配置        首先,python是一门人与计算机交互的语言,那么就解释器和编译器就是必须的;其次,由于python的特殊性,使用python时会用到很多依赖,例如包、库、一些插件,而不用的项目用到的依赖也会不同,甚…

2022年4月11日 0条评论 2033点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(11)探索与利用

手写笔记: IMG_2220(20220326-142332).JPG IMG_2221(20220326-142332).JPG IMG_2222(20220326-142332).JPG IMG_2223(20220326-142332).JPG IMG_2224(20220326-142333).JPG IMG_2225(20220326-142333).JPG IMG_2226(20220326-142333).JPG IMG_2227(20220326-142333).JPG IMG_2228(20220…

2022年3月26日 0条评论 2011点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(10)集成学习和规划

       本讲主要讲了强化学习中model-based的方法,以及结合model-based和model-free的方法dyna。最后一部分强调了planning本身,介绍了simulated-based search(这部分没太听懂)。       主要是一些概念性和思路的讲解,看ppt即可。

2022年3月24日 0条评论 1953点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(9)前六节梳理

前六节梳理及总结.pdf

2022年3月23日 0条评论 1940点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

​强化学习笔记(8)策略梯度

手写笔记: IMG_2205(20220323-141531).JPG IMG_2204(20220323-141531).JPG IMG_2206(20220323-141531).JPG IMG_2208(20220323-141531).JPG IMG_2207(20220323-141531).JPG IMG_2209(20220323-141531).JPG IMG_2211(20220323-141532).JPG IMG_2210(20220323-141531).JPG IMG_2212(20220…

2022年3月23日 0条评论 1913点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(7)价值函数逼近

手写笔记: IMG_2168(20220321-143342).JPG IMG_2169(20220321-143342).JPG IMG_2170(20220321-143342).JPG IMG_2172(20220321-143343).JPG IMG_2171(20220321-143342).JPG IMG_2173(20220321-143343).JPG IMG_2174(20220321-143343).JPG IMG_2175(20220321-143343).JPG IMG_2176(20220…

2022年3月21日 0条评论 1954点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
1…7891011

愤怒的叉烧肉丶

这个人很懒,什么都没留下

链接
  • b站主页
  • Csr工具导航
文章分类
  • Blog / 28篇
  • GuildWar2 / 1篇
  • 卡尔曼滤波与组合导航原理 / 13篇
  • 学习记录 / 72篇
  • 工程流体力学基础 / 3篇
  • 强化学习 / 23篇
  • 机器学习 / 10篇
  • 深度学习与神经网络 / 7篇
  • 鲁棒控制 / 14篇
最新 热点 随机
最新 热点 随机
难绷(1) 跑步记录:1、2、3月总结 跑步记录:12月总结(01.14)暨年终总结 跑步记录:11月总结(12.20) 跑步记录:8、9、10月总结(08.04) 跑步记录:6、7月总结(08.04)
难绷(1)
强化学习笔记(5)免模型预测 卡尔曼滤波与组合导航原理(5)遗忘滤波 MATLAB记录(5)三维数据拟合 强化学习笔记(4)动态规划DP 鲁棒控制理论(1)自控基础 强化学习笔记(3)马尔科夫过程
归档






COPYRIGHT © 2021 angryovocsr.cn. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

辽ICP备2021011214号