Angry Csr - 一个Bleach主题个人站点

手写笔记： IMG_2280(20220422-113811).JPG IMG_2278(20220422-113811).JPG IMG_2279(20220422-113811).JPG IMG_2281(20220422-113811).JPG IMG_2283(20220422-113811).JPG IMG_2282(20220422-113811).JPG IMG_2284(20220422-113811).JPG

2022年4月22日 0条评论 2112点热度 0人点赞愤怒的叉烧肉丶阅读全文

为什么要学深度学习？很简单在强化学习中的策略目前都是神经网络策略，有神经网络的理论知识是必须的。课程地址：https://www.bilibili.com/video/BV13b4y1177W 手写笔记： IMG_2273(20220422-113811).JPG IMG_2271(20220422-113810).JPG IMG_2272(20220422-113811).JPG IMG_2274(20220422-113811).JPG IMG_2275(20220422-113811).JPG IMG_2…

2022年4月22日 0条评论 2031点热度 0人点赞愤怒的叉烧肉丶阅读全文

策略梯度和Actor—Critic梳理及总结.pdf

2022年4月15日 0条评论 2059点热度 0人点赞愤怒的叉烧肉丶阅读全文

matlab示例： sarsa：Sarsa.zip sarsa（lambda）：接下来试试按照matlab的思路，编写一下rlSARSAAlambdagent和新的table以及eligibility trace 我把sarsa单独放在了一个m文件中，训练过程和示例不一样，没找到问题出在了哪里。 python示例： sarsa：Sarsa.zip sarsa（lambda）：Sarsa（lambda）.7z 总结：matlab全部模块化，只有sarsa函数没有sarsa（lambda）函数，硬写m文件也就失去了使用…

2022年4月13日 0条评论 2277点热度 0人点赞愤怒的叉烧肉丶阅读全文

手写笔记 IMG_2253(20220413-150740).JPG IMG_2255(20220413-150740).JPG IMG_2254(20220413-150740).JPG 笔记中无法画出的图在下面：从1-step到n-step到mc的认知从n-step TD到TD（lambda） TD(lambda)到sarsa（lambda）对sarsa（lambda）的理解可以看出1-step sarsa只能达到目标前1步value才增加，n-step sarsa是达到目标前最后n步value增加，而…

2022年4月13日 0条评论 2172点热度 0人点赞愤怒的叉烧肉丶阅读全文

python版本代码来源：https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow 我自己给自己注释的版本： python版本：Q_learning2.zip matlab版本：qlearning.zip 总结：两者相似点都在于先编写环境。 python编程模板要记住，三个文件分别编写环境、table…

2022年4月11日 0条评论 2059点热度 0人点赞愤怒的叉烧肉丶阅读全文

写在前面：我的本意是用matlab的强化学习模块来进行实践的，因为可以很好地结合simunlink。但是主流都是基于python的强化学习实践，在matlab上的实践教学较少，我只好先学习python平台的实践，加深对理论知识的理解。一、python的安装及配置首先，python是一门人与计算机交互的语言，那么就解释器和编译器就是必须的；其次，由于python的特殊性，使用python时会用到很多依赖，例如包、库、一些插件，而不用的项目用到的依赖也会不同，甚…

2022年4月11日 0条评论 2084点热度 0人点赞愤怒的叉烧肉丶阅读全文

手写笔记： IMG_2220(20220326-142332).JPG IMG_2221(20220326-142332).JPG IMG_2222(20220326-142332).JPG IMG_2223(20220326-142332).JPG IMG_2224(20220326-142333).JPG IMG_2225(20220326-142333).JPG IMG_2226(20220326-142333).JPG IMG_2227(20220326-142333).JPG IMG_2228(20220…

2022年3月26日 0条评论 2063点热度 0人点赞愤怒的叉烧肉丶阅读全文

本讲主要讲了强化学习中model-based的方法，以及结合model-based和model-free的方法dyna。最后一部分强调了planning本身，介绍了simulated-based search（这部分没太听懂）。主要是一些概念性和思路的讲解，看ppt即可。

2022年3月24日 0条评论 2017点热度 0人点赞愤怒的叉烧肉丶阅读全文

前六节梳理及总结.pdf

2022年3月23日 0条评论 1990点热度 0人点赞愤怒的叉烧肉丶阅读全文

1…789 10 11

深度学习笔记（2）复习线性模型

深度学习笔记（1）简单的复习机器学习

强化学习笔记（12）第七节梳理

强化学习实践（3）sarsa及sarsa（lambda）

强化学习笔记（补1）TD（lambda）和sarsa（lambda）的进一步理解

强化学习实践（2）Q-learning小例子，matlab和python双端实现

强化学习实践（1）python的环境配置及清华源的切换

强化学习笔记（11）探索与利用

强化学习笔记（10）集成学习和规划

强化学习笔记（9）前六节梳理