强化学习 - Angry Csr

PARL集成了tensorboardX作为可视化的工具。 1、例子: from parl.utils import summary x = range(100) for i in x: summary.add_scalar('y_2x', i * 2, i) 2、在anoconda的terminol中输入pycharm提示的相对路径 …

2022年5月13日 0条评论 3700点热度 1人点赞愤怒的叉烧肉丶阅读全文

IMG_2373(20220510-105914).JPG IMG_2374(20220510-105914).JPG IMG_2375(20220510-105915).JPG IMG_2376(20220510-105915).JPG IMG_2378(20220510-105915).JPG IMG_2377(20220510-105915).JPG IMG_2379(20220510-105915).JPG IMG_2380(20220510-105915).JPG IMG_2381(20220510-10…

2022年5月10日 0条评论 3294点热度 0人点赞愤怒的叉烧肉丶阅读全文

1、python版本： lesson3.zip 2、使用matlab reinforcement app熟悉DQN算法然后加载环境、agent 设置参数，并训练，学过理论就会知道都什么意思训练完了，用SIMULATE分析具体可见matlab帮助文档 3、写matlab脚本用DQN算法实现：从图像到倒立摆的控制；结果分析写在脚本里了 network_practise.zip

2022年4月28日 0条评论 3514点热度 0人点赞愤怒的叉烧肉丶阅读全文

还是paddle框架下的代码： homework.zip 我真是服了自己的代码能力，老师给的代码这么基础，注释也很清晰，我改个environment居然改了一上午，还是用的排除法，最后才把gridworld.py中的三种enviroment弄清楚。对我来说理论理解真不是事儿，要被自己的代码能力拖累死了，一点成就感没有。

2022年4月27日 0条评论 3318点热度 0人点赞愤怒的叉烧肉丶阅读全文

IMG_2317(20220426-172930).JPG IMG_2316(20220426-172930).JPG IMG_2318(20220426-172930).JPG IMG_2319(20220426-172930).JPG IMG_2320(20220426-172930).JPG IMG_2321(20220426-172930).JPG IMG_2322(20220426-172930).JPG

2022年4月26日 0条评论 3258点热度 0人点赞愤怒的叉烧肉丶阅读全文

https://github.com/PaddlePaddle/PARL/tree/develop/examples/QuickStart 经典倒立摆训练了990个Episode paddle框架下的parl库所有算法都封装好了，只需要自定义model和agent就行了其中model是一个网络结构的类，能设置网络类型，层数，激活函数等；agent也是一个类，包括采样，预测，学习（包括action，observa，reward，loss）三个定…

2022年4月25日 0条评论 3340点热度 0人点赞愤怒的叉烧肉丶阅读全文

CUDA、cuDNN的安装： 1、Nvdia控制面板中，左下角的“系统信息”查看支持的CUDA版本（CUDA向下兼容） 2、Nvdia官方下载CUDA和cuDNN对应系统的对应版本 CUDA https://developer.nvidia.com/cuda-toolkit-archive cuDNN https://developer.nvidia.com/rdp/cudnn-download 3、安装CUDA （1）安装路径，选择OK（安装完成后路径会自动变化，所以这里路径选择默认就好（2）选择自定义安装（…

2022年4月25日 0条评论 3429点热度 0人点赞愤怒的叉烧肉丶阅读全文

策略梯度和Actor—Critic梳理及总结.pdf

2022年4月15日 0条评论 3036点热度 0人点赞愤怒的叉烧肉丶阅读全文

matlab示例： sarsa：Sarsa.zip sarsa（lambda）：接下来试试按照matlab的思路，编写一下rlSARSAAlambdagent和新的table以及eligibility trace 我把sarsa单独放在了一个m文件中，训练过程和示例不一样，没找到问题出在了哪里。 python示例： sarsa：Sarsa.zip sarsa（lambda）：Sarsa（lambda）.7z 总结：matlab全部模块化，只有sarsa函数没有sarsa（lambda）函数，硬写m文件也就失去了使用…

2022年4月13日 0条评论 3371点热度 0人点赞愤怒的叉烧肉丶阅读全文

手写笔记 IMG_2253(20220413-150740).JPG IMG_2255(20220413-150740).JPG IMG_2254(20220413-150740).JPG 笔记中无法画出的图在下面：从1-step到n-step到mc的认知从n-step TD到TD（lambda） TD(lambda)到sarsa（lambda）对sarsa（lambda）的理解可以看出1-step sarsa只能达到目标前1步value才增加，n-step sarsa是达到目标前最后n步value增加，而…

2022年4月13日 0条评论 3113点热度 0人点赞愤怒的叉烧肉丶阅读全文

12 3

强化学习实践（8）绘制训练曲线

强化学习笔记（补3）DQN，A3C，DPG，DDPG

强化学习实践（7）paddle和matlab实现DQN控制倒立摆

强化学习实践（6）自定义envirnment，测试Qlearning和Sarsa

强化学习笔记（补2）MDP和Qlearning的进一步认识

强化学习实践（5）使用paddle框架和parl库进行强化学习

强化学习实践（4）CUDA、cuDNN的安装及PaddlePaddle的配置

强化学习笔记（12）第七节梳理

强化学习实践（3）sarsa及sarsa（lambda）

强化学习笔记（补1）TD（lambda）和sarsa（lambda）的进一步理解