PARL集成了tensorboardX作为可视化的工具。 1、例子: from parl.utils import summary x = range(100) for i in x: summary.add_scalar('y_2x', i * 2, i) 2、在anoconda的terminol中输入pycharm提示的相对路径 …
PARL集成了tensorboardX作为可视化的工具。 1、例子: from parl.utils import summary x = range(100) for i in x: summary.add_scalar('y_2x', i * 2, i) 2、在anoconda的terminol中输入pycharm提示的相对路径 …
IMG_2373(20220510-105914).JPG IMG_2374(20220510-105914).JPG IMG_2375(20220510-105915).JPG IMG_2376(20220510-105915).JPG IMG_2378(20220510-105915).JPG IMG_2377(20220510-105915).JPG IMG_2379(20220510-105915).JPG IMG_2380(20220510-105915).JPG IMG_2381(20220510-10…
1、python版本: lesson3.zip 2、使用matlab reinforcement app熟悉DQN算法 然后加载环境、agent 设置参数,并训练,学过理论就会知道都什么意思 训练完了,用SIMULATE分析 具体可见matlab帮助文档 3、写matlab脚本用DQN算法实现:从图像到倒立摆的控制;结果分析写在脚本里了 network_practise.zip
还是paddle框架下的 代码: homework.zip 我真是服了自己的代码能力,老师给的代码这么基础,注释也很清晰,我改个environment居然改了一上午,还是用的排除法,最后才把gridworld.py中的三种enviroment弄清楚。 对我来说理论理解真不是事儿,要被自己的代码能力拖累死了,一点成就感没有。
IMG_2317(20220426-172930).JPG IMG_2316(20220426-172930).JPG IMG_2318(20220426-172930).JPG IMG_2319(20220426-172930).JPG IMG_2320(20220426-172930).JPG IMG_2321(20220426-172930).JPG IMG_2322(20220426-172930).JPG
https://github.com/PaddlePaddle/PARL/tree/develop/examples/QuickStart 经典倒立摆 训练了990个Episode paddle框架下的parl库所有算法都封装好了,只需要自定义model和agent就行了 其中model是一个网络结构的类,能设置网络类型,层数,激活函数等;agent也是一个类,包括采样,预测,学习(包括action,observa,reward,loss)三个定…
CUDA、cuDNN的安装: 1、Nvdia控制面板中,左下角的“系统信息”查看支持的CUDA版本(CUDA向下兼容) 2、Nvdia官方下载CUDA和cuDNN对应系统的对应版本 CUDA https://developer.nvidia.com/cuda-toolkit-archive cuDNN https://developer.nvidia.com/rdp/cudnn-download 3、安装CUDA (1)安装路径,选择OK(安装完成后路径会自动变化,所以这里路径选择默认就好 (2)选择自定义安装 (…
matlab示例: sarsa:Sarsa.zip sarsa(lambda):接下来试试按照matlab的思路,编写一下rlSARSAAlambdagent和新的table以及eligibility trace 我把sarsa单独放在了一个m文件中,训练过程和示例不一样,没找到问题出在了哪里。 python示例: sarsa:Sarsa.zip sarsa(lambda):Sarsa(lambda).7z 总结:matlab全部模块化,只有sarsa函数没有sarsa(lambda)函数,硬写m文件也就失去了使用…
手写笔记 IMG_2253(20220413-150740).JPG IMG_2255(20220413-150740).JPG IMG_2254(20220413-150740).JPG 笔记中无法画出的图在下面: 从1-step到n-step到mc的认知 从n-step TD到TD(lambda) TD(lambda)到sarsa(lambda) 对sarsa(lambda)的理解 可以看出1-step sarsa只能达到目标前1步value才增加,n-step sarsa是达到目标前最后n步value增加,而…