Angry Csr

  • Home
  • About me
  • Blog
  • GuildWar2
强化学习
学习记录

强化学习实践(8)绘制训练曲线

PARL集成了tensorboardX作为可视化的工具。 1、例子: from parl.utils import summary x = range(100) for i in x:     summary.add_scalar('y_2x', i * 2, i) 2、在anoconda的terminol中输入pycharm提示的相对路径 …

2022年5月13日 0条评论 3505点热度 1人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(补3)DQN,A3C,DPG,DDPG

IMG_2373(20220510-105914).JPG IMG_2374(20220510-105914).JPG IMG_2375(20220510-105915).JPG IMG_2376(20220510-105915).JPG IMG_2378(20220510-105915).JPG IMG_2377(20220510-105915).JPG IMG_2379(20220510-105915).JPG IMG_2380(20220510-105915).JPG IMG_2381(20220510-10…

2022年5月10日 0条评论 3112点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(7)paddle和matlab实现DQN控制倒立摆

1、python版本: lesson3.zip 2、使用matlab reinforcement app熟悉DQN算法 然后加载环境、agent 设置参数,并训练,学过理论就会知道都什么意思 训练完了,用SIMULATE分析 具体可见matlab帮助文档 3、写matlab脚本用DQN算法实现:从图像到倒立摆的控制;结果分析写在脚本里了 network_practise.zip

2022年4月28日 0条评论 3331点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(6)自定义envirnment,测试Qlearning和Sarsa

还是paddle框架下的 代码: homework.zip        我真是服了自己的代码能力,老师给的代码这么基础,注释也很清晰,我改个environment居然改了一上午,还是用的排除法,最后才把gridworld.py中的三种enviroment弄清楚。        对我来说理论理解真不是事儿,要被自己的代码能力拖累死了,一点成就感没有。

2022年4月27日 0条评论 3142点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(补2)MDP和Qlearning的进一步认识

IMG_2317(20220426-172930).JPG IMG_2316(20220426-172930).JPG IMG_2318(20220426-172930).JPG IMG_2319(20220426-172930).JPG IMG_2320(20220426-172930).JPG IMG_2321(20220426-172930).JPG IMG_2322(20220426-172930).JPG

2022年4月26日 0条评论 3071点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(5)使用paddle框架和parl库进行强化学习

https://github.com/PaddlePaddle/PARL/tree/develop/examples/QuickStart 经典倒立摆 训练了990个Episode paddle框架下的parl库所有算法都封装好了,只需要自定义model和agent就行了           其中model是一个网络结构的类,能设置网络类型,层数,激活函数等;agent也是一个类,包括采样,预测,学习(包括action,observa,reward,loss)三个定…

2022年4月25日 0条评论 3155点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(4)CUDA、cuDNN的安装及PaddlePaddle的配置

CUDA、cuDNN的安装: 1、Nvdia控制面板中,左下角的“系统信息”查看支持的CUDA版本(CUDA向下兼容) 2、Nvdia官方下载CUDA和cuDNN对应系统的对应版本 CUDA https://developer.nvidia.com/cuda-toolkit-archive cuDNN https://developer.nvidia.com/rdp/cudnn-download 3、安装CUDA (1)安装路径,选择OK(安装完成后路径会自动变化,所以这里路径选择默认就好 (2)选择自定义安装 (…

2022年4月25日 0条评论 3247点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(12)第七节梳理

策略梯度和Actor—Critic梳理及总结.pdf

2022年4月15日 0条评论 2863点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习实践(3)sarsa及sarsa(lambda)

matlab示例: sarsa:Sarsa.zip sarsa(lambda):接下来试试按照matlab的思路,编写一下rlSARSAAlambdagent和新的table以及eligibility trace 我把sarsa单独放在了一个m文件中,训练过程和示例不一样,没找到问题出在了哪里。 python示例: sarsa:Sarsa.zip sarsa(lambda):Sarsa(lambda).7z 总结:matlab全部模块化,只有sarsa函数没有sarsa(lambda)函数,硬写m文件也就失去了使用…

2022年4月13日 0条评论 3172点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
学习记录

强化学习笔记(补1)TD(lambda)和sarsa(lambda)的进一步理解

手写笔记 IMG_2253(20220413-150740).JPG IMG_2255(20220413-150740).JPG IMG_2254(20220413-150740).JPG 笔记中无法画出的图在下面: 从1-step到n-step到mc的认知 从n-step TD到TD(lambda) TD(lambda)到sarsa(lambda) 对sarsa(lambda)的理解 可以看出1-step sarsa只能达到目标前1步value才增加,n-step sarsa是达到目标前最后n步value增加,而…

2022年4月13日 0条评论 2937点热度 0人点赞 愤怒的叉烧肉丶 阅读全文
123

愤怒的叉烧肉丶

这个人很懒,什么都没留下

链接
  • b站主页
  • Csr工具导航
文章分类
  • Blog / 36篇
  • GuildWar2 / 1篇
  • 卡尔曼滤波与组合导航原理 / 13篇
  • 学习记录 / 72篇
  • 工程流体力学基础 / 3篇
  • 强化学习 / 23篇
  • 机器学习 / 10篇
  • 深度学习与神经网络 / 7篇
  • 鲁棒控制 / 14篇
最新 热点 随机
最新 热点 随机
文章近况 跑步记录:26年3、4月份总结 跑步记录:下半年总结 难绷(5) 难绷(4) 难绷(3)
深度学习笔记(4)卷积神经网络 深度学习笔记(5)循环神经网络 死神官方小说《We Do knot ALWAYS LOVE YOU》 机器学习笔记(6)Gaussion Mixture Model, HMM,EM matlab记录(6)字体突然发虚问题 matlab记录(3)安装字体
归档



COPYRIGHT © 2021 angryovocsr.cn. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

辽ICP备2021011214号