Angry Csr

  • Home
  • About me
  • Blog
  • GuildWar2
Welcome to my HomePage!!
  1. 首页
  2. 学习记录
  3. 正文

强化学习实践(5)使用paddle框架和parl库进行强化学习

2022年4月25日 3155点热度 0人点赞 0条评论

https://github.com/PaddlePaddle/PARL/tree/develop/examples/QuickStart

经典倒立摆

训练了990个Episode

paddle框架下的parl库所有算法都封装好了,只需要自定义model和agent就行了

image.png

          其中model是一个网络结构的类,能设置网络类型,层数,激活函数等;agent也是一个类,包括采样,预测,学习(包括action,observa,reward,loss)三个定义;train定义了expisode,reward list,使用前面两个文件生成的agent和model,使用parl.algorithms函数来添加的算法和主循环。

        这个例子中的policy gradient是forward back的计算方式,封装在了parl.model1中

        问题在于paddle中的agent是一个和gym中的环境交互的类,要用到我的项目中最大的难点还是自己建立environment和agent,cartpole_agent文件和train文件就要大改了,最方便的应该是算法封装成变函数直接调用就好了。

标签: 暂无
最后更新:2022年4月26日

愤怒的叉烧肉丶

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

取消回复
最近评论
分类
  • Blog / 36篇
  • GuildWar2 / 1篇
  • 卡尔曼滤波与组合导航原理 / 13篇
  • 学习记录 / 72篇
  • 工程流体力学基础 / 3篇
  • 强化学习 / 23篇
  • 机器学习 / 10篇
  • 深度学习与神经网络 / 7篇
  • 鲁棒控制 / 14篇
最新 热点 随机
最新 热点 随机
文章近况 跑步记录:26年3、4月份总结 跑步记录:下半年总结 难绷(5) 难绷(4) 难绷(3)
​matlab记录(2)simulink小操作 跑步记录:12月总结(01.12) 卡尔曼滤波与组合导航原理(1)kalman方程的推导 机器学习笔记(8)LDA 机器学习笔记(7)HMM和EM的进一步理解 强化学习实践(8)绘制训练曲线
Background
https://www.angryovocsr.cn/wp-content/uploads/2021/11/waiting-for-love.mp3

COPYRIGHT © 2021 angryovocsr.cn. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

辽ICP备2021011214号