强化学习实践（5）使用paddle框架和parl库进行强化学习

https://github.com/PaddlePaddle/PARL/tree/develop/examples/QuickStart

经典倒立摆

训练了990个Episode

paddle框架下的parl库所有算法都封装好了，只需要自定义model和agent就行了

其中model是一个网络结构的类，能设置网络类型，层数，激活函数等；agent也是一个类，包括采样，预测，学习（包括action，observa，reward，loss）三个定义；train定义了expisode，reward list，使用前面两个文件生成的agent和model，使用parl.algorithms函数来添加的算法和主循环。

这个例子中的policy gradient是forward back的计算方式，封装在了parl.model1中

问题在于paddle中的agent是一个和gym中的环境交互的类，要用到我的项目中最大的难点还是自己建立environment和agent，cartpole_agent文件和train文件就要大改了，最方便的应该是算法封装成变函数直接调用就好了。

强化学习实践（5）使用paddle框架和parl库进行强化学习

文章评论