https://github.com/PaddlePaddle/PARL/tree/develop/examples/QuickStart
经典倒立摆
训练了990个Episode
paddle框架下的parl库所有算法都封装好了,只需要自定义model和agent就行了

其中model是一个网络结构的类,能设置网络类型,层数,激活函数等;agent也是一个类,包括采样,预测,学习(包括action,observa,reward,loss)三个定义;train定义了expisode,reward list,使用前面两个文件生成的agent和model,使用parl.algorithms函数来添加的算法和主循环。
这个例子中的policy gradient是forward back的计算方式,封装在了parl.model1中
问题在于paddle中的agent是一个和gym中的环境交互的类,要用到我的项目中最大的难点还是自己建立environment和agent,cartpole_agent文件和train文件就要大改了,最方便的应该是算法封装成变函数直接调用就好了。
文章评论