Skip to content

OPENAI Gym学习

  • 观测 Observation (Object):当前 step 执行后,环境的观测(类型为对象)。例如,从相机获取的像素点,机器人各个关节的角度或棋盘游戏当前的状态等;

  • 奖励 Reward (Float): 执行上一步动作(action)后,智体(agent)获得的奖励(浮点类型),不同的环境中奖励值变化范围也不相同,但是强化学习的目标就是使得总奖励值最大;

  • 完成 Done (Boolen): 表示是否需要将环境重置 env.reset。大多数情况下,当 Done 为 True 时,就表明当前回合(episode)或者试验(tial)结束。例如当机器人摔倒或者掉出台面,就应当终止当前回合进行重置(reset);

  • 信息 Info (Dict): 针对调试过程的诊断信息。在标准的智体仿真评估当中不会使用到这个 info,具体用到的时候再说。

  • Truncation: 物理上越界

  • Termination: 达到结束状态

强化学习库

强化学习算法库有很多,例如 天授,rllib,ElegantRL,PARL

pip install stable-baselines3 https://stable-baselines3.readthedocs.io/en/master/modules/dqn.htmlpip install tianshou https://tianshou.readthedocs.io/zh/latest/

baseline3

https://blog.csdn.net/tianjuewudi/article/details/123113885很详细
DummyVecEnv(VecEnv):串行环境DummyVecEnv(VecEnv) SubprocVecEnv: 多线程并行环境 net_arch=[128, dict(vf=[256], pi=[16])] Actor和Critic结构:共享128,action前16,value前256

Released under the MIT License.