このリポジトリでは、Pytorchを使って自学自習で作ってみた強化学習のコードを紹介しています。
A2C、PPO、SAC、MPC、MBPO、CQL、Dreamerに関心がある方に適しています。
- Pytorch
| ディレクトリ名 | 概要 |
|---|---|
actor-critic_optimize-price |
Actor-Criticを理解するために基本的なA2Cを環境も含めて実装したもの |
ppo-provisional_optimize-price |
性能向上のためにPPOもどきを環境も含めて実装したもの |
ppo_optimize-price |
性能向上のために基本的なPPOを環境も含めて実装したもの |
sac_optimize-price |
オフポリシーのために基本的なSACを環境も含めて実装したもの |
sac-mpc_optimize-price |
基本的なSACに環境も推論するMPCを組み込んだものを環境も含めて実装したもの |
sac-mbpo_optimize-price |
基本的なSACに環境も推論するMBPOを組み込んだものを環境も含めて実装したもの |
cql-sac_optimize-operator |
基本的なSACにオフライン学習のためのCQLを組み込んだものを環境も含めて実装したもの |
dreamer-v2_optimize-price |
基本的なSACに世界モデルのDreamer v2を組み込んだものを環境も含めて実装したもの |