์ด๋ก ํต์ฌ: **PPO (Proximal Policy Optimization)**๋ "ํ์ต์ ํ๋, ๋๋ฌด ๊ธ๊ฒฉํ๊ฒ ์ฑ๊ฒฉ์ ๋ฐ๊พธ์ง ๋ง๋ผ"๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ด์ ๋ "์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ" ํ๋ค๊ฐ ์ค๋ ๊ฐ์๊ธฐ "์ผ์ชฝ์ผ๋ก ๊ฐ" ํ๋ฉด ๋ก๋ด์ด ํผ๋์ค๋ฌ์ํ๋๊น, ์กฐ๊ธ์ฉ(Proximal) ์ ์ฑ ์ ์์ ํด์ ์์ ์ ์ผ๋ก ํ์ต์ํต๋๋ค. ๊ทธ๋์ ๋ก๋ด ์ ์ด ๋ถ์ผ์ ๊ตญ๋ฃฐ(Standard)์ด ๋์์ต๋๋ค.
์ญํ : Hopper์ ์ผ์๊ฐ(๊ธฐ์ธ๊ธฐ, ์๋)์ ๋ณด๊ณ "๋ค๋ฆฌ๋ฅผ ํด๋ผ/์ ์ด๋ผ" ๋ช ๋ น์ ๋ด๋ฆฝ๋๋ค.
์ฝ๋: net_arch=[256, 256]์์ ์๋ถ๋ถ์ ํด๋นํฉ๋๋ค.
์ญํ : Actor๊ฐ ์์ง์ด๋ ๊ฑธ ๋ณด๊ณ **"์ผ, ์ง๊ธ ๊ทธ ์์ธ๋ฉด 2์ด ๋ค์ ๋์ด์ ธ. ์ ์ ๋ฎ์!"**๋ผ๊ณ ํ๊ฐํฉ๋๋ค.
์ค์์ฑ: ๋ก๋ด์ ๋์ด์ ธ๋ด์ผ ์ํ ์ค ์๋๋ฐ, Critic์ด ๋ฏธ๋ฆฌ "๊ทธ๊ฑด ๋์ ์์ธ์ผ"๋ผ๊ณ ๊ฐ์น(Value)๋ฅผ ์๋ ค์ค์ ํ์ต ์๋๋ฅผ ๋์ ๋๋ค.
PPO์ ํต์ฌ: Actor๊ฐ Critic์ ์กฐ์ธ์ ๋ฃ๊ณ ํ๋์ ๊ณ ์น๋๋ฐ, **"ํ ๋ฒ์ ๋๋ฌด ํ ๋ฐ๊พธ์ง ๋ง!"**๋ผ๊ณ ์ ํ์ ๊ฒ๋๋ค.
Hopping Robot์ ์์๋ก
โ clip_range (ํด๋ฆฌํ ๋ฒ์): PPO์ ์์ ๋ฒจํธ PPO(Proximal Policy Optimization) ์ด๋ฆ์ ์ ๋์ ๋๋ค.
์ํฉ: ๋ก๋ด์ด ์ฐ์ฐํ ์ ํ๋ฅผ ์์ฒญ ๋๊ฒ ํด์ ์ ์๋ฅผ ์ ๋ฐ์์ต๋๋ค.
์ผ๋ฐ RL: "์ฐ์! ๋ฌด์กฐ๊ฑด ์ธ๊ฒ ๋ฐ์ด!" -> ๋ค์ ํ์ ๋๋ฌด ์ธ๊ฒ ๋ฐ์ด์ ๋ค๋ก ๋์ด์ง. (ํ์ต ๋ถ๊ดด)
PPO: "์ ์ ์ ๋ฐ์ ๊ฑด ์๊ฒ ๋๋ฐ, ์๋ ํ๋ ์คํ์ผ์์ ๋ฑ 20%๋ง ๋ฐ๊ฟ. ๋๋ฌด ํฅ๋ถํ์ง ๋ง."
์ฝ๋: clip_range=0.2 (๊ธฐ๋ณธ๊ฐ)
์ด๊ฒ PPO๊ฐ ๋ก๋ด ์ ์ด์์ ์งฑ ๋จน์ ์ด์ ์ ๋๋ค. ํ์ต์ด ํ๋ ๊ฑธ ๋ง์์ค๋๋ค.
โก ent_coef (์ํธ๋กํผ ๊ณ์): ํธ๊ธฐ์ฌ ์กฐ์ ๊ธฐ ๋ก๋ด์ด ํ์ต ์ด๋ฐ์ ์๊พธ ๋์ด์ง๋ ๊ฒ ๋ฌด์์์ ๊ฐ๋งํ ์ ์์ผ๋ ค๊ณ ๋ง ํ ๋ ๊ฑด๋๋ฆฌ๋ ์ซ์์ ๋๋ค.
์๋ฏธ: "์ผ๋ง๋ ์๋ฑํ ์ง(ํํ)์ ํ์ฉํ ๊ฒ์ธ๊ฐ?"
๋ฎ์ผ๋ฉด(0.0): ํ๋ ๋๋ก๋ง ํฉ๋๋ค. (์์ ๋นต, ๊ณ ์ง๋ถํต)
๋์ผ๋ฉด(0.1): ๋ฏธ์น ์ฒํ๊ณ ๋ค๋ฆฌ๋ฅผ ๋ง ์ฐข์ด๋ด ๋๋ค. (์๋ก์ด ๊ธฐ์ ๋ฐ๊ฒฌ ๊ฐ๋ฅ์ฑ โ, ํ์ง๋ง ์ ๋์ด์ง)
์ค์ ํ: ๋ก๋ด์ด ๋๋ฌด ๋ปํ ์์ง์๋ง ํ๋ฉด ์ด ์ซ์๋ฅผ ์ด์ง(0.01) ์ฌ๋ ค์ค๋๋ค.
โข learning_rate (ํ์ต๋ฅ ): ๊ณต๋ถ ์๋ ์๋ฏธ: ํ ๋ฒ์ ๊ฒฝํ์์ ์ผ๋ง๋ ๋ง์ด ๋ฐฐ์ธ ๊ฒ์ธ๊ฐ.
๋๋ฌด ํฌ๋ฉด: ์ฑ๊ฒฉ์ด ๊ธํด์ ์ด๋ฆฌ์ ๋ฆฌ ์๋ค ๊ฐ๋ค ํ๋ค ๋งํฉ๋๋ค.
๋๋ฌด ์์ผ๋ฉด: ์ ์ญํ ๋๊น์ง ๊ฑธ์๋ง๋ ๋ชป ๋๋๋ค.
๊ตญ๋ฃฐ: 3e-4 (0.0003)์ด ๋ก๋ด ๊ฐํํ์ต์ ํฉ๊ธ ๋น์จ์ ๋๋ค.
๋ก๋ด์ด "์ํ๋ค"๊ณ ์นญ์ฐฌ๋ฐ๋ ๊ธฐ์ค์ ์์์ผ ํฉ๋๋ค. Hopper๋ ๋ด๋ถ์ ์ผ๋ก ์ด๋ ๊ฒ ์ ์๋ฅผ ๋ฐ์ต๋๋ค.$$Reward = (์์ผ๋ก ๊ฐ ์๋) - (๋ชจํฐ ์ฐ๋ ํ \times 0.001) + (์ ๋์ด์ง \times 1.0)$$์๋: ๋นจ๋ฆฌ ๊ฐ์๋ก ์ ์๊ฐ ํํ ์ค๋ฆ ๋๋ค.์๋์ง ์ ์ฝ: ๋ชจํฐ๋ฅผ ๋ฏธ์น๋ฏ์ด ๋๋ฆฌ๋ฉด ๊ฐ์ ์ ๋๋ค. (๊ทธ๋์ ๋ก๋ด์ด ๋์ค์ ๋ณด๋ฉด ๋ถ๋๋ฝ๊ฒ ์์ง์ด๋ ค ๋ ธ๋ ฅํฉ๋๋ค.)์์กด ๋ณด๋์ค: ์ด์๋ง ์์ด๋ 1์ ์ ์ค๋๋ค. (์ด๊ฒ ์์ผ๋ฉด ๋ก๋ด์ "์์ง์ด๋ฉด ๋์ด์ง๋๊น ๊ทธ๋ฅ ๋ฐ๋ก ์์ดํด์ ๊ฒ์ ๋๋ด์ผ์ง"๋ผ๊ณ ์๊ฐํ ์๋ ์์ต๋๋ค.)