-
Notifications
You must be signed in to change notification settings - Fork 91
Open
Description
RLfrombasics/ch9_ActorCritic.py
Lines 76 to 77 in 8062dcd
| while not done: | |
| for t in range(n_rollout): |
현재의 코드에 따르면 step은 10틱 단위로 연속해서 행해지고 그 데이터를 모아서 model을 업데이트하는데,
10틱이 진행되는 중간에 negative done이 일어났다가 다시 정상 궤도로 돌아온다면 문제가 생기지 않을까요?
https://www.gymlibrary.dev/environments/classic_control/cart_pole/#episode-end
예를 들어, pole angle이 +-12도를 넘어가거나 cart position이 +-2.4를 넘어간다면 negative termination의 조건에 해당하여 episode가 종료되어야 하지만,
10틱이 채 지나기 전에 복구하여 episode를 계속 진행하게 된다면 종료 조건을 무시하면서 학습을 하는 것이기 때문에
저희가 원하는 학습이 이루어지지는 않을 것이라고 생각합니다.
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels