Skip to content

[ch9_ActorCritic.py] n_rollout 질문 #14

@HyeAnn-Lee

Description

@HyeAnn-Lee

while not done:
for t in range(n_rollout):

현재의 코드에 따르면 step은 10틱 단위로 연속해서 행해지고 그 데이터를 모아서 model을 업데이트하는데,
10틱이 진행되는 중간에 negative done이 일어났다가 다시 정상 궤도로 돌아온다면 문제가 생기지 않을까요?
https://www.gymlibrary.dev/environments/classic_control/cart_pole/#episode-end
예를 들어, pole angle이 +-12도를 넘어가거나 cart position이 +-2.4를 넘어간다면 negative termination의 조건에 해당하여 episode가 종료되어야 하지만,
10틱이 채 지나기 전에 복구하여 episode를 계속 진행하게 된다면 종료 조건을 무시하면서 학습을 하는 것이기 때문에
저희가 원하는 학습이 이루어지지는 않을 것이라고 생각합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions