Skip to content

[Chapter 6] SARSA 설명 및 코드 문의 #16

@hyunseoki

Description

@hyunseoki

sarsa(on-policy)에서는 주석된 부분이
“실제로 취할 액션”이어야 하지 않나 싶습니다. 코드가 그에 따라 바뀌어야 하구요..
확인 부탁드립니다.

지금 코드에서는 실제로 취하지 않은 액션을 사용해서 q를 수정하는 내용이고, on-policy 정의와 다른 것 같습니다 .

    def update_table(self, transition):
        s, a, r, s_prime = transition
        x,y = s
        next_x, next_y = s_prime
        a_prime = self.select_action(s_prime) # S'에서 선택할 액션 (실제로 취한 액션이 아님)
        # Q러닝 업데이트 식을 이용 
        self.q_table[x,y,a] = self.q_table[x,y,a] + 0.1 * (r + np.amax(self.q_table[next_x,next_y,:]) - self.q_table[x,y,a])

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions