-
Notifications
You must be signed in to change notification settings - Fork 91
Open
Description
sarsa(on-policy)에서는 주석된 부분이
“실제로 취할 액션”이어야 하지 않나 싶습니다. 코드가 그에 따라 바뀌어야 하구요..
확인 부탁드립니다.
지금 코드에서는 실제로 취하지 않은 액션을 사용해서 q를 수정하는 내용이고, on-policy 정의와 다른 것 같습니다 .
def update_table(self, transition):
s, a, r, s_prime = transition
x,y = s
next_x, next_y = s_prime
a_prime = self.select_action(s_prime) # S'에서 선택할 액션 (실제로 취한 액션이 아님)
# Q러닝 업데이트 식을 이용
self.q_table[x,y,a] = self.q_table[x,y,a] + 0.1 * (r + np.amax(self.q_table[next_x,next_y,:]) - self.q_table[x,y,a])
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels