정책 반복(Policy Iteration) 이전 글에서 최적 정책을 구하는 3가지 방법이 존재한다고 했고, 그 중에서 Dynamic Programming(둥적 계획법)의 Iterative Policy Evaluation(반복 정책 평가) 내용을 다루었다.2024.10.12 - [Data Science/강화학습] - [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation) [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [..