728x90
반응형

Reinforcement 2

[강화학습] 동적 계획법 - 정책 반복(Policy Iteration)

정책 반복(Policy Iteration)  이전 글에서 최적 정책을 구하는 3가지 방법이 존재한다고 했고, 그 중에서 Dynamic Programming(둥적 계획법)의 Iterative Policy Evaluation(반복 정책 평가) 내용을 다루었다.2024.10.12 - [Data Science/강화학습] - [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation) [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [..

[강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)

최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [강화학습] 벨만 방정식 (Bellman equation) [강화학습] 벨만 방정식 (Bellman equation)Bellman Equation  벨만 방정식은 강화학습에서 필요한 가장 중요한 식 중 하나이다.벨만 방적식은 현재 state와 이후 state들의 가치함수 ($  \nu_{\pi }(s), q_{\pi }(s, a) $) 사이의 관계를 식으로 나타낸 것j-codingbox.tistory.com  앞으로 세 포스팅은 위 주제에 관한 내용을 다루어볼 예정이다.최적 정책을 구한다는 것은 강화학습의 궁극..

728x90
반응형