728x90

강화학습 7

[강화학습] 동적 계획법 - 정책 반복(Policy Iteration)

정책 반복(Policy Iteration)  이전 글에서 최적 정책을 구하는 3가지 방법이 존재한다고 했고, 그 중에서 Dynamic Programming(둥적 계획법)의 Iterative Policy Evaluation(반복 정책 평가) 내용을 다루었다.2024.10.12 - [Data Science/강화학습] - [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation) [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [..

[강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)

최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [강화학습] 벨만 방정식 (Bellman equation) [강화학습] 벨만 방정식 (Bellman equation)Bellman Equation  벨만 방정식은 강화학습에서 필요한 가장 중요한 식 중 하나이다.벨만 방적식은 현재 state와 이후 state들의 가치함수 ($  \nu_{\pi }(s), q_{\pi }(s, a) $) 사이의 관계를 식으로 나타낸 것j-codingbox.tistory.com  앞으로 세 포스팅은 위 주제에 관한 내용을 다루어볼 예정이다.최적 정책을 구한다는 것은 강화학습의 궁극..

[강화학습] 가치함수(Value Function)

Value Function(가치함수) value function(가치함수) : agent가 계산하는 값으로 각 state가 얼마나 가치있는지를 계산하는 함수이다.정책 π를 따를 때, 상태 s로부터 예상되는 장기 보상의 누적값이다.여기서 중요한 점은 "장기 보상의 값"이라는 것이다. 이는 reward(보상)과는 다른 의미이다. Reward : 즉각적인 보상ex) 야구 게임을 할 때 희생 번트를 하는 것은 그 번트를 하는 타자가 1루에서 아웃 될 확률이 매우 높다. 그래서 번트를 하는 action은 낮은 reward를 가지게 될 수 있다. Value Function : 장기적 관점의 누적 보상 (가치 판단)ex) 희생 번트는 reward는 낮을 수 있지만 장기적으로 보았을 때 출루되어있는 선수들이 진로할 수..

[강화학습] 결정론적 vs 확률론적 환경 (Deterministic vs Stochastic Environment)

Deterministic vs Stochastic Environment  이전 포스팅에서는 Policy를 결정론적, 확률론적으로 구분하여 설명했었다.2024.10.02 - [Data Science/강화학습] - [강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy) [강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)Deterministic vs Stochastic Policy  이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, Overvij-codi..

[강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)

Deterministic vs Stochastic Policy  이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, OverviewWhat is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는j-codingbox.tistory.com2024.10.01 - [Data Science/강화학습] - [강화학습] MDP(마르코프) 환경과 동역학(dynamics) [강화학습] MDP(마르코프) 환경과 동역학(dyna..

[강화학습] MDP(마르코프) 환경과 동역학(dynamics)

강화학습은 MDP(Markov Decision Process) 환경에서 적용되는 알고리즘이다  이전 포스팅 참고한 후 글을 읽으면 이해에 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, OverviewWhat is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는j-codingbox.tistory.com  강화학습은 MDP 환경이 깨지면 더이상의 학습을 이어갈 수 없다.그럼 MDP 환경이란 무엇인가? MDP는 state S 에서 action ..

[강화학습] gymnasium - box2d install 오류 해결

[강화학습] gymnasium - box2d install 오류 해결 * 필자는 Window10 환경에서 gymnasium 라이브러리를 설치했습니다. 강화학습을 위해 gymnasium 라이브러리를 다운로드 중pip install gymnasiumpip install gymnasium[classic-control]pip install gymnasium[box2d] pip install gymnasium[box2d] 에서 오류가 뜰 수 있다.크게 swig 에러, C++ build tool 에러 두 개가 있다.두 오류가 모두 떠본 사람으로서 해당 오류를 트러블슈팅 하고자 한다.   SWIG err Building wheel for box2d-py (setup.py) ... error error: subpr..

728x90