728x90
반응형

Data Science/강화학습 8

[강화학습] 동적 계획법 - 정책 반복(Policy Iteration)

정책 반복(Policy Iteration)  이전 글에서 최적 정책을 구하는 3가지 방법이 존재한다고 했고, 그 중에서 Dynamic Programming(둥적 계획법)의 Iterative Policy Evaluation(반복 정책 평가) 내용을 다루었다.2024.10.12 - [Data Science/강화학습] - [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation) [강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [..

[강화학습] 동적 계획법 - 반복 정책 평가 (Iterative Policy Evaluation)

최적 정책을 구하는 3가지 방법 이 글을 읽기 전에 이전에 포스팅한 Bellman Equation을 읽고 본다면 이해가 더 잘될것이다.2024.10.04 - [Data Science/강화학습] - [강화학습] 벨만 방정식 (Bellman equation) [강화학습] 벨만 방정식 (Bellman equation)Bellman Equation  벨만 방정식은 강화학습에서 필요한 가장 중요한 식 중 하나이다.벨만 방적식은 현재 state와 이후 state들의 가치함수 ($  \nu_{\pi }(s), q_{\pi }(s, a) $) 사이의 관계를 식으로 나타낸 것j-codingbox.tistory.com  앞으로 세 포스팅은 위 주제에 관한 내용을 다루어볼 예정이다.최적 정책을 구한다는 것은 강화학습의 궁극..

[강화학습] 벨만 방정식 (Bellman equation)

Bellman Equation  벨만 방정식은 강화학습에서 필요한 가장 중요한 식 중 하나이다.벨만 방적식은 현재 state와 이후 state들의 가치함수 ($  \nu_{\pi }(s), q_{\pi }(s, a) $) 사이의 관계를 식으로 나타낸 것이다.수식은 다음과 같다. 수식이 조금 긴데 차근차근 알아보도록 하자.   State-value function에서의 Bellman Equation $  \nu_{\pi }(s)\doteq E_{\pi }[G_{t}|S_{t}=s] $ $ = E_{\pi }[R_{t+1} + \gamma G_{t+1}|S_{t}=s] $ $ = \sum_{a}^{}\pi (a|s)\sum_{s'}^{}\sum_{r}^{}p(s', r|s, a) [r + \gamma E_{..

[강화학습] 가치함수(Value Function)

Value Function(가치함수) value function(가치함수) : agent가 계산하는 값으로 각 state가 얼마나 가치있는지를 계산하는 함수이다.정책 π를 따를 때, 상태 s로부터 예상되는 장기 보상의 누적값이다.여기서 중요한 점은 "장기 보상의 값"이라는 것이다. 이는 reward(보상)과는 다른 의미이다. Reward : 즉각적인 보상ex) 야구 게임을 할 때 희생 번트를 하는 것은 그 번트를 하는 타자가 1루에서 아웃 될 확률이 매우 높다. 그래서 번트를 하는 action은 낮은 reward를 가지게 될 수 있다. Value Function : 장기적 관점의 누적 보상 (가치 판단)ex) 희생 번트는 reward는 낮을 수 있지만 장기적으로 보았을 때 출루되어있는 선수들이 진로할 수..

[강화학습] 결정론적 vs 확률론적 환경 (Deterministic vs Stochastic Environment)

Deterministic vs Stochastic Environment  이전 포스팅에서는 Policy를 결정론적, 확률론적으로 구분하여 설명했었다.2024.10.02 - [Data Science/강화학습] - [강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy) [강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)Deterministic vs Stochastic Policy  이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, Overvij-codi..

[강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)

Deterministic vs Stochastic Policy  이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, OverviewWhat is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는j-codingbox.tistory.com2024.10.01 - [Data Science/강화학습] - [강화학습] MDP(마르코프) 환경과 동역학(dynamics) [강화학습] MDP(마르코프) 환경과 동역학(dyna..

[강화학습] MDP(마르코프) 환경과 동역학(dynamics)

강화학습은 MDP(Markov Decision Process) 환경에서 적용되는 알고리즘이다  이전 포스팅 참고한 후 글을 읽으면 이해에 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, OverviewWhat is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는j-codingbox.tistory.com  강화학습은 MDP 환경이 깨지면 더이상의 학습을 이어갈 수 없다.그럼 MDP 환경이란 무엇인가? MDP는 state S 에서 action ..

[강화학습] 강화학습이란? 기초, Overview

What is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는 와닿지가 않을 것이다.그래서 아래 그림과 함께 본다면 이해에 도움이 될것이다. 일단 강화학습은 x값(독립변서), y값(종속변수)이 따로 존재하지 않는다.오직 보상값만 존재하게 된다.이때 보상값이란 인공지능(agent)이 환경(Environment)에서 어떠한 행동(Action)을 했을 때의 결과값을 목표값(Goal)을 기준으로 좋은 action 이었는지, 나쁜 action 이었는지 판단할 수 있는 가중치 라고 할 수 있다. 이 말은 위의 그림을 풀어서 설명한 것과 같다.조금 더 설명을 해보자면..

728x90
반응형