Deterministic vs Stochastic Policy
이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.
2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview
2024.10.01 - [Data Science/강화학습] - [강화학습] MDP(마르코프) 환경과 동역학(dynamics)
한번 더 복습하는 차원에서 Policy란 무엇인가를 다시 한번 짚어보자.
Pollicy : 각 state와 agent가 해당 state에서 수행할 action을 확률분포(π)로 매핑한 것을 policy(정책) 이라고 한다.
agent은 policy를 따라 행동하는 것이고, 한마디로 agent의 행동 지침이 된다고 할 수 있다.
이를
a = π(s)
라고 표기한다.
또한 policy는 MDP 특성을 나타내고 있다.
state는 다음의 정책(행동에서의 결정)에 필요한 모든 정보가 포함되어야 한다는 의미이다.
그렇기 때문에 MDP를 만족하지 않는 유효하지 않은 정책이 생길 수 있다.
정책에 의한 action이 규칙적이거나 반복적이라면 유효하지 않게 된다.
last action을 기억하는 것이 아니라 last action을 state에 포함시켜야 하기 때문이다.
이 policy는 2가지 경우로 나타낼 수 있는데
Deterministic Policy(결정론적 정책), Stochastic Policy(확률론적 정책) 두가지로 나눌 수 있다.
Deterministic Policy
정책 π에 의해 선택된 action이 100% 정해져 있는 정책을 Deterministic Policy(결정론적 정책) 이라고 한다.
한 state에 한 action만 매핑되고, 다른 경우의 수는 존재하지 않는다.
Stochastic Policy
정책 π에 의해 선택된 action이 여러개가 존재할 수 있다. 여러 action들은 확률적으로 정해진다.
확률론적 정책에서는 다음과 같이 정의할 수 있다.
π( a | s ) : state s에서 policy π가 action a를 선택할 확률
π( a | s ) > 0
state | action | probability |
s1 | Up | 0.5 |
s1 | Down | 0.1 |
s1 | Left | 0.2 |
s1 | Right | 0.2 |
s2 | Up | 0.3 |
s2 | Down | 0.3 |
s2 | Left | 0.1 |
s2 | Right | 0.3 |
어떠한 state에서 정책 π에 의해 action될 수 있는 경우의 수가 다음 표와 같이 4개가 존재할 수 있고, 이는 확률적으로 정해진다는 것을 나타내고 있다.
그렇다면 결정론적, 확률론적 정책 중에서 어떤것이 더 좋은 것일까?
물론 확실한 결정론적 정책이 좋을것 같다고 직관적으로 생각할 수 있다.
하지만 때에 따라 확률론적 정책이 필요할 수 있다.
어쩌면 결정론적 정책을 만들기 위해 확률론적 정책을 통해서 학습을 한 후 결정론적 정책을 만들어나가는 것일 수도 있다고 생각한다.
다른 state로의 이동 가능성이 필요할 때는 탐색이 필요하다.
예를 들어 가위바위보 게임을 할 때 3가지 가능성을 모두 고려해야하기 때문에 확률론적 정책이 필요할 수 있다.
'Data Science > 강화학습' 카테고리의 다른 글
[강화학습] 벨만 방정식 (Bellman equation) (7) | 2024.10.04 |
---|---|
[강화학습] 가치함수(Value Function) (9) | 2024.10.03 |
[강화학습] 결정론적 vs 확률론적 환경 (Deterministic vs Stochastic Environment) (2) | 2024.10.02 |
[강화학습] MDP(마르코프) 환경과 동역학(dynamics) (3) | 2024.10.01 |
[강화학습] 강화학습이란? 기초, Overview (3) | 2024.09.25 |