Data Science/강화학습

[강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)

dev-js 2024. 10. 2. 09:43

 

 

 

Deterministic vs Stochastic Policy

 

 

이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.

2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview

 

[강화학습] 강화학습이란? 기초, Overview

What is Reinforcement Learning? 강화학습의 사전적 정의는순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하며 학습하는 과정 이다.처음 이 말을 들었을 때는

j-codingbox.tistory.com

2024.10.01 - [Data Science/강화학습] - [강화학습] MDP(마르코프) 환경과 동역학(dynamics)

 

[강화학습] MDP(마르코프) 환경과 동역학(dynamics)

강화학습은 MDP(Markov Decision Process) 환경에서 적용되는 알고리즘이다  이전 포스팅 참고한 후 글을 읽으면 이해에 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기

j-codingbox.tistory.com

 

 

 

한번 더 복습하는 차원에서 Policy란 무엇인가를 다시 한번 짚어보자.

 

Pollicy : 각 state와 agent가 해당 state에서 수행할 action을 확률분포(π)로 매핑한 것을 policy(정책) 이라고 한다.

agent은 policy를 따라 행동하는 것이고, 한마디로 agent의 행동 지침이 된다고 할 수 있다.

 

이를

a = π(s)

라고 표기한다.

 

또한 policy는 MDP 특성을 나타내고 있다.

state는 다음의 정책(행동에서의 결정)에 필요한 모든 정보가 포함되어야 한다는 의미이다.

그렇기 때문에 MDP를 만족하지 않는 유효하지 않은 정책이 생길 수 있다.

정책에 의한 action이 규칙적이거나 반복적이라면 유효하지 않게 된다.

last action을 기억하는 것이 아니라 last action을 state에 포함시켜야 하기 때문이다.

 

 

이 policy는 2가지 경우로 나타낼 수 있는데

Deterministic Policy(결정론적 정책), Stochastic Policy(확률론적 정책) 두가지로 나눌 수 있다.

 

 

 

Deterministic Policy

 

정책 π에 의해 선택된 action이 100% 정해져 있는 정책을 Deterministic Policy(결정론적 정책) 이라고 한다.

한 state에 한 action만 매핑되고, 다른 경우의 수는 존재하지 않는다.

 

 

 

Stochastic Policy

 

정책 π에 의해 선택된 action이 여러개가 존재할 수 있다. 여러 action들은 확률적으로 정해진다.

확률론적 정책에서는 다음과 같이 정의할 수 있다.

π( a | s ) : state s에서 policy π가 action a를 선택할 확률

π( a | s ) > 0

state action probability
s1 Up 0.5
s1 Down 0.1
s1 Left 0.2
s1 Right 0.2
s2 Up 0.3
s2 Down 0.3
s2 Left 0.1
s2 Right 0.3

 

어떠한 state에서 정책 π에 의해 action될 수 있는 경우의 수가 다음 표와 같이 4개가 존재할 수 있고, 이는 확률적으로 정해진다는 것을 나타내고 있다.

 

 

그렇다면 결정론적, 확률론적 정책 중에서 어떤것이 더 좋은 것일까?

물론 확실한 결정론적 정책이 좋을것 같다고 직관적으로 생각할 수 있다.

하지만 때에 따라 확률론적 정책이 필요할 수 있다.

 

어쩌면 결정론적 정책을 만들기 위해 확률론적 정책을 통해서 학습을 한 후 결정론적 정책을 만들어나가는 것일 수도 있다고 생각한다. 

다른 state로의 이동 가능성이 필요할 때는 탐색이 필요하다.

예를 들어 가위바위보 게임을 할 때 3가지 가능성을 모두 고려해야하기 때문에 확률론적 정책이 필요할 수 있다.

 

 

728x90