[강화학습] 결정론적 vs 확률론적 환경 (Deterministic vs Stochastic Environment)

Data Science/강화학습

[강화학습] 결정론적 vs 확률론적 환경 (Deterministic vs Stochastic Environment)

dev-js 2024. 10. 2. 13:35

Deterministic vs Stochastic Environment

이전 포스팅에서는 Policy를 결정론적, 확률론적으로 구분하여 설명했었다.

2024.10.02 - [Data Science/강화학습] - [강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)

[강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy)

Deterministic vs Stochastic Policy 이전 포스팅을 읽은 후 이 글을 보면 도움이 될 것이다.2024.09.25 - [Data Science/강화학습] - [강화학습] 강화학습이란? 기초, Overview [강화학습] 강화학습이란? 기초, Overvi

j-codingbox.tistory.com

이번 포스팅에서는 환경에서의 결정론적, 확률론적으로 나뉨을 알아보도록 하자.

Deterministic Environment

결정론적인 환경에서는 100% 확률로 해당 action에 대한 state로 이동된다.

예를들어, 체스에서 폰을 A2에서 A3으로 이동하는 것은 항상 작동된다. 여기서는 불확실성이 존재하지 않는다.

Stochastic Environment

확률론적인 환경에서는 action에 대한 state 이동 가능성에 임의성이 생긴다.

이런 환경은 정책과 무관하게 발생된다.

이전 포스팅에서 확률론적인 Policy를 알아봤었다.

Stochastic policy는 어떠한 정책으로 인해 여러 action이 확률적으로 동작될 수 있다는 것을 의미한다.

Stochastic environment는 어떠한 action으로 인해 도달되는 state가 달라진다는 것이다.

이 두개가 조금 햇갈릴 수도 있다.

예를들어,

주사위 게임에서는 주사위를 굴리는 action으로 인해 1에서 6까지의 state로 갈 수 있는 Stochastic environment 라고 할 수 있다.

또한 미끄러운 빙판에서도 예를 들 수 있다. 미끄러운 빙판에서 앞으로 가는 action을 했을 때, 앞으로 가는 경우의 수, 넘어져서 뒤로 가는 경우의 수, 미끄러져서 옆으로 갈 수 있는 경우의 수가 동시에 존재한다. 같은 action으로 여러 state로 가질 수 있고, 이는 확률적으로 정해진다는 것이다.

728x90

'Data Science > 강화학습' 카테고리의 다른 글

[강화학습] 벨만 방정식 (Bellman equation) (7)	2024.10.04
[강화학습] 가치함수(Value Function) (9)	2024.10.03
[강화학습] 결정론적 vs 확률론적 정책 (Deterministic vs Stochastic Policy) (1)	2024.10.02
[강화학습] MDP(마르코프) 환경과 동역학(dynamics) (3)	2024.10.01
[강화학습] 강화학습이란? 기초, Overview (3)	2024.09.25

현재글[강화학습] 결정론적 vs 확률론적 환경 (Deterministic vs Stochastic Environment)

기록의 힘