본문 바로가기

강화학습. Reinforcement Learning/Markov Decision Process

2. RL - Markov Terminology

728x90

Reward

RL의 목적: reward의 축적된 합이 최대가 되도록 하는 것

 

task가 무엇인가에 따라 매번 reward를 주는 방식이 달라진다. 

ex) 빠른 시간 안에 일 수행 : 시간이 지날 때마다 -1 

 


Markov Property

 


State Transition Matrix

 

State Transition Matrix

 

모든 s와 s'에 대해 확률이 주어지면, Model을 알고있다고 할 수 있다.

 

ex) 바람이 거칠게 부는 상황에 나무 젓가락이 세워져 있다. 현재 상태에서 어디로 넘어질까? 

-> 어디로 넘어갈지에 대해 모든 확률을 아는 경우, 바람이 어떻게 부는지 등을 모두 알고 있는 상태이다.

->> Model을 알고 있다! 물론 Reward도 Model에 포함되지만..

 


Markov Process

 

Markov Process

 

그냥 Markov 특성이 적용된 process라고 생각하면 되겠다.

 

 


Markov Reward Process

 

Markov Process에 Reward가 추가된 것.

 

Markov Reward Process

 

여기서 Reward 의 정의를 눈여겨 보자! 이는 현재 상태에 대한 reward의 평균이 Reward라고 할 수 있다.

 

 


Return

 

Reward

 


Value Function for MRP

 

사실 이 Value Function이 두번째로 중요하다.

왜냐?

강화학습의 목적은 policy를 구하는 것이고, 그 policy를 구하기 위해서는 value function이 필요하기 때문이다.

 

value function : Expected Return starting from state s

 

Value Function For Markov Reward Process

 

사실 Return에서 어떻게 value function 으로 넘어가는지 잘 이해가 되지 않는다..

 

Bellman Equation의 의의가 중요하다.

먼 미래의 reward까지 알 필요 없이 한 step 뒤의 상황(확률과 value)만 알면 현재 state에 대한 전체 상황, value를 알 수 있다.

 

 

출처 : https://www.youtube.com/@snucml5499

'강화학습. Reinforcement Learning > Markov Decision Process' 카테고리의 다른 글

3. RL - Terminology  (0) 2025.03.11