Reward
RL의 목적: reward의 축적된 합이 최대가 되도록 하는 것
task가 무엇인가에 따라 매번 reward를 주는 방식이 달라진다.
ex) 빠른 시간 안에 일 수행 : 시간이 지날 때마다 -1
Markov Property
State Transition Matrix

모든 s와 s'에 대해 확률이 주어지면, Model을 알고있다고 할 수 있다.
ex) 바람이 거칠게 부는 상황에 나무 젓가락이 세워져 있다. 현재 상태에서 어디로 넘어질까?
-> 어디로 넘어갈지에 대해 모든 확률을 아는 경우, 바람이 어떻게 부는지 등을 모두 알고 있는 상태이다.
->> Model을 알고 있다! 물론 Reward도 Model에 포함되지만..
Markov Process

그냥 Markov 특성이 적용된 process라고 생각하면 되겠다.
Markov Reward Process
Markov Process에 Reward가 추가된 것.

여기서 Reward 의 정의를 눈여겨 보자! 이는 현재 상태에 대한 reward의 평균이 Reward라고 할 수 있다.
Return

Value Function for MRP
사실 이 Value Function이 두번째로 중요하다.
왜냐?
강화학습의 목적은 policy를 구하는 것이고, 그 policy를 구하기 위해서는 value function이 필요하기 때문이다.
value function : Expected Return starting from state s

사실 Return에서 어떻게 value function 으로 넘어가는지 잘 이해가 되지 않는다..
Bellman Equation의 의의가 중요하다.
먼 미래의 reward까지 알 필요 없이 한 step 뒤의 상황(확률과 value)만 알면 현재 state에 대한 전체 상황, value를 알 수 있다.
'강화학습. Reinforcement Learning > Markov Decision Process' 카테고리의 다른 글
| 3. RL - Terminology (0) | 2025.03.11 |
|---|