이전 강의에서 우리는 Markov Reward Process와 MRP의 Value Function에 대해 공부해 보았다.
이어서 진행해보겠다.
Bellman Equation for MRP In Matrix Form

여기까지 MRP이고, 이제 MDP(Markov Decision Process) 다뤄보자!!
Markov Decision Process (MDP)
MDP는 Action이 추가된 MRP이다.

잘 보면, State Transition Probability Matrix에 Action이 추가된 것을 확인할 수 있다.
그리고, 엄밀히 말하면 reward function 도 action의 영향을 받으므로 action을 추가해주었다.
MDP의 예시를 살펴보자

A는 action을 뜻하고, high와 low일 때 취할 수 있는 action이다.
몇가지 살펴보면, 배터리 상태가 high일 때 wait action을 취하면 1의 확률로 high가 유지되고, 이로 인해 r(wait)의 reward가 주어진다.
low일 때 search action을 취하면 beta의 확률로 배터리가 low이고, reward는 r(search)이다.
다만, search를 하다가 방전이 되면 1-beta의 확률로 사람이 직접 충전을 하고, 이로 인해 reward는 -3 이다.
Policies

policy는 시간에 따라 변화하지 않는다. time invariant.
그러나 인간은 policy가 시간에 따라 변화하지 않는가?
왜 이렇게 하는가?
1. policy가 시간에 따라 변화하게 되면 너무 복잡하다..
2. 굳이 그럴 필요가 없다.
시시각각 policy가 변화하면, 사실 지맘대로라고 말할 수도? 있다.

Transition Probability에 대해서 MDP action의 확률을 빼버리면 MDP -> MP가 된다.
Reward에 대해서 MDP action의 확률을 빼면 MDP -> MRP 가 된다.
결국엔 MDP가 가장 general case이다. 위의 상황은 모두 policy가 주어진 경우를 고려한 것이다.
Value Function

'강화학습. Reinforcement Learning > Markov Decision Process' 카테고리의 다른 글
| 2. RL - Markov Terminology (0) | 2025.03.11 |
|---|