강화학습 기초공부 - chap 3 : MDP(Markov Decision Processes)

 참고한 책 : Reinforcement Learning: An Introduction, 2nd edition (Richard S. Sutton, Andrew G. Barto)

개요

MDP(Markov Decision Processes)는 RL(Reinforcement learning) 문제를 서술하기에 이상적인 수학적 형태로 RL관련된 대부분의 곳에서 MDP로 서술된 수식들을 찾아볼 수 있다. MDP는 agent가 environment와 상호작용하면서 생기는 state-transition을 중심으로 그에 대한 action과 reward의 관계를 표현한다. 
이 식은 한 time step이 지나가면서 state s에서 s'로 transition할 때 어떤 action a가 관여하고, s' 시점에서 environment로부터 어떤 reward r을 받는데, 이러한 transition이 일어날 확률이 어떤지를 나타내는 식이다. 아래 그림은 이러한 관계를 시각적으로 보여준다.


강화학습의 목적은 어떨 때 뭘 하는게 최고로 좋을지를 알아내는 것이기에 '좋다'는 것에 대해서 양적으로 계산할 필요가 있다. 이는 value function을 중심으로 생각해 볼 수 있다. 그전에 policy를 알아야 하는데 policy는 어떤 s에서 어떤 a를 선택할 확률을 매핑하는 함수로 아래와 같이 표현한다.
policy

policy에 s를 넣으면 가능한 여러가지 a들이 선택될 확률분포를 알려준다. 뭔가가 이 policy를 따른다 하면 그러한 확률분포 하에 a를 선택하려 한다고 보면 된다.

value function은 두가지 형태로 표현할 수 있다. state-value function은 어떤 s이후 어떤 policy를 따른다면 미래에 기대되는 rewards들의 cumulative sum이 얼마인지를 매핑하는 함수이다. 즉 어떤 s의 가치가 얼마일지를 알려주는 것이다.
state-value function

cumulative sum of rewards

action-value function은 s이후 policy를 따라 a를 선택하고 이후에도 policy를 따른다면 기대되는 rewards들의 cumulative sum이 얼마인지를 매핑하는 함수이다. 즉 어떤 s에서 어떤 a를 선택했을때의 가치가 얼마일지를 알려주는 것이다.
action-value function


이러한 value function을 MDP의 관점에서 풀어내기 위해서 식을 풀어 쓰는데 여기서 유명한 bellman equation이 나온다.
제일 아래 식, bellman equation

bellman 식이 복잡해 보이지만 재귀적으로 계속 타고 들어가서 전부 풀어보면 다시 s이후에 얻을 수 있는 모든 rewards들이 모두 더해지는 형태일 것이다. bellman equation은 가장 이상적인 상황 하에 value function을 확실하게 풀어내는 방식을 이야기해주려는 식인 듯 하다. 

하지만 실제로 식을 풀려면 식에 들어갈 모든 정보들이 완벽할 때에만 가능하며 계산 또한 매우 많이 해야 한다. 이후 챕터 4,5,6에는 조금 다른 방법들로 value function을 구하고 policy를 구하는 등의 내용이 담겨 있다.

3.6챕터에서는 bellman equation에 기반해서 optimal하게 value function이나 policy를 구하는 것에 대해 서술되어 있다.
3.7챕터에서는 bellman equation을 직접 푸는것의 여러 단점, tabular한 접근에서 오는 단점 등을 approximation한 접근을 통해서 해결할 수 있는 가능성에 대해 간략히 소개한다.


댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법