강화학습 기초공부 - 생각정리

개요

Reinforcement Learning: An Introduction, 2nd edition (Richard S. Sutton, Andrew G. Barto)을 읽어보며 들었던 생각들을 간단히 정리하려 합니다.

책의 내용은 대략 이와 같이 구성되어 있었습니다.
1. 강화학습에 대한 소개와 여러가지 예시들
2. 강화학습을 Tabular한 관점에서 바라볼 수 있는 여러 개념 및 method들에 대한 설명
3. Function approximation에 기반하는 approximate solution method들에 대한 설명
4. 심리학 및 신경과학에 대한 소개 및 연관성
5. 강화학습이 성공적으로 사용된 예시들
6. 추후 해결해야할 문제들 및 미래에 대한 관점

내용 중 가장 이 책을 관통하는 개념은 GPI(Generalized Policy Iteration)와 같이 점진적으로 optimal한 policy에 수렴해 나가는 과정이 아닌가 싶습니다. 그리고 또 주목할 관점으로는 여러 가지 method들이 보여주는 것 처럼 state space 내부를 얼마만큼 잘 움직이고 다니면서 효율적으로 정보를 활용하는지에 대한 관점인 것 같습니다.

참고했던 책 Reinforcement Learning: An Introduction, 2nd edition 의 저자인 sutton, barto교수는 1990년대부터 지금까지 수십년 동안 강화학습의 발전에 기여해왔습니다. 그러한 역사들을 책에 써내는 기분이 어떨까 생각도 들었습니다. 이 책은 2018년에 출간되었는데 세번째 에디션은 언제쯤 어떤 내용을 담고 나올지 기대됩니다. 

개인적으로 공부를 하면서 느낀 점 중 하나는 강화학습이라는 분야가 단순히 컴퓨터 알고리즘 중 하나로만 볼만한 것이라기보다 조금 더 원론적인 부분에서 생각해볼만한 것들을 많이 제공해 주는 분야라는 것입니다. 어떤 양적인 것들이 끊임없이 모습을 바꾸고 변화하는 것을 MDP와 같은 틀로 모델링하는 개념이 물리, 화학, 컴퓨터 등에서 일어나는 상태변화를 생각해보는 관점이 되어주기도 했습니다. 미래, 과거, 사고의 깊이, 사고의 너비 등도 강화학습의 관점에서 이미지를 떠올려 볼 수 있었습니다. 지능이라는게 어떤 것인지 고민해 볼 기회도 가지게 되었습니다.

사람과 연관지어 생각해볼 부분들도 있었습니다. 사람은 어떻게 의사결정하는 존재인지, 사람에게 보상이라는건 어떤 것인지, 사람은 왜 그렇게 열심히 움직이는지 등의 질문들을 강화학습의 관점으로부터 던져볼 수 있었습니다.

책을 읽으며 넘긴 부분들도 많았는데 추후 다른 알고리즘들을 조사해나가면서 자세히 들여다봐야 할 필요가 있을때 마저 읽고 추가로 작성하려 합니다.

댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법