참고한 책 : Reinforcement Learning: An Introduction, 2nd edition (Richard S. Sutton, Andrew G. Barto)
개요
챕터 14 : Psychology(심리학) 및 챕터 15 : Neuroscience(신경과학) 의 내용 중에서 흥미로운 부분을 위주로 정리하였다. 해당 챕터들의 내용은 강화학습 알고리즘과 100% 동일하지는 않다. 그러나 상당히 유사한 점들이 많다는 점들이 서술되어 있다. 강화학습 알고리즘 분야에서 심리학의 아이디어를 사용하거나 그 반대의 경우도 존재한다고 한다. 심리학과 신경과학의 관점에서 학습을 어떻게 바라보는지 대략 정리해보기로 하였다. 해당 챕터는 흥미 위주로 읽기를 권해드린다.
Chapter 14 : Psychology(심리학)
책의 14.2챕터에서 고전적 조건형성의 예시로 파블로프의 개 실험을 소개한다. 개는 음식을 보면 침을 흘리는데, 먹이를 주기 전에 종소리를 들려주기를 반복하다보면 종소리에 침을 흘리게 된다는 유명한 실험이다. 음식은 Unconditioned Stimuli (US), 이에 반응해 침을 흘리는것은 Unconditioned Response (UR), 종소리는 Conditioned Stimulus (CS), 종소리에 반응해 침을 흘리는것을 Conditioned Response (CR)인데 심리학에서는 이러한 개념들에 기반해서 여러 모델을 만든다. (Rescorla-Wagner Model, TD Model등이 책에 소개되어 있다. 이러한 모델들을 본인이 이해하기에는 내용이 어려워 자세한 설명은 넘긴다.)
이러한 실험에서 알 수 있는건 동물은 학습이 된 이후에는 CS를 받은 이후에는 US가 올 것을 '예측'하는 메커니즘을 동작시키고 있다는 것이다. 어떤 자극 이후에 어느 자극이 올지를 미리 알고 그에 대해 대처하는 것이다.
그리고 CS이후 오는 US를 예측 하는데 있어서 예측과 실제가 얼마나 다른지에 따라 학습이 되는 메커니즘이 있다고 한다. 책에서 표현하기를, "An animal only learns when events violate its expectations, in other words, only when the animal is surprised." 즉 예측한것과 다를 때, 예상했던 거랑 달라서 깜짝 놀랐을 때 무언가 학습이 된다는 것이다.
이는 머신러닝에서 무언가를 regression할때 실행결과와 실제와의 에러를 최소화 하는 아이디어와 유사한 형태이다.
14.3 챕터에서는 도구적 조건형성 실험에 대해 설명한다. 손다이크의 고양이 실험이 그 예시인데, 배가 고픈 고양이를 몇가지 단계의 동작을 해야 나올 수 있는 퍼즐 박스에 넣어두고 어떻게 나오는지를 실험한 것이다.
이렇게 고양이가 시행착오를 겪으면서 복잡한 행동을 하는 것을 보면서 손다이크는 몇가지 특성을 발견했는데, 첫번째는 고양이는 여러가지를 시도해보면서 가능한 행동들을 찾아내고, 두번째는 이러한 행동들이나 상황들을 서로 엮는 것을 한다는 것이다. 이는 강화학습에서 가능한 액션들, 상황들을 찾아내는 search를 하는 것과 이러한 것들을 각종 function들과 model에 memory하는 것과 유사하다.
14.5 챕터에서는 Cognitive Maps에 대해 설명한다. 여기서는 latent learning, 잠재학습이라는 개념을 설명한다. 여기서 설명하는 실험은 2개의 그룹으로 나뉜 쥐를 미로에서 두번 달리게 한다. 실험 그룹은 처음 미로를 통과할때는 미로 끝에 보상이 없는 상태이고, 다음번 들어갈때는 보상을 넣어둔다. 제어 그룹은 두번 모두 보상이 있다. 실험 그룹의 쥐는 처음에는 보상이 없으니 느리고 뭔가 배우려 하지 않는것 처럼 보이지만, 두번째는 제어 그룹 만큼이나 빠른 속도로 미로를 통과한다. 이는 쥐가 보상이나 처벌 없이도 미로를 돌아다니는 것만으로 미로의 구조를 학습하고 있었고, 그 이후 보상이 생겼을 때 학습했던 것을 사용했다는 이야기이다. 그래서 심리학자들은 동물이 "cognitive map of the environment", 즉 주변 환경에 대한 모델을 보상이나 처벌 없이도 학습할 수 있다고 해석한다. 이는 강화학습에서의 Model 개념과 연관된다.
14.6에서는 Habitual and Goal-directed Behavior 에 대해 설명하는데, 이는 강화학습에서의 model-free와 model-based개념과 유사하다.
p304, sutton and barto
왼쪽 model-free는 habitual하다고 할 수 있고, 오른쪽 model-based는 goal-directed하다고 할 수 있다. model-free는 언제 어떻게 행동할지에 대한 정보만 가지고 있다. 때문에 보상이 갑자기 바뀐 경우에는 대응하지 못하고, 습관적으로 하던대로 하면서 직접 환경과 부딪쳐야 한다. model-based의 경우는 상태의 변화나 상태들의 보상값에 대한 정보를 담고 있을 수 있고, 이에 기반해서 보상이 갑자기 바뀐 경우에도 특정 목표에 대해 어떻게 행동할지를 계획할 수가 있다.
실험에서는 쥐는 두가지 특성 모두를 가질 수 있다고 한다. 실험적으로 model-based하게 행동할 수 있음이 알려졌다. 한편으로는 동일한 동작을 수백번 이상 과훈련시킨 후에는 habitual하게 행동하는 측면이 커진다고 한다. habitual하게 된 이후는 반대 방향으로 학습이 잘 안 된다고 한다. 마치 사람도 오랜 습관이 굳어지면 바꾸기 힘들어지는 것과 비슷한 듯 하다.
Chapter 15 : Neuroscience(신경과학)
이 챕터에서는 신경과학의 관점에서 강화학습과의 연관성을 이야기한다. 저자는 주로 도파민과 TD-error와의 유사성, 뉴런 등에 대해서 이야기한다.
15.1에서는 뉴런, 시냅스, background activity 등에 대해서 소개한다.
15.2에서는 Reward signal, reinforcement signal, prediction error등에 대해서 소개한다.
15.3에서는 reward prediction error hypothesis of dopamine neuron activity에 대해서 소개한다. 이는 도파민을 내뿜는 뉴런의 phasic한(급격히 여러번 활성화되는) 활동이 미래의 보상에 대해 예측했던 것과 실제가 다른 에러를 전달하는 것이라는 가설이다.
첫번째는 CS(파블로프의 개 실험에서 종소리)가 없었는데, 갑자기 어떤 보상을 받게되니까 도파민 뉴런이 급격한 활동을 보인다. 두번째는 CS를 받고 보상을 예측하고 실제 보상이 나타난 경우에는 뉴런에 특별한 활동이 없다. 세번째는 CS를 받고 예측을 했는데 보상이 오지 않으니 오히려 뉴런의 활동이 예측한 타이밍에 급감해버렸다. 이러한 모습들을 강화학습에서 쓰는 TD error 수식과 유사한 형태로 모델링해서 해석할 수 있다고 한다. 그리고 이러한 TD error에 관한 개념을 확장해서 Actor-Critic한 형태로도 모델링을 하는 듯 하다.
p324, sutton and barto
15.11에서는 model-free, model-based과 관련된 뇌의 부분들에 대해서 설명한다.
15.12에서는 중독에 대해 설명한다. 약물 사용과 같이 도파민을 인위적으로 끌어올리는 경우에는 위 그림의 세번째와 같이 자극을 예측하고 잘못 예측된 경우 negative하게도 학습하는 메커니즘이 동작하지 못하고 항상 +로 강화만 되게 된다고 한다.(Redish의 논문 링크). 오류 수정 기능에 문제가 생기는 것이다. 중독 행위는 끝도 없이 강화만 되고 결국 다른 행동들을 제쳐두고 몰두하게 되는 것이다.
15.12에서는 중독에 대해 설명한다. 약물 사용과 같이 도파민을 인위적으로 끌어올리는 경우에는 위 그림의 세번째와 같이 자극을 예측하고 잘못 예측된 경우 negative하게도 학습하는 메커니즘이 동작하지 못하고 항상 +로 강화만 되게 된다고 한다.(Redish의 논문 링크). 오류 수정 기능에 문제가 생기는 것이다. 중독 행위는 끝도 없이 강화만 되고 결국 다른 행동들을 제쳐두고 몰두하게 되는 것이다.
댓글
댓글 쓰기