개요
Learning and Planning in Complex Action Spaces
(Sampled MuZero)
뮤제로 후속 연구로 high-dimensional, continuous action space와 같이 action space 측면에서 고려할 것이 너무 많은 경우 계산에 어려움이 있기 때문에 이에 대응해서 일부 action들을 샘플해서 policy evaluation 및 improvement를 수월하게 할 수 있는 기법에 대한 이야기를 담고 있다.
Policy improvement를 보다 효율적으로 하게끔 policy의 분포중 중요한 부분을 일부 뽑고, 그 분포 기반으로 mcts를 돌려서 improved된 분포를 만들고, 또 improved된 분포를 기반으로 policy를 업데이트 하는 원리인 것으로 보인다.
논문에서 소개하는 sample-based policy iteration framework는 꼭 뮤제로에만 적용가능한 것은 아니고 policy iteration에 기반하는 어떤 알고리즘에도 사용이 가능한 개념이다.
기존 뮤제로의 atari의 action space 가 18, 보드게임은 조금 더 큰 정도이다. Real-world problem들은 action space가 훨씬 크거나 continuous한 경우들도 있기에 계산비용이 더 클 것이다. 이러한 경우들에 대해 실험해보기 위해 해당 논문에서는 DM Control Suite에서 continuous control tasks 벤치마크들에 대한 결과들을 보여주었다. (Go, atari도 됨)
DM Control Suite 예시 영상
결과는 locomotion이나 manipulator tasks에서 다른 알고리즘 대비 퍼포먼스가 좋은편이다.
Input으로 state들이 들어가게 할 수도 있고 raw pixel로 들어가게 할 수 도 있는데, sampled muzero의 결과는 states로 학습하는 것만큼 좋지는 않지만 몇가지 경우를 제외하면 준수한 성능을 보여준다.
댓글
댓글 쓰기