뮤제로 관련 후속 연구들

개요

이번 글에서는 뮤제로 관련 후속 연구 몇가지를 소개한다.

Muesli: Combining Improvements in Policy Optimization
알파제로, 뮤제로와 같은 알고리즘들이 사용하는 policy improvement 방식인 mcts로 deep search해서 search policy를 찾고 그에 기반해 학습하는 것 대신 개선된 policy optimization (MPO-like) 알고리즘 사용을 통해 mcts없이도 성공적으로 학습시킬 수 있다는 이야기를 담고 있다. 
관련 논문 
MAXIMUM A POSTERIORI POLICY OPTIMISATION 
Monte-Carlo tree search as regularized policy optimization 


PROCEDURAL GENERALIZATION BY PLANNING WITH SELF-SUPERVISED WORLD MODELS 
Model-base RL agent, muzero를 generalization 관점에서 들여다봄. Procgen, Meta-World등의 generalization관련 벤치마크들에 대해 실험함. 약간의 generalization 성능을 보이나 아직 강력하지는 않은 듯 하다. 'We find model-based agent does exhibit weak positive transfer to unseen tasks.'


EfficientZero, Mastering Atari Games with Limited Data 
https://arxiv.org/abs/2111.00210
Self-Supervised Consistency Loss, End-To-End Prediction of the Value Prefix, Model-Based Off-Policy Correction 등의 기법을 추가로 적용해서 효율을 높임.


MuZero with Self-competition for Rate Control in VP9 Video Compression
https://arxiv.org/abs/2202.06626
VP9 영상압축 코덱의 rate control 측면에서 뮤제로 모델에 기반해 개선함.


Planning in Stochastic Environments with a Learned Model (Stochastic MuZero)
https://openreview.net/forum?id=X6D9bAHhBQ1
Stochasitc한 환경에도 대응 가능하게 뮤제로 모델을 개선한 연구이다. 2048 게임에 대해서도 실험함. Afterstate Dynamics, Afterstate Prediction function이 추가됨.
Appendix에 pseudocode 있음.


POLICY IMPROVEMENT BY PLANNING WITH GUMBEL
https://openreview.net/forum?id=bERaNdoegnO
Policy가 improve가 잘 안되는 경우가 있는데, not visiting all actions at the root of a search tree인 경우가 있고 이 이슈를 Gumbel-Max trick, Gumbel-Top-k trick등의 아이디어에 기반해 해결함.



댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법