Combining Improvements in Policy Optimization 라는 논문이 Arxiv에서 공개되었습니다.
[2104.06159] Muesli: Combining Improvements in Policy Optimization (arxiv.org)
딥마인드에서 발표한 논문. 기존 뮤제로 알고리즘에 적용된 policy update방식(MCTS를 통한 deep search)과 다른 개선된 policy update방식(policy gradients with Maximum a Posteriori Policy Optimization (MPO) and model-based action values)을 policy update방식으로 사용한 강화학습 알고리즘입니다.
기존 뮤제로와 거의 동일한 수준의 성능을 낸다고 합니다. 그동안 뮤제로나 알파제로의 policy update방식의 기반이 되었던 MCTS없이도 policy update가 가능해지는 것으로 보입니다.
그동안 쓰이던 MCTS로 탐색해서 policy를 업데이트하는 방식을 regularized policy optimization problem 을 특정 알고리즘들로 풀어내는 것으로 해석할 수 있어서, 그러한 아이디어에 기반해 연구가 진행되었다고 합니다.
아직 지식이 부족하기에, 좀 더 기술적인 설명은 뮤제로를 공부하고 나서 포스팅하도록 하겠습니다.
댓글
댓글 쓰기