MuZero Unplugged : Online and Offline Reinforcement Learning by Planning with a Learned Model 간단 리뷰

개요

Online and Offline Reinforcement Learning by Planning with a Learned Model
(unplugged muzero)

학습할 데이터를 보다 효과적으로 활용할 수 있게 하는 reanalyse 알고리즘에 대한 이야기를 담고 있다. 

Reanalyse 알고리즘은 가진 데이터를 가지고 모델의 mcts로부터 improve하는 능력을 활용해 데이터를 재가공함으로써 보다 나은 성능을 낼 수 있게 한다. 
Reanalyse 알고리즘 https://arxiv.org/abs/2104.06294

Target으로 쓰일 trajectory가 뮤제로처럼 데이터셋으로부터 그대로 펼쳐지는게 아니고
어느지점 한 시작지점(그지점 부터 약간 전의 observation들을 합친)으로부터 representation function으로 embedding하고 모델을 사용해 한 스텝 mcts서치로 얻은 search policy, search value
(그 다음은 그 다음 step의 observation이 추가된 observation들로부터 동일하게)
(action selection으로 env랑 상호작용 하지 않음)
시작지점부터 모델로 unroll한 것의 차이로 loss를 구해 학습하는 구조이다.

데이터셋에 존재하는 이전 data point에 가서 모델로 mcts를 돌려서 그곳에서 탐색을 돌려보는, reanalyze하는 모양이다.

해당 알고리즘은 offline RL에 효과적으로 사용이 가능하다. 또한 online RL과 병행해서 사용할 수도 있다. Online RL이든 offline RL이든 환경과 상호작용을 조금 덜 한다거나 가질 수 있는 데이터가 더 적거나 하는 경우에 보다 효율적으로 학습할 수 있으면 좋을 것이다.

Offline RL은 꼭 모델 자체가 상호작용하면서 얻은 데이터가 아니라 다른 agent로부터 얻어온 것이라던가, 사람이 한 데이터 등을 사용할 수 있다. 논문에서는 RL Unplugged benchmark for Atari and DM Control 데이터셋을 사용한다. 

Reanalyse fraction 개념은 online - offline 비율을 조정할 수 있는 개념으로, 100% fraction인 경우 완전히 offline 학습하고, 0%면 완전히 온라인 학습한다. 적당히 조절함으로서 경우에 따라 사용할 수 있다.

Continuous Action Spaces에 대응하는 sampled muzero와 함께 사용할 수도 있다.


댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법