Online and Offline Reinforcement Learning by Planning with a Learned Model 라는 논문이 Arxiv에서 공개되었습니다.
[2104.06294] Online and Offline Reinforcement Learning by Planning with a Learned Model (arxiv.org)
딥마인드에서 발표한 논문.
논문에서는 새로운 알고리즘을 뮤제로 언플러그드 (Muzero unplugged)라고 이야기합니다. 뮤제로 논문에서 언급되었었던 뮤제로 Reanalyze 에 대해서도 추가적인 설명을 담고 있습니다.
요약
강화학습을 할 때 최대한 적은 양의 데이터로도 효율적으로 학습이 가능하게 하는 것이 중요함. 강화학습에서는 환경과 상호작용(예를 들어서 게임을 직접 해보면서 강화하는것)하며 훈련하는 방식이 있고, 미리 구해둔 데이터셋으로 학습하는 방법이 있음. 각각 online, offline 방식이라고 함.
이 두 가지 경우에 대해서 동시에 모두 높은 성능을 내는 알고리즘이 그동안 없었음. 이러한 것에 대해 효과적으로 학습을 하는 Reanalyze 알고리즘에 대해서 소개함.
그리고 Reanalyze알고리즘과와 MuZero를 결합한 MuZero unplugged 알고리즘을 소개함. MuZero unplugged알고리즘은 RL Unplugged offline RL benchmark 와 online RL benchmark of Atari 양 쪽에 대해서 아주 높은 성능을 내는 결과를 냈다고 함.
아직 지식이 부족하기에, 좀 더 기술적인 설명은 뮤제로를 공부하고 나서 포스팅하도록 하겠습니다.
댓글
댓글 쓰기