샘플드 뮤제로 (Sampled MuZero, SMuZero) - 논문 소식 알림


Learning and Planning in Complex Action Spaces 라는 논문이 Arxiv에서 공개되었습니다.

[2104.06303] Learning and Planning in Complex Action Spaces (arxiv.org)

딥마인드에서 발표한 논문. 기존 뮤제로 알고리즘의 확장판 버전입니다.


요약

현실에 존재하는 real-world problem들은 아주 큰 action space 를 가지고 있음. 모든 가능한 행동에 대해서 모두 커버하는 것이 불가능함.

보통 일부 행동들만 샘플해 가지고서 학습에 사용해 왔었음. 

이 논문에서는 이러한 일부 행동들을 샘플링하는 것에 대해서 좀 더 효율적이고 이성적인 방법을 제시함.

이러한 방법을 적용한 알고리즘인 Sampled MuZero를 바둑과 DeepMind Control Suite, Real-World RL Suite 에 대해서 테스트한 결과를 보임.

강화학습을 할 때 action space를 효율적으로 줄이면서 학습이 가능하게 하려는 시도인 것으로 보입니다.

아직 지식이 부족하기에, 좀 더 기술적인 설명은 뮤제로를 공부하고 나서 포스팅하도록 하겠습니다.

댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법