Learning and Planning in Complex Action Spaces 라는 논문이 Arxiv에서 공개되었습니다.
[2104.06303] Learning and Planning in Complex Action Spaces (arxiv.org)
딥마인드에서 발표한 논문. 기존 뮤제로 알고리즘의 확장판 버전입니다.
요약
현실에 존재하는 real-world problem들은 아주 큰 action space 를 가지고 있음. 모든 가능한 행동에 대해서 모두 커버하는 것이 불가능함.
보통 일부 행동들만 샘플해 가지고서 학습에 사용해 왔었음.
이 논문에서는 이러한 일부 행동들을 샘플링하는 것에 대해서 좀 더 효율적이고 이성적인 방법을 제시함.
이러한 방법을 적용한 알고리즘인 Sampled MuZero를 바둑과 DeepMind Control Suite, Real-World RL Suite 에 대해서 테스트한 결과를 보임.
강화학습을 할 때 action space를 효율적으로 줄이면서 학습이 가능하게 하려는 시도인 것으로 보입니다.
아직 지식이 부족하기에, 좀 더 기술적인 설명은 뮤제로를 공부하고 나서 포스팅하도록 하겠습니다.
댓글
댓글 쓰기