개요
이번 시리즈에서는 알파고로 유명한 딥마인드사에서 2020년 즈음 발표한 강화학습 알고리즘인 뮤제로(MuZero)를 읽어보고 이해한 것들을 기록하려 합니다.
뮤제로 알고리즘은 알파고, 알파고 제로, 알파제로에 이어 한단계 더 발전된 강화학습 알고리즘으로, 알파제로 까지는 보드게임(바둑, 체스류)만 학습이 가능했지만 뮤제로는 아타리(atari)게임도 학습이 가능해졌습니다.
뮤제로는 알파에서 뮤로 넘어온 만큼 알고리즘에 상당한 변화가 있지만 기본적으로는 알파고, 알파제로 등에 사용된 구조와 원리에 기반하고 있습니다. 바둑에만 사용가능한 것이라 생각했던 알고리즘이 pixel-level(화면)에 대응할 수 있게 발전한 것입니다. 이러한 부분이 상당히 흥미로운 부분이라고 생각했습니다.
추후 뮤제로의 네트워크 구조, 오픈소스 코드, 훈련 구조, 발전된 뮤제로 알고리즘 등에 대한 글들을 추가하도록 하겠습니다.
댓글
댓글 쓰기