강화학습(RL) 트랜스포머 활용사례

개요

트랜스포머가 활용된 강화학습 연구 몇가지를 소개한다.

MuZero with Self-competition for Rate Control in VP9 Video Compression
https://arxiv.org/abs/2202.06626
https://www.deepmind.com/blog/muzeros-first-step-from-research-into-the-real-world
VP9 영상압축 코덱의 rate control 측면 개선에 뮤제로 알고리즘 사용한 연구.
뮤제로 알고리즘에서 일정 기간의 observations, actions를 hidden state로 바꿔주는 역할을 하는 representation network의 구성에 transformer-XL이 활용되었다.



알파텐서(Discovering faster matrix multiplication algorithms with reinforcement learning)
https://www.nature.com/articles/s41586-022-05172-4
알파텐서에서 사용하는 policy head가 autoregressive한 형태로 구현되기 위해 트랜스포머를 활용하였고, torso부분에서는 axial attention이 사용되었다. axial attention 링크: https://arxiv.org/abs/1912.12180





댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법