개요
트랜스포머가 활용된 강화학습 연구 몇가지를 소개한다.
MuZero with Self-competition for Rate Control in VP9 Video Compression
https://arxiv.org/abs/2202.06626https://www.deepmind.com/blog/muzeros-first-step-from-research-into-the-real-world
VP9 영상압축 코덱의 rate control 측면 개선에 뮤제로 알고리즘 사용한 연구.
VP9 영상압축 코덱의 rate control 측면 개선에 뮤제로 알고리즘 사용한 연구.
뮤제로 알고리즘에서 일정 기간의 observations, actions를 hidden state로 바꿔주는 역할을 하는 representation network의 구성에 transformer-XL이 활용되었다.
알파텐서(Discovering faster matrix multiplication algorithms with reinforcement learning)
https://www.nature.com/articles/s41586-022-05172-4
https://www.nature.com/articles/s41586-022-05172-4
알파텐서에서 사용하는 policy head가 autoregressive한 형태로 구현되기 위해 트랜스포머를 활용하였고, torso부분에서는 axial attention이 사용되었다. axial attention 링크: https://arxiv.org/abs/1912.12180
댓글
댓글 쓰기