구글 MUM이란? - MultiTask Unified Model

구글 MUM이란?



2021 Google I/O에서 MUM이 발표되었습니다. 

그동안 구글의 검색은 텍스트를 기반으로 이루어져 있었고, 어떤 복잡한 질문에 대해서 답을 얻으려면 여러 방법으로 질문을 수정하거나 이리 저리 질문을 나눠서 검색해야 했습니다.

"이번에는 A에 갔다 왔는데, 다음 가을에 B에 가려면 어떻게 다르게 준비해야 할까?" 처첨 복잡한 검색을 하면, 좋은 답변이 나오지 않습니다.

MUM은 이러한 복잡한 질문을 답하는 것을 개선하는 데에 사용될 것이라고 합니다.

보통 한 가지 언어에 대해서 학습하지만, 75개의 언어를 전부 집어넣어 학습할 수 있고, 언어 생성 기능도 있습니다. 텍스트 뿐 아니라 이미지, 동영상에 대한 학습 기능도 함께 있다고 합니다.

(MUM 시연 영상. 한글자막 있음)

영상에 나오는 예시로, "이번에는 Adams산에 갔다 왔는데, 다음 가을에 Fuji산에 가려면 어떻게 다르게 준비해야 할까?" 검색한다면, 지금 검색엔진은 잘 동작하지 못합니다.

하지만 MUM이 이 질문을 "지형에 따른 운동법", "가을에 맞는 등산장비" 등의 질문으로 이해하고 정보를 찾아줍니다. 또한 정확한 사진과 함께 설명을 해줄 수도 있습니다.

또한 입력으로 등산화 사진을 주고, 이 등산화로 Fuji산에 갈 수 있을까? 물어보는 것도 가능해질 것이라고 합니다.

아직은 이상적으로 동작하지 않겠지만, 잘 발전하여 적용된다면 앞으로 구글 검색을 하는 방법이 상당히 달라지지 않을까 싶습니다.

텍스트는 아주 좋은 언어 표현 방식이지만, 현실과는 거리가 먼 편입니다. 구글의 발전중인 AI기술력을 바탕으로 이미지, 동영상, 음성과 같이 현실세계와 가까운 데이터들과 함께 정보검색을 하는 능력을 강화하려는 것으로 보입니다.

MUM은 BERT와 같은 transformer구조에 기반하는데 (유명한 GPT-3도 transformer구조에 기반), 구글의 발표에 따르면 기존 대비 1000배 더 강력한 성능이라고 합니다. 

MUM과 관련해 Multimodal Transformer기술을 참고하면 좋을 것 같습니다.

참고 : 
 Data, Architecture, or Losses: What Contributes Most to Multimodal Transformer Success? | DeepMind 

Search, explore and shop the world’s information, powered by AI (blog.google)

댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법