강화학습 기초공부 - chap 17.6 : Reinforcement Learning and the Future of Artificial Intelligence

참고한 책 : Reinforcement Learning: An Introduction, 2nd edition (Richard S. Sutton, Andrew G. Barto)

개요

챕터 17.6은 Reinforcement Learning and the Future of Artificial Intelligence로 강화학습의 영향 및 위험성에 대한 저자의 의견이 담겨 있다. 이중 일부분을 요약하며 정리하고자 한다.

해당 책의 첫번째 에디션은 1990년대 중반에 쓰였는데, 그때는 머신러닝이 인공지능 연구에 필수라 여겨질 정도는 아니었다. 하지만 지금(2017년)은 머신러닝이 인공지능 연구의 핵심 기술로 자리잡았다. 알파고로 대두되는 Deep RL 알고리즘, 딥 뉴럴 네트워크의 function approximation 덕분에 성능이 크게 좋아지게 된 알고리즘이 그 예시이다. 요즘 시기는 인공지능 기술들이 real-world에 적용되기 시작하는 초기 단계라 할 수 있는데, 그런 만큼 인공지능이 사람들의 삶에 어떤 영향을 줄지에 대해서 정확히 예측하기는 어려운 부분이 있다. 

인공지능 기술들이 일부 영역에서는 인간을 넘어서는 성능을 내주고 있으며, 강화학습은 psychology, neuroscience 등의 연구들에도 도움이 되어주는 부분들이 있다. 또한 human decision making 부분에서도 도움이 되어주는 부분들이 있다. 한편 인공지능의 발전이 사회에 위협이 되지 않을까 하는 의견들 또한 나타나고 있다. 이에 대해 책에서는 Herbert Simon의 말을 인용하였는데, 어떤 새로운 기술은 항상 장점과 위협의 영원한 갈등이 있다고 한다. 그리고 장점과 위협의 정도는 사람이 designers of our future and not simply as spectators, 단순히 미래를 관망하는 존재가 아니라 미래를 만들어나가는 존재이기 때문에 사람이 하는 결정에 따라 달라질 수 있는 부분이라는 것이다.

강화학습 또한 잘 사용하면 사회에 도움이 되지만 무분별하게 사용될 경우 원치 않는 결과가 생기게 될 수도 있다. 때문에 안전성은 중요한 주제 중 하나이다. 강화학습은 학습 시에 시뮬레이터와 상호작용하면서 학습할 수도 있고 real-world와 상호작용하며 학습할 수도 있다. 현재 대부분의 연구는 여러가지 장점들 때문에 시뮬레이터를 사용한다. 하지만 실제 real-world에서 사용될 정도가 되려면 결국 real-world로 와야 할 것이다. 이는 한편으로 잠재적인 위협이 있을 수 있다. 강화학습 알고리즘이 의도하지 않은 위험한 동작을 하지 않으리라는 보장을 할 수 있냐는 것이다. 

책의 저자는 강화학습 알고리즘은 optimization 기법의 일종이라고 보며, 기존의 optimization 기법들도 완벽하지 않은 부분들을 여러 가지 방법들로 위험성을 제어해 사용해왔던 것처럼 강화학습 또한 그런 맥락에서 컨트롤 할 수 있을 것이라 이야기한다. 이미 일부 이론들은 적용되고 있다. 추후 더욱 발전해야 할 분야라 할 수 있다.

Simon이 이야기 했듯 우리는 designers of our future and not simply as spectators 이기에, 앞으로 올바른 결정을 통해서 위협보다 장점이 더 크게끔 할 수 있다. 현재도 인공지능 기술들이 위협으로 다가오는 부분들이 있지만 그보다는 장점이 더 큰 부분이 많다. 안전성의 측면에서도 기존의 optimization에서의 맥락과 크게 다르지 않다. 앞으로 인공지능 기술이 더 발전해서 real world로 움직이는 만큼 관련 기술자들은 최선을 다할 의무가 있다.


댓글

가장 많이 본 글

구글 람다(LaMDA)란? - 구글의 언어 모델

알파고 강화학습 원리

버텍스 AI란? - 구글 인공지능 플랫폼

카타고와 바둑 두어보기

뉴럴 네트워크란?

블로그 글 목록

뉴럴 네트워크를 학습시키는 방법