[Science&Market] 인간의 상상력과 인공지능의 상상력

이경무 서울대 전기정보공학부 교수
딥러닝으로 학습된 영상특징
뇌에서 형성된 영상과 유사
AI가 그릴 상상의 장면 기대


인간의 지능은 감각기관으로부터 외부 정보를 받아들여 뇌에서 처리·분석·판단하는 프로세스로 이 중 시각정보가 차지하는 중요성이 80% 이상으로 알려져 있다. 컴퓨터로 하여금 어떻게 인간과 같은 시각지능을 갖게 할 수 있느냐는 문제를 다루는 컴퓨터비전(computer vision) 분야를 오랫동안 연구해온 필자로서도 최근의 머신러닝 기술에 의한 영상분석(analysis) 및 이해(understanding) 능력의 발전 속도는 예상을 뛰어넘는다. 영상을 이해한다는 것은 물체의 존재 여부, 종류, 특성뿐 아니라 상호 간의 관계를 포함한 상황 전체를 파악하는 것으로 고도의 인지작업을 의미한다.

영상을 분석하고 이해하는 것은 영상을 생성하는 문제와도 긴밀히 연결돼 있다. 어릴 적 우리는 할머니로부터 옛날이야기를 듣거나 소설을 읽으면서 이야기가 전개되는 상황과 장면들을 곧잘 상상하고는 했다. 그렇다면 과연 기계도 상상할 수 있을까.


우리가 보는 영상은 디지털 정보로 변환돼 있다. 간단한 예로 가로세로 크기 10x10인 작은 흑백(gray scale) 영상의 경우를 가정해보면 한 화소가 256개의 밝기 값을 가지므로 존재할 수 있는 총 영상의 개수는 약 6x10의 240지수승 개가 되고 이는 우리가 이 영상들을 TV를 본다고 가정했을 때 약 7x10의 231지수승 년이 걸린다는 것을 의미한다. 실제 우리가 보는 고화질(HD)급 컬러 영상을 생각하면 존재하는 영상의 숫자는 거의 무한대에 가깝게 된다.

그러나 다행히도 이 많은 영상 중에서 우리에게 의미 있는 실세계 영상들의 개수는 상대적으로 적고 영상공간 내에서 연속적인 다양체(manifold)를 형성하는 것으로 알려져 있다. 이러한 다양체의 모습과 특성은 인간으로 하여금 인식과 이해, 그리고 추론을 가능하게 하는 사전지식(prior knowledge)으로 작용한다. 따라서 이러한 영상 다양체에 대한 탐구와 저차원의 특징 공간에서의 모델링을 통해 사람과 같은 시각인지 기능을 구현하려는 시도는 컴퓨터비전 및 머신러닝 분야에서 오래전부터 이뤄져 왔다. 기존의 수학적인 모델링 대신에 직접 데이터로부터 학습을 통해 이러한 영상특징 공간을 찾는 방법이 바로 최근의 딥러닝 기법이다. 딥러닝으로 학습된 영상특징들은 인간의 뇌에서 형성되는 계층적·의미론적 영상특징들과 유사하며 이를 이용해 기존에 어려웠던 물체인식, 고차원 영상 분석, 영상의 문장화 등이 가능해졌다.

최근에는 딥러닝으로 학습된 영상특징 공간을 이용해 실제와 유사한 영상을 생성하는 생성적 적대 네트워크(GAN·Generative Adversarial Networks) 연구가 매우 활발하고 빠르게 발전하고 있다. 예를 들면 영상을 다른 형태의 영상으로 변환시키거나 간단한 문장이나 키워드를 주면 그 내용과 부합하는 영상을 컴퓨터가 생성해주는 방식이다. 어린아이들에게 ‘여름’이나 ‘우주’라는 단어를 제시하고 그림을 그려보라고 하면 자신의 상상을 그림으로 나타내듯이 인공지능(AI) 또한 스스로 그림이나 영상을 만들어낼 수 있는 것이다. AI가 소설을 읽고 영상으로 표현하며 대본을 가지고 비디오나 영화를 생성해낼 수 있게 된다면 머지않아 AI가 만든 영화를 영화관에서 보게 될 것이다. 사람들이 어떠한 요소에 의해 감동과 재미를 느끼는지도 동시에 학습된다면 흥행도 보장받을 것이다.

그러나 사람과 마찬가지로 AI도 기본적으로는 학습을 통해 기능이 구현된다. 따라서 학습에 사용되는 데이터나 환경이 어떠한 특성을 가지고 있는가가 결과에 영향을 미칠 수 있다. 예를 들면 필자 또는 그 이전의 세대에게 고향의 이미지는 농촌이나 오래된 골목길 같은 것이라면 요즘 젊은 세대에게는 아파트와 학원가의 모습이 떠오르는 것처럼 말이다. AI에 고향이나 어릴 적의 꿈에 관해 상상해보라고 하면 과연 어떤 모습을 그려낼지가 자못 궁금하다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>