'추상적' 단어도 영상으로 변환…생성형 AI가 만드는 스토리텔링법 [정혜진의 Whynot 실리콘밸리]

구글 연례 컨퍼런스 'AI@'
묘사 통해 고화질 긴 영상 제작
소수언어 비롯 1000여개 번역
책임있는 AI 개발 강조

/영상 제공=구글

'작은 사람들이 3차원(3D) 수채화 속으로 걸어 들어간다' '사람들이 뉴욕을 걷고 있다' '얇은 무지개가 사람이 춤을 추는 것에 따라 움직인다' '추상적인 춤이 나무의 형태로 바뀐다' 이 같은 명령어가 제시되자 20초 분량의 영상이 바로 구현됐다. 언뜻 연결되지 않는 묘사를 토대로 만들어진 영상은 한 편의 작품처럼 끊김 없이 이어졌다. 이처럼 구글의 생성형 인공지능(AI)으로 텍스트로 문장을 말하면 이미지를 넘어 고해상도의 영상을 만들어내는 것까지 가능해진다.



순다르 피차이 구글 최고경영자가 2일 구글의 연례 컨퍼런스 'AI@ 2022'에서 구글의 AI 비전을 밝히고 있다. /사진 제공=구글


2일(현지 시간) 구글이 미국 뉴욕의 오피스에서 진행한 연례 컨퍼런스 'AI@ 2022'를 통해 이 같은 기능을 하는 생성형 인공지능을 비롯해 번역, 재난 탐지 등 다양한 AI 기술을 대거 공개했다. 구글은 AI의 발전과 동시에 ‘책임 있는 AI’의 중요성을 강조하며 사람의 안전과 프라이버시가 우선시되는 AI를 만들어가겠다고 강조했다.


순다르 피차이 구글 최고경영자(CEO)는 "오늘날 어떤 형태의 기술이든 사람을 돕는다는 취지로 개발된 기술들이 많다"며 "특히 구글은 처음부터 '책임 있는 AI(responsible AI)'를 개발하고 사람의 안전과 프라이버시를 다른 어느 것보다 우선순위에 두는 AI 원칙을 만들었다"고 강조했다.



추상적이라는 단어도 영상으로 변환


먼저 구글이 공개한 것은 상황과 인물을 묘사하는 텍스트 명령으로 이를 잇는 긴 영상을 만들어주는 AI모델 '이매젠 비디오'와 '페나키'다. 이 두 가지 엔진은 서로 다른 영역에 주력하지만 상호 보완적으로 작용한다. 이매젠 비디오가 고화질 영상을 만드는 데 초점을 맞추고, 페나키는 명령어를 통해 긴 분량의 영상을 만들어주는 게 특징이다. 서로 다른 텍스트 명령이 이어지자 한 편의 영상이 만들어지는 과정에서 문장 속에 '추상적인' 이라는 지시사항을 영상으로 구현하는 게 인상적이었다.


더글러스 엑 구글 리서치 수석 과학자 겸 구글 브레인 연구 책임자는 "긴 이야기를 말하는 것을 통해 하나의 씬이나 행동에 그치지 않고 연결된 씬을 만들어 내는 게 어마어마한 일"이라며 "새로운 스토리텔링 방식에 해당하는데 이를 영화나 영상 제작자들이 어떻게 활용할지 기대된다"고 강조했다.



/사진 제공=구글

AI 통해 소설 창작도…번역 대상도 1000개 언어로


이날 생성형 AI 관련 발표에서는 인간의 창의성이 발휘되는 영역에서의 진보 사례가 많이 다뤄졌다. 구글의 언어 모델인 람다(LaMDA) 대화 엔진을 통해 소설가들이 소설을 쓰는 경험이 시도됐다. 이 실험 결과로 만들어진 소설은 조만간 공개될 것으로 보인다. 다만 엑 수석 과학자는 "한 가지 분명한 건 완결된 스토리를 쓰기 위해 람다를 쓰는 건 잘 못된 방향"이라며 "이야기에 향신료를 가미하는 게 더 나은 활용법"이라고 말했다.


구글은 동시에 기존에 번역되는 언어를 1000여개까지 늘리기로 했다. 발화량이 많지 않은 소수언어까지 번역이 가능하도록 하겠다는 계획이다.


구글 측은 현재 400여개 언어를 기반으로 학습시킨 보편적인 스피치 모델을 언급하며 "현재 지구상에서 가장 광범위한 수용능력을 가진 모델"이라고 설명했다. 이 모델의 처리 언어를 1000개 이상으로 확장하기 위해 아프리카와 남아시아의 지방 정부, 연구단체 등과 협업해 다양한 언어와 그 방언의 오디오 샘플을 수집하고 있다는 설명이다. 이를 통해 언어의 다양성을 지켜가는 데 기여하겠다는 계획이다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>