이석중 라온피플 대표
지난해 12월 그래픽처리 프로세서 칩(GPU) 제조회사로 유명한 엔비디아는 실제 얼굴과 구별할 수 없을 정도로 생생하게 가상의 얼굴 영상을 생성해내는 심층신경망 ‘StyleGAN’을 발표했다. 기존에도 제법 그럴듯한 영상을 만들어내는 연구결과들이 있었지만 어딘가 부자연스러운 부분으로 인해 집중해서 보면 충분히 식별 가능했고 고해상도인 경우에는 바로 드러나기 때문에 대부분 저해상도만 가능했다.
하지만 StyleGAN 연구진은 얼굴 형태와 자세처럼 전체적인 면뿐만 아니라 주름살·머리모양·주근깨 등등 세부적인 부분까지 사실적이면서도 1,024×1,024 크기의 고해상도 영상까지 가능하게 해 세상을 놀라게 했다.
StyleGAN은 지난 2014년에 발표된 심층신경망 GAN(Generative Adversarial Networks)의 구조를 심화 발전시켜 뛰어난 성능을 얻었다. GAN은 우리말로 ‘적대적 생성망’이라고 하는데 이는 실제로 데이터의 생성을 전담하는 생성망(Generator)과 입력 데이터에 대한 진위 판별을 책임지는 판별망(Discriminator)이라고 불리는 2개의 심층신경망을 서로 적대적(경쟁적)으로 학습시켜 생성과 판별을 최고 수준까지 발전시키는 것을 목표로 망이 설계됐기 때문이다.
데이터 생성망-진위 판별망의 대결구조 적용
주름살·주근깨 묘사 가능한 고해상 영상 구현
위조지폐를 만드는 위조범과 이를 판별하는 감별사의 이상적인 게임에 비유하면 이해하기 쉽다. 위조범은 감별사를 속이기 위해 보다 정밀한 위조 기술을 발전시키고 감별사는 그런 위조범에 대항해 식별기술을 더욱 발전시킨다. 종국에는 위조범은 누구도 진위를 판별할 수 없는 수준에 도달하고 감별사 역시 어떤 위폐도 감별하는 경지에 이르게 된다. 이렇게 적대적으로 경쟁하면서 서로의 성능을 끌어올린다는 철학을 심층신경망에 적용한 것이 바로 GAN이다. 그래서 인공지능(AI) 연구의 3대 거장 중 한 명이며 현재 페이스북에서 AI 연구를 이끌고 있는 얀 르쾽 교수는 “지난 10년간의 딥러닝 관련 연구 중 최고”라는 찬사를 보냈다.
기존의 생성망들은 생성을 원하는 데이터의 분포를 알아내기 위해 상당히 어려운 수학적 접근을 했지만 GAN은 상대적으로 이해하기 쉬운 구조라는 매력과 기존 생성망들의 성능을 뛰어넘는 결과를 보여 많은 연구자들을 자극하고 동기를 부여하기에 충분했다. 초기의 GAN이 안정성이 떨어지고 제대로 학습을 시키기 쉽지 않으며 멋진 철학을 최적의 구조로 구현하는 데 어려움도 있었지만 매년 많은 논문이 쏟아지면서 GAN은 비약적으로 발전했다. 사진이나 동영상을 유명화가의 화풍으로 변환시켜주는 스타일 변환 기술에 사용되기도 하고 외곽선을 대충 그려주면 멋진 가방이나 신발 영상을 생성해 디자이너의 수고를 덜어주고 영감을 자극하기도 한다. 이번에 발표된 StyleGAN 역시 다양한 분야에 활용이 가능하다. 공개된 소스 코드로 인해 더 좋은 후속 연구결과가 나오기를 기대한다.