사회 사회이슈

마인즈랩 AI Human 독자 연구, 인공지능 분야 세계 최대 국제 학술대회CVPR 데모 논문 채택

- 세계 최초로 2시간 한국어 데이터만으로 영어, 중국어, 일어 등 4개 국어 발화 가능




사진=(다국어발화 AI Human 개념도 : 논문 내 이미지-마인즈랩 제공)사진=(다국어발화 AI Human 개념도 : 논문 내 이미지-마인즈랩 제공)



마인즈랩이 독자 연구를 통해 개발해 온 다국어 AI Human 관련 논문이 2022 CVPR Demo Track에 채택되었다고 27일 밝혔다.



CVPR는 컴퓨터 비전 및 머신러닝/딥러닝 분야 세계 최대 국제학술대회다.

이번 논문을 통해 공개된 ‘다국어 AI Human’ 기술은 타사 기술과 달리 특정 인물의 발화 특성, 얼굴 움직임 등을 그대로 유지한 채 음성 생성과 영상 생성을 동시에 진행하며, 특히 2시간의 한국어 데이터만으로 4개 국어를 발화하도록 하는 기술은 세계 최초다.

논문에서는 특정 인물의 발화적 특성을 유지한 채 다국어 음성을 생성할 수 있는 다국어 음성생성(Text-To-Speech, TTS) 기술과 다국어 음성을 발화하는 인물 영상을 생성(Talking Face Generation)하는 기술을 기반으로 다국어 발화 영상 생성 데모를 보여준다.

이를 통해 사용자는 한국어, 영어, 중국어, 일어 4개 국어 중 하나의 언어로 된 텍스트를 입력하기만 하면, 해당 텍스트를 발화하는 영상을 손쉽게 얻을 수 있다.


특히, 이번에 공개한 시스템은 고성능 GPU를 탑재한 데스크톱 환경에서 초당 30장의 이미지를 생성하는 성능을 보여준다.

관련기사



또한 데모 논문으로 선정된 다국어 AI Human 관련 논문과는 별도로 마인즈랩 소속 연구원이 참여한 트랜스포머(Transformer) 기반 이미지 생성 모델 연구 논문 역시 CVPR 논문으로 채택되었다.

이 연구는 기존의 적대적 신경 생성망 중 대표적인 StyleGAN 모델과 최근 컴퓨터 비전 쪽에서 활발히 연구되고 있는 트랜스포머(Transformer) 모델의 장점을 결합하여 StyleFormer라는 모델을 새롭게 제시한 것으로, 기존 다른 딥러닝 모델들로 생성한 이미지보다 FID(Frechet Inception Distance)를 기준으로 더 좋은 성능을 보여주었다.

마인즈랩은 2020년부터 음성, 이미지, 영상과 관련된 논문이 InterSpeech, NeurIPS 등 머신러닝/딥러닝 분야 국제학술대회 및 위성학회에 지속적으로 채택되는 등 인공지능 분야의 연구 성과를 지속적으로 이어가고 있다.

2022년에 들어서는 CVPR 학회뿐만 아니라 신호처리 학회인 ICASSP에 음성변환(Voice Conversion)과 관련된 독자 연구가 채택되었고, 최근 PR 등 저널에도 이미지 인식 관련 논문이 채택되었다.

마인즈랩 연구팀 송형규 수석연구원은 ‘이번 연구를 시작으로 앞으로도 고품질의 이미지 생성 연구를 통해 더욱 더 사람 같은 AI Human을 만들어 나갈 것’이라고 밝혔다.

CVPR은 오는 6월 19일(일)부터 6월 24일(금)까지 미국 루이지애나주 뉴올리언스에서 개최된다.




김동호 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기