네이버, 크래프톤 등 국내 주요 정보기술(IT) 기업들이 공간음향·음성합성 등의 오디오 기술에 적극 투자하고 있다. 현실같은 생생한 사운드를 구현해야 메타버스의 몰입도를 높일 수 있다는 판단에서다. 이 밖에도 오디오 기술은 버추얼 휴먼·오디오 콘텐츠 등 최근 급성장하고 있는 시장의 핵심 기술로도 주목받고 있다.
12일 업계에 따르면 크래프톤은 딥러닝 본부 산하 ‘프로젝트 벨루가’실을 통해 음성 AI 연구개발(R&D)을 진행 중이다. 딥러닝 본부는 버추얼 휴먼을 구현하는 데 필요한 AI 기술을 연구개발하는 조직으로, 지난해 설립돼 올해 초 대표 직속 조직으로 격상됐다. 본부 설립과 동시에 꾸려진 벨루가실은 음성합성(TTS, STT), 목소리 변환 (보이스 컨버전, VC) 기술 등 버추얼 휴먼의 ‘목소리’ 구현을 전담한다.
네이버 D2SF도 지난해 두 차례나 오디오 기술 스타트업 ‘가우디오랩’에 투자했다. 네이버는 가우디오랩 출범 당시인 지난 2015년부터 긴밀한 협업 관계를 이어오고 있다. 가우디오랩은 총 49명의 인원 중 음향공학 전문가(석·박사)가 14명에 달하는 오디오 기술 스타트업이다. 지난 2017년 고개만 돌려도 소리의 방향이 바뀌는 공간 음향 기술을 개발했다. 가우디오랩은 현재 제페토와 같은 메타버스 플랫폼에 자동으로 음향을 입히는 기술에 집중하고 있다.
이외에도 다수 IT기업이 메타버스에 접목할 수 있는 오디오 기술에 투자를 이어가고 있다. 컴투스는 지난 7월 미국 공간음향 기업 ‘오디오 퓨처스’에 전략적 투자를 단행했다. 개발 중인 메타버스 플랫폼 ‘컴투버스’와의 기술 연계 기회를 모색할 계획이다. 8월에는 자회사 위지윅스튜디오가 AI 음성기술 기업 셀바스AI에 50억 원을 투자하기도 했다. 엔씨소프트(NC)는 판교 R&D센터 내 총 3개의 층에 ‘사운드센터’용 공간을 마련해 놨다. 센터 소속 인원은 90명에 달한다.
그간 메타버스는 주로 정교한 그래픽 구현에 초점이 맞춰져 있었다. 하지만 메타버스의 몰입감을 높이기 위해선 그래픽만큼이나 사운드가 중요하다는 게 업계의 진단이다. 오현오 가우디오랩 대표는 “현재 제페토 내 개인 창작자들이 만든 공간에 들어가도 어떤 소리도 들을 수 없다”며 “이용자가 '이 공간에 방문했다'고 경험하려면 아바타를 커피 머신 근처로 옮겼을 때 현실 세상 속 커피 끓는 소리가 나야 한다”고 설명했다.
오디오 기술은 메타버스 생태계 속 핵심 요소인 ‘버추얼 휴먼’과도 찰떡궁합이다. 버추얼 휴먼의 외모 및 발화 맥락과 어울리는 목소리를 정교하게 구현해야 ‘불쾌한 골짜기’ 현상을 방지할 수 있기 때문이다. 실제 크래프톤 벨루가실의 R&D 목표도 버추얼 휴먼의 목소리를 구현하는 것이다. 네이버도 지난 5월 클로바 AI 음성합성 기술을 활용해 가상인간 ‘로지’의 목소리를 제작했다. 덕분에 로지는 라디오 방송에 출연해 본인을 소개하고 청취자 사연을 읽는 등 사회관계망서비스(SNS), 광고에 한정돼 있던 활동 영역을 라디오 DJ로까지 확장했다.
최근 급성장하고 있는 오디오 콘텐츠 제작에도 쓰일 수 있다. 실제 크래프톤 벨루가실은 100여개의 AI 목소리를 활용해 오디오 콘텐츠를 제작할 수 있는 ‘쿼티스’와, 팟캐스트 서비스인 ‘오디오픽’을 내놓았다. 향후 이 두 개를 합쳐 오디오 콘텐츠의 제작, 감상, 소통까지 아우르는 통합 플랫폼을 만든다는 전략이다. 시장조사기관 그랜드뷰리서치에 따르면 국내 오디오 콘텐츠 시장은 2020년 300억원 규모에서 2024년 1080억원까지 성장할 전망이다.
/정다은 기자 downright@sedaily.com