산업 IT

네이버, “40분 녹음만으로 음성 합성”…NES 기술 공개

이전 기술보다 쉽고 빠르게 음성 서비스 개발

기업 대상 ‘클로바 프리미엄 보이스’도 출시

네이버 클로바의 음성 합성 신기술 ‘NES’ 체험 화면/웹페이지 캡처네이버 클로바의 음성 합성 신기술 ‘NES’ 체험 화면/웹페이지 캡처



네이버는 40분 정도의 짧은 녹음으로 다양한 감정과 스타일의 음성을 합성할 수 있는 기술 ‘NES’를 14일 공개했다.


NES는 40분 수준의 음성 데이터(약 400문장)로 실제 사람의 음성에 가까운 합성음을 제작할 수 있는 기술이다. 네이버에 따르면 40~100시간 정도의 음성이 필요했던 이전 기술보다 쉽고 빠르게 음성 서비스를 개발할 수 있다는 특장점이 있다. 특정 분야에 대한 제약 없이 사용할 수 있고, 기본 목소리 외에 기쁨·슬픔 등 감정이 반영된 목소리도 제공한다.

관련기사



이날 네이버는 기업 이용자를 대상으로 NES 기반의 보이스 비즈니스 서비스인 ‘클로바 프리미엄 보이스(CPV)’도 출시했다. 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질 합성음이 필요한 다양한 서비스에 활용될 수 있으며, 네이버 클라우드 플랫폼에서 유료로 제공된다.

김재민 네이버 클로바 보이스 책임리더는 “누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것”이라며 “기본 감정 외에도 엄격한 뉴스앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것”이라고 말했다.


백주원 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기