사회 사회이슈

에이아이더뉴트리진,‘음성복제 STT 솔루션’출시…감정분석까지 가능해




STT(Speech-to-Text)는 콜센터 통화내용, 유튜브 영상, 회의 녹음 등 음성파일을 문자로 변환해 주는 기술이다. STT 솔루션 시장엔 이미 다수의 서비스들이 나와 있으나, 대화내용, 대화유형, 대화 중 잡음의 종류에 따라 텍스트 변환 과정의 품질 차이가 발생한다. 이는 공급업체마다 인식 정확도에 큰 차이를 보이기 때문이다.

지난 10일 AI기반 바이오솔루션 기업 ‘에이아이더뉴트리진’(대표 김종철)은 음성인식 정확도를 높이기 위해 음성 변환 품질을 개선한 ‘Smart STT’솔루션을 출시하였다.

‘Smart STT’는 음성인식뿐만 아니라 대화자의 감정분석까지 인식 가능하다. 현재는 ‘즐거운, 화난, 슬픈, 평정’으로 총 4가지 감정으로 분류가 가능하지만, 고객의 요청에 따라 카테고리를 늘려 재학습을 진행하면 더욱 다양한 감정분류가 가능하다.


‘Smart STT’ 솔루션의 핵심 알고리즘은 트랜스포머(Transformer) 합성곱신경망(CNN)을 결합한 콘포머(Conformer)를 사용한다. 또한 3천 시간 이상의 통화데이터의 학습과 튜닝을 거쳐 음성인식률 성능을 향상시켰다. 특히 기존 STT 엔진은 히든마코프모델(HMM), 딥러닝 또는 순환신경망(RNN) 계열의 알고리즘을 많이 활용한 것에 반해 ‘Smart STT’에 적용된 콘포머 알고리즘은 부분(Local)정보와 광역(Global)정보를 효율적으로 처리 가능하며, 최근 음성 및 언어처리 분야에 도입되고 있는 방식이다.

관련기사



STT 엔진의 성능 측정에 정확도를 확인하는 문자오류율(CER)과 단어오류율(WER) 모두 8% 이내로 낮은 수치를 보이며 우수한 성능을 보였다. 또한 서브워드토크나이저(Subword Tokenizer)를 이용하여 학습과정에서 사용되지 않은 단어로 인해 발생하는 오류(OVV)를 줄이고, 빠른 처리 속도 기능을 통해 실시간 대화변환이 가능하다.

에이아이더뉴트리진은 음성복제 솔루션 ‘와이즈클로닝(Wise Cloning)’으로 사업을 진행해왔으며, 이를 기반으로 음성인식 STT 솔루션까지 영역을 확장하였다. 개발을 주도한 AI 사업부문 김수화 대표는 “음성복제와 음성인식은 유사한 알고리즘들을 이용하기 때문에, 쌍둥이 솔루션과 같다. 음성인식과 다양한 유형의 텍스트 분석(TA) 영역을 다룰 수 있는 솔루션 체계 전반까지 구비한 상황”이라고 밝혔다.

이어 “스마트폰 사용으로 통화보다는 문자이용이 보편화 되었지만 음성기반의 커뮤니케이션 또한 증가할 수 밖에 없을 것이다. 메타버스 환경과 향후 일상생활에 로봇이 등장할 때가 곧 올 것이며, 이때 상대방 음성을 듣고 이해와 동시에 발화하는 자연어처리 분야의 AI 기술은 신대륙처럼 확장될 가능성이 매우 크다”라고 전망했다.

한편 ‘Smart STT’ 솔루션은 에이아이더뉴트리진 공식 홈페이지에 기재되어 있는 ‘Smart STT 데모 사이트’에서 시험 테스트가 가능하다.




김동호 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기