방언에 성조까지 분석…16개 언어 지원하는 '갤럭시 AI' 개발 과정은

연내 20개까지 지원 언어 확대
20여개 R&D센터에서 연구 총력

삼성리서치 인도네시아 연구소(SRIN)의 '갤럭시 AI' 언어 개발 담당자들이 갤럭시 S24에 탑재된 갤럭시 AI 기능을 살펴보고 있다. 사진 제공=삼성전자

삼성전자(005930)가 온디바이스 실시간 통·번역 기능을 제공하는 ‘갤럭시 인공지능(AI)’의 언어 모델 개발을 위해 전 세계 20여개 연구개발(R&D) 센터에서 연구 중이라고 25일 소개했다.


갤럭시 AI의 온디바이스 실시간 통·번역 기능은 현재 16개 언어를 지원한다. 이에 더해 연내 스웨덴어, 네덜란드어, 루마니아어, 튀르키예어 등 4개 언어를 추가해 총 20개 언어를 지원할 계획이다.


삼성전자는 갤럭시 AI의 언어 모델이 언어의 특성·문법에 대한 정량 평가, 문화에 대한 지식·이해를 검증하는 정성 평가를 거친다. 일례로 20여개국 4억명 이상이 사용하는 아랍어의 경우 표준 아랍어인 풋스하(Fusha)와 일상생활에서 사용하는 방언인 암미야(Ammiyya)를 모두 학습해야 한다. 아랍어 방언은 30여 종에 달한다.


삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하면서 답변은 표준 아랍어로 할 수 있는 언어 모델을 개발했다. 이를 위해 각기 다른 방언의 음성 녹음 데이터를 수집하고 텍스트로 변환하는 과정을 거쳤다.


전 세계 약 1억명이 사용하는 베트남어는 성조 체계를 면밀히 분석했다. 예를 들어 베트남어 단어 '마(Ma)'는 성조에 따라 엄마(Má), 무덤(Mả), 귀신(Ma) 등 전혀 다른 의미를 지닌다. 삼성리서치 베트남 연구소(SRV)는 성조의 미세한 차이를 인식할 수 있도록 음성 데이터를 매우 정교하게 다듬고 정제하는 과정을 거쳤다. 정확한 성조 구분을 위해 한 단어를 0.02초 전후의 짧은 프레임으로 잘라내고 이를 데이터베이스화 했다.


중남미 22개국의 공식 언어인 스페인어는 국가와 지역 별로 다른 단어의 특성 등을 반영했다.


2억 8000만명이 사용하는 인도네시아어를 갤럭시 AI로 개발할 때에는 인간의 뇌가 학습하는 과정과 유사한 ‘인공신경망번역(NMT)’ 방식을 사용했다. 인도네시아어는 관사·복수형·동사의 시제 변화가 없어 상대적으로 배우기 쉽지만 문장의 맥락을 충분히 파악하지 못하면 내용을 이해할 수 없기 때문이다. 삼성리서치 인도네시아 연구소(SRIN)는 단어가 아닌 ‘문장 단위’로 언어를 학습시켜 갤럭시 AI가 의사소통의 맥락과 규칙을 이해할 수 있도록 했다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>