9일 서울 강남구 구글캠퍼스에서 구글코리아가 진행한 ‘구글 AI 포럼’에서는 심층신경망 기계번역 기술을 적용한 번역 서비스가 한국어와 일본어가 한 데 섞인 문장도 무리없이 영어로 번역해냈다. 이는 유사성을 지닌 한국어와 일본어가 각각 영어로 번역하는 데이터가 쌓이면서 기존에 번역 학습이 진행되지 않았던 한국어-일본어 간 번역도 가능해졌기 때문이다. /정혜진기자
‘입력: ‘와타시와 도쿄다이카쿠(私は東京大學) 학생입니다.’→’출력: ‘I am a student of Tokyo university(저는 동경대학교 학생입니다)’
한국어과 일본어를 섞은 엉터리 다국어 문장을 구글의 새 번역기에 입력해 본 결과다. 이 회사의 인공지능(AI) 번역기술이 무섭게 진화하고 있다. 마치 짬뽕처럼 여러 나라 언어들을 뒤섞어 입력해도 해석할 만큼 정교해지고 있다. 사람처럼 생각할 수 있도록 하는 기반 기술인 심층신경망 기법을 기계번역(NMT)에 적용한 덕분이다.
9일 이 회사는 서울 강남구의 구글캠퍼스에서 ‘AI포럼’을 열고 이처럼 향상된 번역기술을 선보였다. 다국어 조합문장도 이해하고 번석해주는 신기능인 일명 ‘제로 샷’이다. 제로 샷은 현재 우리나라 말과 일본 말처럼 문법 등이 비슷한 언어들의 복합문장 해석에 강점을 보인다. 어순이 다르거나 하면 상대적으로 해석능력이 저조하다.
하지만 이 같은 약점도 몇 년 내에 보완될 전망이다. 구글의 마이크 슈스터 리서치 사이언티스트는 “아프리카어 등 (한국어와) 어순 등 구성요소가 다르면 번역 난이도는 높아지지만 다른 언어로 대체해도 원할히 번역이 될 수 있는 수준까지 실험이 가능하다”고 말했다. 그는 103개 언어와 영어 간 NMT 적용에 대해서는 “빠르면 올해 안으로 모든 언어에 도입할 수 있도록 할 것”이라고 말했다. 슈스터 사이언티스트의 목표가 실현된다면 가령 아프라카어와 러시아어를 섞은 ‘짬뽕말’도 영어로 자연스럽게 번역이 가능해 질 수 있다는 뜻이다. 이렇게 영어로 번역된 문장을 한국어로 다시 재번역하는 한 단계를 더 거친다면 제한적이나마 우리나라 사람도 이해할 수 있는 문장이 나올 것으로 전망된다.
마이크 슈스터 구글 리서치 사이언티스트가 9일 서울 강남구 구글캠퍼스에서 화상 연결을 통해 심층신경망 기계번역(NMT) 기술을 도입한 후 구글 번역의 품질이 과거 10년 간 개선한 정도보다 높다고 설명하고 있다. /구글코리아
이번에 적용된 심층신경망 기계번역(NMT) 기술은 알파고처럼 학습을 할 때 영어와 다른 언어를 번역할 때 유사성이 높은 언어는 무한대로 함께 학습을 시킬 수 있다. 실제로 구글에서는 한국어, 일본어, 터키어를 하나의 모델로 학습시키기도 한다. 10년 전 출시된 기존의 기계번역은 하나의 문장을 개별 단어로 쪼개서 단어 하나하나를 알려줘야 해서 속도가 더뎠다면 NMT는 전체 문장을 하나의 번역 단위로 학습한다. 원어민이 문장을 통째로 사고할 수 있는 형태와 비슷하다. 슈스터 리서치 사이언티스트는 “지난해 NMT 기술을 적용한 후 “(한국어를 비롯해) 번역 품질이 1점 이상의 향상 효과가 나타났는데 번역이 혁신적으로 개선된 결과”라며 “과거 10년 간 개선한 정도보다 높다”고 자평했다. 이 중 한국어는 영어-터키어 번역에 이어 두번째로 개선 정도가 높았다. 인간이 진행한 번역의 품질 평가(6점 만점)에 따르면 과거 구문기반기계번역(PBMT)에 비해 1.1점이 높아졌다. 슈스터 사이언티스트는 “(한국어를 비롯해) 1점 이상의 향상 효과가 나타났는데 번역이 혁신적으로 향상된 결과”라며 “과거 10년 간 개선한 정도보다 높다”고 자평했다. 번역 품질이 높아지자 이용자도 급증했다. 구글 측은 지난 11월 심층신경망 기술을 도입한 뒤 한국어-영어 간 번역 트래픽(서비스 유입자수)이 50% 이상 늘어났다고 말했다. 아직 숫자나 날짜, 고유명사 등의 경우 번역에 어려움이 있다. 이날 실제로 혼합 번역의 경우 고유명사의 경우 동경대학을 입력하면 제대로 번역이 나왔지만 동경대만 입력하면 틀린 번역이 나오기도 했다. 슈스터 사이언티스트는 “수년 안에 최고 수준인 6점 가까이 번역 점수를 크게 개선하겠다”며 “사람도 번역하기 어려운 전문적 내용의 책 한 권을 통째로 번역하는 수준까지 목표로 하겠다”고 말했다. /정혜진기자 madein@sedaily.com
◇ 헤밍웨이 ‘킬리만자로의 눈’ 구글 번역 비교
종류 | 원작 문장 | 구문기반 기계번역 | 심층신경망 기계번역 |
문장 | No one has explained what the leopard was seeking at that altitude | No one failed to demonstrate that the leopard was looking at that altitude | No one could explain what the leopard was looking for at that altitude. |
번역 | 표범이 그 고도에서 찾고 있던 것을 아무도 설명하지 못했습니다 | 아무도 표범이 그 고도에서 보고 있었던 것을 입증하는 데 실패하지 않았다 | 표범이 그 고도에서 찾고 있던 것을 누구도 설명해내지 못했다 |
유사도 | 원 문장 | 틀린 번역 | 비슷한 번역 |