앞으로 잘 알아듣기 힘든 사투리나 복잡한 문장 속의 의미도 인공지능(AI)이 더 정확하게 파악할 수 있게 됐다.
19일 AI 개발기업 솔트룩스는 국립국어원과 ‘2020 일상대화 말뭉치 구축’ 사업으로 일상 대화 속 언어를 인공지능에 활용 가능한 데이터로 만든다고 밝혔다.
해당 사업은 지난해부터 진행한 국가 말뭉치 구축사업의 일환이다. 구어, 일상대화, 메신저 대화, 웹, 문어 등으로 나눈 사업 분야 중 일상 대화에 속한다. 말뭉치는 언어 연구 분야에서 언어 자료를 나타내는 용어로 연구 목적마다 구체적인 정의가 다르나 이번 사업에선 약 500시간의 대화 말뭉치 자료가 기준이다.
솔트룩스는 2,000명의 대화를 수집하고 이를 고품질 AI 데이터로 구축한다. 초기 단계에는 대화형 인공지능 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다. ‘대화형 인공지능’이란 사람과 유사한 수준의 대화가 가능한 인공지능으로, 말뭉치 데이터가 주로 사용될 분야이다. 또한 대화를 수집할 때 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둔다. 국립국어원은 “말뭉치 데이터를 민간에 공유해 언어 인공지능 등 관련 산업 기반을 마련하는데 기여할 수 있을 것”이라고 설명했다.
이경일 솔트룩스 대표는 “현재 세계 대화형 AI 시장보다 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”라며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련돼 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”고 말했다.
솔트룩스는 국내 대표 AI 벤처기업으로 국내 AI 업체 중 가장 많은 121건의 기술 특허를 보유하고 있다.