근래에 기업들이 직원채용시 인공지능(AI) 면접을 도입하는 경우가 늘면서 취업멘토들이 자주 전하는 노하우다. AI 기술이 많이 발전했지만 아직까지는 사람마다 다른 발음과 어조를 완전하게 인지하기는 어렵기 때문이다. 특히나 사투리가 섞였다거나 발성장애 등으로 인해 말을 더듬는다든지 하는 경우라면 AI가 인지오류를 범할 가능성이 높다. 여기에 더해 전문적인 분야의 단어가 섞인 대화라면 AI가 제대로 이해하지 못할 위험도가 더 커진다. 인간도 수 많은 사람들과 다양한 상황에서 대화를 하며 인지오류를 수정하는 학습과정을 거치면서 의사소통에 대한 인지정확도를 높여간다. AI도 이 같은 학습과정을 거치기 위해선 양질의 방대한 언어 데이터가 필요하다. 정부가 이 같은 음성 데이터를 비롯해 AI의 인지능력을 높일 수 있는 학습용 데이터 구축 투자를 대폭 늘렸다.
과학기술정보통신부는 20일부터 AI학습용 데이터사업 공모 예산을 전년 대비 약 2배 늘린 390억원 규모로 책정하고 올해 사업의 공모 접수를 20일부터 시작한다고 19일 밝혔다. 공모과제도 전년 대비 두 배 늘어나 20개로 확장됐다. 응모해 선택된 과제는 사업당 최대 20억원까지 매칭펀드 형태로 지원을 받을 수 있다. 지원 대상은 AI응용개발기업, AI데이터수집 및 가공기업 등의 컨소시엄이다.
공모분야는 중점 데이터 구축 10종과 혁신적인 시장수요 기반의 데이터 10종이다. 여기에는 연령별 발화, 방언, 발성장애를 비롯해 광번위한 한국어를 자유연속으로 대화할 수 있도록 하는 ‘한국어대화·음성 과제’가 포함됐다. 온라인 사이트 등에서 과학기술, 행정·법률, 문화 콘텐츠와 같은 전문적인 영역의 영어를 AI가 제대로 알아 듣고 해석할 수 있도록 하기 위한 ‘전문 도메인 한영 말뭉치’도 과제 중 하나다.
언어 인지 이외에도 시각 등 다양한 감각자료를 제대로 판단해 처리할 수 있도록 하기 위한 데이터공모 과제도 포함돼 있다. 예를 들어 남대문과 같은 우리나라의 대표적인 건축물 등에 대한 이미지 인식 능력을 높이기 위한 ‘랜드마크 이미지’과제가 있다. AI가 장애물을 적절히 회피하면서 조종할 수 있도록 학습시키기 위한 ‘드론주행 영상’과제, 온라인을 통해 유포되는 가짜영상들의 진위 판별능력을 높이는 ‘딥 페이크 추적영상’과제 등도 이번 공모사업의 일환으로 추진된다.
이번 공모과제중 10종은 자유공모 방식이다. 감염병 등 최근 수요의 적시 대응과 데이터 3법 개정후 가명정보 활용을 위한 시장수요를 반영하기 위해서다. 아울러 의료 및 금융과 같은 주요 정부 정책과 연계하려는 취지도 깔려 있다.
과기정통부는 응모 내용을 모아 오는 4월말 선정평가를 한 뒤 5월말 협약체결을 맺을 예정이다. 이어 6월부터 AI학습용 데이터세트를 구축하는 작업을 시작한다. 구축된 데이터는 2차에 걸쳐 AI허브를 통해 개방(1차 8월, 2차 12월)된다.
이번 사업은 앞서 지난 2017년부터 추진됐다. 지난해까지 3년간 총 21종 4,650만건의 AI학습 데이터가 구축돼 개방돼 왔다. 다만 국내 많은 AI 및 로봇 개발자들은 이미 한국어, 영어 등을 기반으로 방대하게 구축·개방된 구글의 AI 학습데이터베이스를 활용해 애플리케이션이나 하드웨어를 개발하는 경우가 많아 정부가 이 같은 글로벌 기업의 DB 대비 확실한 차별화를 꾀하지 않는다면 예산낭비에 그칠 수 있다는 점에 유의할 필요가 있다.