이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억7,000만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억3,700만 어절을 구축·보급하는 것이 골자다. 언어처리 성능 평가의 객관적 기준이 될 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종(몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용도 포함됐다. 아울러 언어자원의 구축·연계·배포 전 과정을 효율적으로 지원하고 통합하기 위한 시스템도 구축하기로 했다.
이번 사업은 문체부와 국립국어원이 1998~2007년 10년간 추진한 ‘21세기 세종계획’의 후속 사업이다. 1차 세종계획은 총 150억원의 예산을 들여 소설 4,000권 분량인 2억 어절의 말뭉치를 구축하고 60만개 어휘를 담은 전자사전과 다양한 언어 정보화 검색 프로그램을 개발하는 성과를 남겼다. /나윤석기자 nagija@sedaily.com
한국어 지원하는 IBM의 인공지능 로봇 왓슨 /연합뉴스