과학기술정보통신부와 한국지능정보사회진흥원이 지난해 구축한 인공지능 학습용 데이터 세트 310종을 7월 말까지 ‘AI허브’를 통해 순차적으로 개방한다. 최근 오픈AI의 ‘챗GPT’ 및 ‘GPT-4’와 구글의 ‘바드’ 출시 등으로 생성형 인공지능(AI) 시장이 확대되며, 학습용 데이터 확보가 한층 중요해졌다는 판단 때문이다.
과기정통부는 30일 데이터 건수로 15억 건에 해당하는 역대 최대 규모의 데이터를 AI허브를 통해 순차적으로 개방한다고 밝혔다.
이날부터 1차 개방되는 데이터는 고서(古書) 속 한자·한글의 광학인식(OCR) 데이터, 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야의 데이터 70종이다. AI허브에 공개되는 데이터는 개인정보 비식별화를 거쳐 개인정보보호법 침해 소지가 없도록 했다.
각국은 생성형 AI 고도화를 위해 학습용 디지털 데이터 확보에 사활을 걸고 있다. 특히 웹상에서 사용되는 언어의 과반이 영어인 만큼, 웹상 언어 점유율이 1%대에 불과한 한국어 기반의 데이터 확보는 쉽지 않은 상황이다. 한국의 네이버나 카카오와 같은 ‘K-빅테크’ 기업을 중심으로 개인정보보호법과 각종 규제가 생성형 AI 학습용 데이터 확보를 가로막고 있다는 주장도 제기된다.
일부 국가에서는 주요 빅테크의 무분별한 데이터 확보에 제동을 걸며 자국 기업 중심의 생성형 AI 생태계 구축에 힘쓰고 있는 모습도 보인다. 로이터 통신 등에 따르면 유럽연합(EU)은 오픈AI 등 생성형 AI 서비스 기업이 AI 학습에 사용한 원데이터의 저작권을 공개하는 방안을 추진 중이다. 생성형 AI 학습에 사용된 데이터에 저작권료를 지급할 경우 관련 생태계 구축 속도는 더뎌질 수밖에 없다.
엄열 과기정통부 인공지능정책관은 “기존의 라벨링 데이터 중심의 사업을 개편해 초거대 AI 학습에 필요한 대규모 비라벨링 데이터와 한 번에 여러 가지 유형을 학습시킬 수 있는 다중 임무형 라벨링 데이터 등 다양한 유형의 데이터를 확보할 예정”이라고 말했다.