인공지능(AI) 학습 데이터 플랫폼 셀렉트스타가 AI 학습 데이터 총판 사업을 본격화한다고 29일 밝혔다. 데이터 저작권자와 협의를 거쳐 도서, 이미지, 영상, 대화 등 고품질 데이터를 AI 기업에 유통·판매한다.
셀렉트스타가 공개한 판매하는 데이터셋에는 △법률 생활 금융 건강 등 전문가 질의 응답 △전문 분야 도서 △글로벌 이미지 플랫폼 제휴 사진·일러스트·영상 △다국어 일상 대화 및 번역 데이터셋 △언리얼 엔진 기반 합성 데이터 등이 포함돼 있다. 카탈로그 대부분이 일반 데이터라벨러를 통해 구축할 수 없거나, 저작권 문제로 확보하기 어려운 데이터셋으로 구성됐다.
셀렉트스타는 AI 학습에 필요한 데이터를 공급하는 플랫폼 기업이다. 대형언어모델(LLM) 등장으로 향후 저작권 걱정 없는 대규모 학습 데이터에 대한 큰 수요가 높아질 것으로 전망된다. 셀렉트스타 관계자는 “챗GPT 등장 이후 일년 만에 AI 서비스 도입을 위한 기술 장벽은 점점 낮아지고 있다”며 “앞으로는 서비스 개발을 위한 고품질 데이터가 더욱 중요해질 것이다”고 설명했다.
황민영 셀렉트스타 부대표는 “핵심은 인간의 의도(human intention)가 담긴 데이터다. 데이터 총판 사업으로 AI 기업이 쉽게 확보하기 어려운 고품질 데이터를 제공해 모델 성능 향상에 기여할 것으로 기대된다”고 말했다.