카카오브레인은 국내 최대인 약 7억 4000만 쌍 규모의 데이터셋 ‘코요’를 31일 자사 웹사이트에 공개한다고 30일 밝혔다. 데이터셋은 내용이 서로 일치하는 이미지와 텍스트 조합으로, 초거대 인공지능(AI)이 이미지를 학습하는 데 쓰인다. 카카오브레인은 그림을 그리는 AI ‘칼로’를 이 데이터셋으로 학습시켰다.
칼로를 포함한 초거대 AI는 대규모 인프라를 통해 연산 능력을 크게 높인 AI다. 카카오는 언어 모델 KoGPT-3, 이미지 생성 모델 칼로 등을 개발했다. 이미지 생성 모델은 이용자가 입력한 텍스트에 맞는 이미지를 만들어주는 AI인데, 이를 위해서는 이미지-텍스트 데이터셋을 통한 학습이 필요하다.
카카오브레인은 이렇게 개발한 칼로가 최근 현대미술가 고상우, 삼성전자 ‘갤럭시북 아트 프로젝트’와 협업함으로써 활용 가능성을 입증했다고 설명했다. 칼로의 성능 기반인 코요의 규모를 확대하고 한국어를 포함한 다양한 언어로도 개발할 계획이다. 내년 상반기 코요를 활용한 다른 초거대 AI 모델도 공개할 예정이다.
김일두 카카오브레인 대표는 “초거대 AI 개발의 기반이자 기업의 핵심 자산인 데이터셋을 외부에 공개하는 것은 매우 이례적”이라며 “앞으로도 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 생태계 발전에 이바지하겠다”고 말했다.