산업 IT

엘리스그룹, 한국어 AI 교육용 데이터셋 허깅페이스에 공개

학술·교육 분야 LLM 학습 지원

허깅페이스에 공개된 엘리스그룹 한국어 파인웹 교육 데이터셋 데모. 사진 제공=엘리스그룹허깅페이스에 공개된 엘리스그룹 한국어 파인웹 교육 데이터셋 데모. 사진 제공=엘리스그룹




엘리스그룹은 한국어 교육용 데이터셋 2종을 글로벌 오픈소스 플랫폼 '허깅페이스'에 공개했다고 15일 밝혔다. 엘리스그룹은 한국어 AI 모델 학습에 적합한 고품질 데이터를 연구자, 개발자, 기업이 폭넓게 활용할 수 있도록 제공해 국내외 AI 연구·개발 활성화를 지원할 계획이다.

이번에 공개된 데이터셋은 거대언어모델(LLM)의 한국어 성능을 학술∙교육 도메인에서 강화하기 위해 설계된 '한국어 파인웹 교육 데이터셋 데모'와 '한국어 웹 텍스트 교육 데이터셋' 2종으로 구성됐다.



한국어 파인웹 교육 데이터셋 데모는 영문 교육용 웹 텍스트 말뭉치인 'FineWeb-Edu'를 한국어로 번역한 데이터셋의 5%를 샘플 형태로 구성한 데모다. 학술·교육 도메인의 한국어 LLM 학습에 활용할 수 있도록 설계했으며, 대규모 학습에 앞서 데이터 특성과 활용 가능성을 검증하는 용도로 제공된다.

관련기사



데모의 원본인 'korean-translated-fineweb-edu-dedup'은 약 1900억(190B) 토큰 규모의 대형 텍스트 데이터셋으로 수천만 페이지 분량에 해당한다. 다국어 데이터를 함께 활용할 경우 파운데이션 모델 학습에 활용 가능한 수준의 규모다. 이번에 공개한 한국어 파인웹 교육 데이터셋 데모는 이 중 5% 분량의 샘플이지만 오픈소스로 공개된 한국어 고품질 데이터셋 중에서는 대규모 수준에 해당한다.

함께 공개된 한국어 웹 텍스트 교육 데이터셋은 대규모 한국어 웹 텍스트에서 교육적 가치 점수를 통과한 콘텐츠만 선별해 구축했다. 사실성·문맥 일관성·교육 적합성을 평가해 한국어 AI 모델 학습에 활용할 수 있도록 구성했다.

이번 데이터셋 공개는 엘리스그룹이 AI 인프라, 모델 학습, 교육·산업 현장 적용까지 축적해 온 경험을 바탕으로 이뤄졌다. 엘리스그룹은 이번 데이터셋 공개를 통해 한국어 AI 연구 환경의 진입 장벽을 낮추는 한편, 교육·연구·공공 영역에서 한국어 AI 모델 활용을 지원할 계획이다. 또 AI 인프라·클라우드·데이터 엔지니어링 역량과 연계해 한국어 특화 AI 서비스와 솔루션 개발을 가속화한다는 전략이다.

김수인 엘리스그룹 CRO는 "엘리스그룹은 실제 모델 학습과 서비스 환경에서 검증된 기준을 적용해 연구자와 개발자, 기업이 보다 쉽게 활용할 수 있는 고품질 데이터셋을 구축했다"며 "앞으로도 데이터·모델·인프라를 아우르는 기술 역량을 기반으로 한국어 AI 연구와 산업 생태계 성장에 지속적으로 기여하겠다"고 말했다.

류석 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>









top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기