KISTI, 기계학습데이터 ‘ScienceON’ 통해 활용 개방

425만 건의 데이터에 누구나 자유롭게 접근·활용
혁신적 연구 활동 지원과 새로운 비즈니스 창출 기여 기대

대전시 유성구에 자리잡고 있는 KISTI 대전본원. 사진제공=KISTI

한국과학기술정보연구원(KISTI)은 ‘과학기술 분야 기계학습데이터 구축 사업’의 결과물을 누구나 쉽게 활용할 수 있도록 과학기술 지식인프라 ‘ScienceON’에서 기계학습데이터 활용 서비스를 3일 론칭한다고 밝혔다.


데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나 AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다.


이에 KISTI는 기계학습데이터 구축 사업을 전개해 과학기술 분야 국내논문 및 국가R&D연구보고서를 토대로 AI를 위한 데이터셋 5종 425만건을 구축하는 데 성공했다.


또한 KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 ScienceON의 기존 학술정보 서비스에 논문 전문 텍스트, 보고서 표·그림, 논문 QA, 논문 문장 의미태깅 등 기계학습데이터 4종을 접목한 서비스를 선보인다.


이 외에도 요약 정보를 PDF 원문에 표시하여 제공함으로써 PDF 원문 가독성을 높였고 특정 참고문헌이 인용된 문장도 논문에서 바로 확인할 수 있도록 했다.


KISTI 융합서비스센터 이석형 센터장은 “연말까지 AI 데이터셋을 활용하여 AI가 자동으로 논문을 요약하는 서비스를 정식 오픈할 계획”이라며 “ScienceON을 통해 연구자의 다양한 연구 활동을 지원할 수 있도록 지속적인 데이터 확충과 안정적인 서비스 운영에 최선을 다하겠다”고 밝혔다.


KISTI는 대내외 기능·데이터의 연계·융합과 AI와 같은 최신 기술 적용 등을 통해 ScienceON을 지능형 과학기술 지식인프라 통합서비스 플랫폼으로 만들어갈 예정이다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>