재귀 벡터 모델을 이용한 트릴리온지 기술 및 처리 절차를 나타낸 그림./사진제공=DGIST
뇌과학, 인공지능, 사물인터넷, 웹, 소셜네트워크, 생명과학 분야 발달로 사람, 신경, 사물 간 관계를 표현하는 데 그래프 데이터 처리기술을 널리 활용한다. 이 기술 성능을 높이기 위해서는 대규모 그래프 데이터 합성 기술이 필요하다. 현재 사용하는 메모리 기반 합성 기술은 네트워크 통신 사용량이 많아 합성 데이터 규모가 제한적이고 합성 속도가 느린 것으로 지적받는다.
김민수 대구경북과학기술원(DGIST) 정보통신융합공학전공 교수 연구팀은 개인용컴퓨터 10대로 1조 간선 규모 그래프 데이터를 2시간 만에 합성할 수 있는 트릴리온지(TrillionG) 기술을 개발했다고 31일 밝혔다.
신경망 형태의 데이터는 여러 개의 정점(node)들과 그 정점들을 연결하는 간선들로 이뤄져 있다. 트릴리온지는 대규모 그래프 데이터를 네트워크 통신 없이도 훨씬 빠르게 합성할 수 있는 디스크 기반 기술이다. 재귀 벡터 모델이라는 독창적 이론을 실제 시스템으로 구현함으로써 기존 기술 문제점을 해결했다고 연구팀은 설명했다.
연구팀은 개인용컴퓨터 10대로 80억개 간선으로 구성한 그래프 데이터를 72초 만에 합성했다. 최대 4조개 간선으로 구성한 그래프 데이터를 합성할 수 있다고 한다.
기존 최고 기술로 알려진 그래프500 기술보다 합성 속도를 140배, 합성 규모를 500배 향상했다.
미국 IBM 슈퍼컴퓨터 세콰이어(CPU 코어 160만개, 메모리 1.5페타바이트)가 그래프500 기술로 합성한 32조 간선 그래프 데이터가 세계 최대 규모다. 연구팀은 트릴리온지 기술을 활용하면 개인용컴퓨터 80대로 할 수 있다고 밝혔다. 100조 간선 규모인 인간 뇌 신경망 데이터도 240대로 가능할 것으로 전망했다.
김 교수는 “인공지능, 뇌과학 분야에서 중요한 그래프 데이터를 초대 규모, 초고속으로 합성하는 원천 기술을 확보했다”며 “그래프 빅 데이터를 분석·처리하는 기술에서 벤치마크로 활용할 수 있을 것”이라고 말했다.
삼성미래기술육성사업 과제로 수행한 연구 결과는 지난 17일 미국 시카고에서 열린 데이터베이스 학술대회 ‘2017 ACM SIGMOD’에서 발표했다. 정보통신융합전공 박힘찬 박사과정 학생이 제1저자로, 김 교수가 교신저자로 참여했다.
/문병도기자 do@sedaily.com
김민수 대구경북과학기술원 교수/사진제공=DGIST