챗GPT도 거뜬…CXL 기반 대규모 AI 가속 시스템 개발

국내 시스템 반도체 스타트업 ‘파네시아’…최대 4페타바이트 메모리 활용 가능 기술 개발
실행시간 5.3배 단축…CXL 활용 방향 제시

파네시아가 개발한 트레이닝CXL 시스템 예시. 사진제공=파네시아

초대용량(최대 4페타바이트)의 메모리를 그래픽 처리장치(GPU·Graphics Processing Unit)가 활용할 수 있도록 해주는 기술을 국내 스타트업이 개발했다.


KAIST교원창업기업이자 국내 시스템 반도체 스타트업인 파네시아는 학술공동연구를 통해 차세대 연결 기술 컴퓨트 익스프레스 링크(CXL·Compute eXpress Link) 메모리 인터페이스를 기반으로 GPU와 대용량 뉴메모리 기반의 메모리확장장치(Memory expander)를 연결해 구성한 AI 가속 시스템을 개발했다고 27일 밝혔다.


파네시아가 개발한 시스템은 GPU에 최대 4페타바이트의 확장가능한 메모리를 제공함과 동시에 기존 PCI 익스프레스(PCIe) 기술을 기반으로 대용량 메모리를 연결한 시스템 대비 AI 모델의 학습시간을 5.3배 단축할 수 있다.


보유한 AI의 품질이 기업의 경쟁력을 좌우하는 요소로 떠오르며 글로벌 기업들은 앞다투어 자사 AI의 정확도를 높이기 위해 모델의 크기를 키우고 있다.


이에 따라 테라바이트 수준 이상의 대규모 AI를 처리할 수 있는 컴퓨팅 시스템에 대한 업계의 관심이 높아지고 있다.


그러나 대표적인 AI 가속장치인 GPU는 DRAM 기술의 한계로 인해 내부 메모리 용량이 수십 기가바이트에 머물러 있어 대규모 모델을 지원하기에는 그 용량이 턱없이 부족한 실정이다.


이를 위해 기존 시스템은 GPU의 메모리를 저장장치인 솔리드 스테이트 드라이브(SSD)를 이용해 확장하는 방법을 시도했으나 SSD의 느린 임의읽기 성능과 SSD-GPU간 데이터 이동으로 인해 그 성능이 제한적이었다.


파네시아는 학술공동연구를 통해 CXL 인터페이스를 통해 대용량의 메모리 공간을 제공하는 메모리확장장치를 GPU와 연결한 AI 가속시스템을 개발했다. 개발한 시스템 ‘트레이닝CXL(TrainingCXL)’은 대용량 뉴메모리(New memory)를 탑재한 메모리확장장치와 GPU를 레고블럭 조립하듯 자유롭게 연결해 GPU에 대용량의 메모리 공간을 제공한다.


시스템의 핵심은 차세대 메모리 인터페이스인 CXL이다. CXL은 시스템의 장치 간 연결을 위한 프로토콜이며 이 프로토콜을 지원하는 시스템은 CPU, GPU, 메모리확장장치와 같은 다수의 장치를 자유롭게 연결하면서도 장치 간에 고속으로 데이터를 주고받을 수 있는 것이 특징이다.


이러한 특징 덕분에 CXL은 글로벌 빅테크 기업의 데이터센터나 고성능컴퓨터에서 사용자 응용에 대용량 메모리를 제공할 방법으로 부상하고 있다.


공동연구진은 CXL을 통해 메모리확장장치를 GPU와 연결해 GPU에 대용량 메모리를 제공하면서 장치간 데이터 이동으로 인한 실행시간 지연을 최소화했다.


특히 이번 연구는 CXL 프로토콜이 정의하는 여러가지 서브프로토콜 중 cxl.cache를 사용하여 GPU 및 메모리확장장치가 능동적으로 데이터를 주고받을 수 있도록 설계한 것이 특징이다. cxl.cache를 통한 능동적인 고속 데이터 이동은 데이터 이동시간이 장치의 계산시간에 가려져 사용자에게 드러나지 않도록 하고, 추가적인 소프트웨어의 개입을 제거하여 높은 성능을 보인다.


공동연구진은 대용량의 메모리를 제공할뿐만 아니라 메모리확장장치에 목표 응용을 위한 처리 능력을 부여해 실행시간을 단축했다. 목표 응용은 유튜브, 인스타그램과 같은 서비스에서 사용자에게 알맞은 콘텐츠를 추천해주는 역할을 해주는 추천시스템이다. 추천시스템은 각 사용자에게 맞는 추천을 위해 수억명의 사용자 및 콘텐츠 각각에 대한 정보(임베딩 벡터, embedding vector)를 AI 모델에 포함해 모델의 크기가 수십 테라바이트에 이른다.


이는 최근 주목받고 있는 생성형 AI 모델 챗GPT의 수 배에 달하는 크기로 실행을 위해 대용량의 메모리가 꼭 필요하다. 연구진은 추천시스템 모델의 임베딩 벡터를 메모리확장장치에 저장하고, 메모리확장장치 내부에 임베딩 벡터를 처리할 수 있는 가속모듈을 탑재했다. 가속모듈은 모델 학습 시 임베딩 벡터를 빠르게 처리할 뿐 아니라 시스템이 원본 임베딩 벡터 대신 처리를 통해 크기가 작아진 벡터를 GPU에 전송하도록하여 데이터 이동량과 시간을 줄여준다. 원본 임베딩 벡터가 거대한 원석이라면 처리한 벡터는 가공된 반지라고 비유할 수 있다. 고객에게 반지를 전달하고자할 때 고객 근처까지 거대한 원석을 모두 운송한 다음 가공하는 대신 원석의 산지 근처에서 원석을 반지로 가공한다음 반지만을 전달하는 것이 운송에 필요한 노력과 운송량을 줄일 수 있는 것과 같다.


개발된 시스템은 기존 PCIe 기술을 기반으로 대용량 뉴메모리를 연결한 최신 시스템 대비 다양한 종류의 추천시스템 모델을 이용한 평가에서 학습시간을 5.3배 단축해 그 효과를 보였다. 트레이닝CXL은 대규모 AI를 위한 차세대 시스템 설계에 CXL을 활용할 방향을 제시할 수 있을 것으로 기대된다.


정명수 파네시아 대표는 “메모리 반도체의 미래 먹거리인 CXL 기술을 선도해 관련 시장과 환경을 활성화하기 위해 앞으로도 꾸준히 높은 수준의 연구성과를 공개하고 많은 반도체 및 시스템 회사들이 CXL을 사용할 수 있도록 관련 인프라를 제공할 것”이라며 포부를 밝혔다.


이번 연구성과는 국제 학술지인 IEEE Micro 3-4월호에 게재됐고 최근 캐나다 몬트리올 국제 최우수 학술대회인 국제 고성능 컴퓨터 구조(IEEE International Symposium on High-Performance Computer Architecture) 워크샵에서 초청강연을 통해 발표된 바 있다. 오는 5월 미국 플로리다에서 열리는 국제 병렬 빛 분산 처리 심포지움(International Parallel and Distributed Processing Symposium·IPDPS)의 워크샵에서도 초청강연을 통해 소개될 예정이다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>