산업 IT

엔비디아 블랙웰 또 불량설… 이번엔 과열이 문제


엔비디아 신형 인공지능(AI) 가속기 ‘블랙웰’ 납품에 또 한 번 차질이 생겼다는 소식이 전해졌다. 발열을 감당하기 위한 서버 랙(Rack) 재설계가 필요하다는 것이다. AI 가속기 공급난이 지속되는 와중 블랙웰 납품 지연에 대한 데이터센터 사업자들의 우려가 커지고 있다.

블랙웰 칩셋 72개가 탑재된 'NVL72' 플랫폼. 사진제공=엔비디아블랙웰 칩셋 72개가 탑재된 'NVL72' 플랫폼. 사진제공=엔비디아




17일(현지 시간) 테크전문매체 디인포메이션은 “엔비디이가 블랙웰 맞춤형 서버랙의 과열 문제 해결을 위해 서버공급업체들에게 수차례 설계 변경을 요구했다”며 “블랙웰을 구매한 고객사들이 랙 사용 시기가 지연될 수 있다는 불안감을 드러내고 있다”고 보도했다.



서버랙이란 컴퓨터 부품이 차곡차곡 쌓인 하나의 완성품 서버를 뜻한다. 각 층별로 메인보드·칩셋이 선반처럼 쌓여있어 ‘랙(Rack)’이라 불린다. 엔비디아는 올 3월 블랙웰을 공개하며 72개 칩셋을 한 데 엮은 서버랙 ‘NVL72’을 하나의 플랫폼으로 소개한 바 있다.

관련기사



NVL72에는 36개의 ‘그레이스’ 중앙처리장치(CPU)와 72개 블랙웰 그래픽처리장치(GPU)가 탑재된다. 거대한 냉장고만한 랙의 무게는 1.5톤에 이르고 전력 소모량도 어마어마해 가동에 132kW(킬로와트)가 필요하다. 단일 서버 기준 역대 최대 전력 소모다.

전력 소모량은 곧 발열과 직결된다. 이에 엔비디아와 서버 제조사들은 NVL72를 위시한 블랙웰 시스템 냉각에 공기가 아닌 액체를 사용하기로 했다. 액체 순환 구조가 복잡할뿐더러 순환계가 터지면 시스템 전체가 망가질 수 있어 안전성 또한 높아야 한다. 이에 따라 서버랙 디자인에 대한 수정 요구가 지속되고 있다는 뜻이다. 디인포메이션은 “복잡한 랙 디자인 때문에 과열이 심했고 이는 서버 신뢰성을 떨어뜨렸다”며 “대부분의 데이터센터는 대규모 수냉 시스템을 운영해본 적이 없어 불안감이 더욱 크다”고 전했다.

블랙웰 공급에 부정적 소식이 이어지며 ‘입도선매’에 나섰던 데이터센터들은 불안감에 떨고 있다. 앞서 디인포메이션은 TSMC 내 블랙웰 제조 과정에서 불량이 발생했다고 보도했었다. 이 과정에서 젠슨 황 엔비디아 최고경영자(CEO)와 TSMC 고위 경영진이 언성을 높였다는 소식까지 전한 바 있다.

황 CEO는 ‘불화설’에 대해서는 일축했으나 결함이 있었다는 사실 자체는 인정했었다. 다만 올 4분기부터 본격적인 납품을 시작한다는 기존 방침에는 변화가 없다고 누차 강조해왔다.


실리콘밸리=윤민혁 특파원
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기