카카오는 지난 10월 15일 발생한 대규모 서비스 장애 사태의 재발방지를 위해 앞으로 5년 간 서버 관련 투자를 기존의 3배 이상으로 늘리고 서비스 안정성 확보를 전담할 대표 직속 전담조직을 만들겠다고 약속했다.
카카오는 7일 오전 11시 연례 개발자 컨퍼런스 ‘이프 카카오 데브 2022’를 개최하고 남궁훈 비상대책위원회 재발방지대책소위원장 등의 기조연설을 통해 이런 계획을 발표했다. 카카오는 서비스 장애 복구가 늦어진 기술적 원인과 향후 보완조치, 이를 위한 거버넌스와 실무조직 개편 등의 계획을 공개했다.
◇서비스 안정화 투자 3배 확대=카카오는 우선 “(계획을 실행하기 위해) 향후 5년 간 (서버 관련) 투자 금액을 지난 5년 간 투자 금액의 3배 이상 규모로 확대하겠다”고 했다. 내년 착공할 제2데이터센터(IDC) 건립, 서버를 포함한 인프라 장비 구입, 정보보호 강화, 인건비 등을 포함한 영역의 투자다. 카카오 관계자는 “구체적인 수치는 영업 비밀이라 공개할 수 없다. 공개 범위를 내부에서 논의 중”이라고 했다.
다만 5년 간 총 투자 규모는 수조 원에 이를 것으로 보인다. 이날 기조연설에 나선 고우찬 카카오 비대위 재발방지대책소위 공동소위원장은 “(개선 계획들) 하나 하나가 초기 투자비를 제외하고도 연간 운영비만도 수백억 원 또는 수천억원 단위의 과감한 투자 결정이 있어야 실행할 수 있는 것들이 대부분”이라고 설명했다. 인프라 투자와 관련해, 카카오는 설비투자(CAPEX) 중 데이터센터를 포함한 유형자산에 지난해 연간 2111억 원, 올해 1~3분기 3080억 원을 투자했다. 내년부터는 제2데이터센터 공사비 등이 발생해 향후 5년 간 유형자산 투자액은 1조 원을 거뜬히 넘을 것으로 보인다.
주요 투자 집행 영역인 제2데이터센터는 이번 SK C&C 판교 데이터센터의 화재가 재발하지 않도록 맞춤 설계돼 내년 착공된다. 무선전원공급장치(UPS)와 배터리를 공간적으로 분리해 배터리실에 화재가 발생하더라도 UPS가 셧다운 없이 서버에 전원을 공급할 수 있게 한다. 화재가 발생할 경우 발화 구역을 외부와 차단하고 소화가스와 냉각수 살포하는 시스템을 갖춘다.
◇대표 직속 기술조직이 대응 전담=카카오는 서비스 안정화 업무를 전담할 조직 개편도 단행한다. 서비스 안정성을 유지하고 장애가 발생할 경우 복구 업무를 맡는 ‘정보기술(IT) 엔지니어링 조직’을 현재 개발 조직 산하에서 독립·격상시키고 전문가들을 추가 영입해 규모를 크게 늘린다. 카카오의 기업간거래(B2B) 기술 자회사 카카오엔터프라이즈의 부사장 출신 고우찬 소위원장이 이 조직을 맡아 실무를 총괄할 예정이다. 홍은택 대표(CEO) 직속으로 두는 방안도 검토 중이다. ‘재해복구위원회’도 신설, 서비스 장애가 발생할 경우 대응 컨트롤타워 역할을 맡긴다.
조직 개편은 카카오가 가장 전면에 내세운 재발방지 계획이다. 남궁 소위원장은 이날 기조연설의 첫 연사를 맡아 “이번 사고를 통해 카카오에서는 다양한 변화가 있을 예정이지만 가장 큰 변화는 인프라 조직의 재구성이다. 카카오의 IT 엔지니어링 전문가들로 (이뤄진) 전담조직을 만들어 안정적인 서비스 환경을 조성하고 투자하는 데 집중할 것”이라며 발표의 운을 뗐다. 카카오 관계자는 “IT 엔지니어링 조직은 신설에 준할 정도의 개편이 있을 것”이라며 “규모와 구성은 현재 구체화하는 중”이라고 했다.
◇카톡 전용 예비 IDC 구축=카카오는 회사 안팎에서 미흡하다는 지적이 나왔던 기술과 시스템도 보완한다. 카카오톡 메신저 기능처럼 메인 데이터센터가 셧다운되더라도 반드시 즉각 복구해야 하는 서비스는 별도로 전용 예비(재난복구·DR) 데이터센터를 구축하는 방안을 추진한다. 카카오의 가장 기본적인 서비스인 카카오톡 메신저 오류가 이번 사태의 피해를 크게 키웠다는 진단에서 나온 계획이다.
카카오는 카카오톡과 이를 기반으로 하는 회사 협업도구 카카오워크로 내부 소통을 하는데, 내부 소통채널마저 서비스 오류를 겪으면서 장애 복구가 늦어졌다. 또 카카오톡 메신저는 무료 서비스지만 이로 인해 영업 등 간접적 피해를 봤다고 주장하는 이용자 신고건수는 회사 공식 집계로만 1만 3000건 이상으로, 카카오는 이들에 대한 피해보상안 마련에도 고심이 깊은 것으로 전해졌다.
◇남궁훈 “부족한 이중화 개선”=카카오는 개발자(운영관리) 도구를 이중화한 데 이어 삼중화하는 등 정상화 지연의 기술적 원인으로 꼽힌 서비스 다중화 조치도 보완한다. 다중화는 다중화는 서버를 복수로 운영함으로써 한 서버에 문제가 발생할 경우 예비 서버로 서비스를 이어가는 것을 말한다. 앞서 카카오는 서비스에 필요한 데이터는 이중화했었지만 데이터를 다룰 개발자 도구는 이중화하지 않아 장애 복구가 늦어졌다고 스스로 밝혔다.
개발자 도구뿐 아니라 오브젝트 스토리지, 서버 구성정보, 배포설정 등 서비스 운영에 필요한 기타 시스템도 이중화 또는 삼중화한다. 인프라 차원에서는 다중화를 위해 데이터센터 간 별도 전용망을 만들어 신속하게 대용량 트래픽 전송이 이뤄지도록 하고, 메인 백본 센터를 현재 2곳에서 3곳으로 늘린다.
트래픽 폭증 상황만 가정했던 장애 대응 시나리오를 재검토하고, 데이터센터 셧다운이라는 새로운 비상상황에 대한 임직원 대응 훈련을 실시한다. 여러 서비스를 중요도 순으로 복구 우선순위를 정해 대응절차를 더 체계화한다. 비상상황 시 사업이 중단되는 상황을 예방하는 비상대응계획인 ‘사업 연속성 계획(BCP)’도 외부 자문을 거쳐 보완한다.
다중화 조치는 조직 개편과 함께 남궁 소위원장이 기조연설에서 강조한 부분이다. 남궁 소위원장은 “우리의 이중화는 완성되지 않은 다리와 같았다. 우리의 부족한 이중화는 이중화의 역할을 다하지 못했고 결국 장애를 막지 못했다”며 “완벽하지 못했던 이중화를 포함해 모든 부분을 개선하겠다”고 말했다. 그는 그러면서 “카카오 ESG(환경·사회·지배구조)의 최우선 과제는 ‘우리의 서비스를 안정적으로 제공하는 것’ 그 자체’라고 강조했다.
전날 이종호 과학기술정보통신부 장관도 카카오에 서비스 다중화, 재난훈련 강화, 이용자 피해보상안 마련 등을 주문, 1개월 내 조치 결과와 계획을 보고할 것을 요구했다. 지난 10월 15일 SK C&C 판교 데이터센터 배터리실에서 발생한 화재로 이곳에 입주한 카카오 서버 3만 2000대의 전력 공급이 끊기면서 최장 127시간 33분 동안 카카오톡, 카카오T 등 카카오 서비스들이 전방위적인 접속 오류를 일으켰다.