메신저·금융·쇼핑·교통 등 문어발식(式) 사업 확장을 통해 ‘슈퍼 애플리케이션’으로 성장한 카카오톡이 전산 장애의 직격탄을 맞았다. 카카오가 공식적으로 밝힌 피해 서비스만 10종이 넘고 각 서비스의 이용자는 물론 창작자, 판매자, 자영업자, 택시기사 등 플랫폼 종사자, 광고주가 받은 피해를 더하면 그 규모는 훨씬 클 수밖에 없다. 최근 계열사 문제, 주가 급락 등으로 가뜩이나 위기에 처한 카카오로서는 ‘엎친 데 덮친 격’이다. 특히 카카오 측이 방대한 서버와 데이터를 한곳에 몰아넣은 채 24시간이 지나도록 복구를 마치지 못한 점은 플랫폼 업체로서는 치명적이다. 통상 몇 시간 내 해결된 정보기술(IT) 업계의 서비스 장애 사례들과 비교하면 이례적인 상황이다. 결국 카카오가 사업 확장에만 치중하느라 유사시 방대한 데이터를 백업하고 서비스 장애를 최소화하는 대응 체계를 갖추는 데는 소홀했다는 지적이 나온다.
16일 과학기술정보통신부와 IT 업계에 따르면 전날 오후 3시 19분께 발생한 SK C&C 판교캠퍼스 화재로 이곳에 입주한 카카오 서버 3만 2000개도 가동을 멈췄다. 이로 인해 메신저·쇼핑하기·선물하기·뉴스와 콘텐츠뿐 아니라 계정이 연동된 다음(DUAM), 카카오맵(지도), 카카오페이(결제), 카카오T(교통), 카카오내비(내비게이션), 카카오게임즈(게임), 카카오웹툰과 픽코마(웹툰), 멜론(음원 스트리밍), 지그재그(패션) 등 카카오톡 관련 서비스에서 전방위적인 블랙아웃(서비스 마비)이 발생했다.
이번 사고가 비록 주말에 터졌지만 전 국민에게 큰 영향을 미친 것은 그만큼 카카오가 최근 사업을 공격적으로 확장하면서 카카오톡이 ‘국민 앱’으로 등극했기 때문이다. 현재 카카오 주요 서비스 이용자를 보면 카톡 4600만 명, 카카오T 3100만 명, 카카오뱅크 1900만 명 등에 달한다. 가입자와 서비스 범위는 방대하게 키웠지만 시스템 관리는 뒷받침해주지 못했다는 지적이 나오는 대목이다.
이번 사고로 일부 서비스가 순차적으로 정상화되고 있지만 완전 복구까지는 시간이 더 필요한 상황이다. 이날 오후 1시 기준 복구된 서버 수는 1만 2000개로 전체(3만 2000개)의 절반에도 미치지 못했다. 카카오는 복구 지연에 대해 “이번 화재는 데이터센터 한곳 전체가 영향을 받는 이례적인 상황으로 해당 조치를 적용하는 데 예상보다 오랜 시간이 소요되고 있다”고 해명했다. 데이터센터 전체가 마비되면서 복구할 데이터가 지나치게 많다는 것이다.
이런 해명에 전문가는 납득할 수 없다는 반응을 보였다. 최경진 가천대 법학과 교수 겸 인공지능(AI)·빅데이터 정책연구센터장은 “데이터가 많다는 것은 그만큼 사업 규모가 크다는 것이고 이를 통해 버는 돈도 많다는 것”이라며 “안정적인 서비스 공급을 위해 데이터 양에 비례해서 서버 관리 투자와 역량을 늘리는 것은 부가통신사업자의 사회적 책무다. 빅테크 기업인 구글도 서비스 장애가 발생하면 보통 4시간 이내를 목표로 해결하고 있다”고 말했다.
업계에서는 특히 카카오가 ‘서버 이중화’에 소홀했다는 지적이 나온다. 이중화는 서버를 복수로 구성해 한 서버에 문제가 생기면 다른 서버로 서비스를 이어가는 것이다. 백업과 함께 유사시 데이터를 보존해 서비스 장애를 최소화하는 조치다. 카카오는 판교·안양 등 4곳의 데이터센터를 쓰고 있는데 이 중 판교 데이터센터 한곳에 지나치게 많은 서버를 편중해서 두고 여기에 카카오톡·카카오페이 등 중요한 ‘국민 서비스’를 주로 할애함으로써 이중화의 효과를 크게 떨어뜨린 것으로 드러났다. 이날 화재 현장에 참석한 양현서 카카오 부사장은 “이중화 조치가 돼 있음에도 불구하고 트래픽을 전환하는 데 꽤 많은 시간이 걸렸다”고 말했다.
이번 사고에서 네이버가 5시간 만에 상당수 서비스를 복구시킨 것과 비교해도 카카오는 자체 데이터센터를 아직 갖추지 못했기 때문에 화재처럼 외부의 문제에 더 철저한 대비가 필요하다는 지적도 나온다. 네이버는 자체 데이터센터 ‘각 춘천’에서 메인 서버들을 운영하고 판교 서버에는 일부 서비스만 할애한 것으로 알려졌다. 카카오와 같은 화재를 겪었지만 별다른 피해 없이 대처도 훨씬 빨랐다. 카카오는 내년 경기 안산시에 첫 자체 데이터센터를 구축할 계획이다.
카카오는 화재 상황으로 기술자들이 직접 서버에 접근할 수 없었던 것을 복구 작업 지연의 또 다른 이유로 설명했다. 양 부사장은 “카카오톡의 경우 장애가 나면 20분 내로 해결한다는 목표를 가지고 장애 대응을 최우선으로 하고 있음에도 화재 현장이기 때문에 저희가 직접 서버에 진입해서 작업할 수 없었다”며 “다소 불가항력적인 측면이 있었고 향후에는 데이터센터 하나가 폐쇄되는 지경이 되더라도 이용에 불편함이 없도록 재발 대책을 세우겠다”고 말했다.