과기정통부 “카톡 연속장애, 업데이트 전 테스트 작업 미흡 탓”

세 차례 서비스 오류 원인 분석
"오류 검증용 사전테스트 안 하고
장애 서버 해결 안 했는데 또 업데이트"
한달 내 개선계획 제출 후 개선해야

과학기술정보통신부는 최근 카카오톡이 세 차례 오류를 일으킨 이른바 ‘카카오톡 연속 장애’가 서비스 업데이트나 개선 작업 시 필요한 테스트 절차 미흡 탓에 발생한 것이라고 분석했다. 카카오는 지적받은 부분에 대한 개선 계획을 1개월 내, 시정결과를 3개월 내 과기정통부에 제출해야 한다.




과기정통부는 통신재난관리심의위원회를 열고 카카오톡 연속 장애에 대한 카카오의 시정조치 요구사항을 심의·의결했다고 31일 밝혔다. 앞서 카카오톡은 이달 13일과 20일 각각 6분 간, 21일에는 54분 간 메시지 송수신 등이 원활히 이뤄지지 않는 서비스 장애를 겪었다. 이에 과기정통부는 21일부터 긴급 현장점검을 통해 사태 파악에 나섰다.


세 차례 장애는 모두 비슷하게 카카오가 서비스를 업데이트하거나 시스템을 개선하는 과정에서 테스트 작업을 제대로 하지 않아 벌어진 것으로 조사됐다. 13일 발생한 첫 번째 장애는 카카오톡의 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생했다. 사전에 테스트를 했다면 오류를 예방할 수 있었지만 카카오는 테스트를 실시하지 않았다.


20일 발생한 두 번째 장애는 네트워크 부하 분산을 위한 내부 시스템 기능개선 작업 중 발생한 오류가 원인이었다. 카카오는 사전에 테스트를 했지만 테스트 환경이 실제 카카오톡 운영 환경과 차이가 있어 미리 장애 가능성을 파악하지 못했다. 테스트는 실시했지만 제대로 이뤄지지 않았다는 것이다. 이 원인이 해결되지 않은 상태에서 카카오는 해당 데이터센터를 통제하지 않고 또다른 업데이트를 진행해 결국 이튿날 세 번째 장애가 발생했다. 첫 번째와 두 번째 장애로 카카오톡 이용자의 80%가, 세 번째 장애로 8%가 이용에 영향을 받았다.


과기정통부는 시정조치로 카카오에게 우선 주요 작업 전 사전테스트 체계를 강화할 것을 요구했다. 업데이트, 시스템 교체, 새로운 서비스 출시 전 사전 테스트 실시 대상과 범위 등을 구체화해 발생할 수 있는 오류를 사전에 검증하란 것이다. 둘째로 21일 장애에 영향을 미친 미흡했던 작업관리 통제를 강화하라고 했다. 카카오는 주요 작업에 대한 승인·통제가 가능하도록 작업의 성격이나 작업 규모 등을 고려한 작업관리프로세스를 정립하여 작업관리 전반을 체계화해야 한다.


셋째로 카카오는 재난·장애 발생시 신속한 대응과 의사결정을 할 수 있도록 장애유형별·부서별 역할 등을 정한 통신재난 관련 매뉴얼과 지침을 보완해야 한다. 모니터링 시스템을 고도화해 장애 탐지를 강화하고, 재방 방지를 위한 ‘장애 회고 프로세스’를 표준화해야 한다. 마지막으로 서비스 장애가 발생하면 이용자에게 소셜네트워크서비스(SNS) 등 다양한 채널로 이 사실을 고지하는 것까지 카카오가 총 여섯 가지 시정조치를 해야 한다고 과기정통부는 밝혔다.


이종호 과기정통부 장관은 “국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다”며 “카카오도 국민들의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다”고 말했다.


카카오는 카카오톡 오류 예방을 위해 방지하기 위해 관리·감독에 힘을 쏟겠다는 입장이다. 카카오 관계자는 "작업 관리 및 감독이 미흡했다는 점검 결과를 겸허히 수용한다"며 "카카오는 그간 서비스 이중화 등 적극적인 기술적 조치를 통해 장애에 적극 대응해왔으며 앞으로 주요 작업에 대한 내부 관리·감독 프로세스 역시 재정비하고 강화할 계획"이라고 말했다. 이어 "이용자들에게 안정적인 서비스를 제공하기 위해 지속적으로 최선의 노력을 기울일 것"이라고 전했다.


<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>