19일 전 세계에서 약 850만 대의 마이크로소프트(MS) 윈도 시스템이 크라우드스트라이크사의 팰컨 센서 프로그램의 오동작으로 다운되는 현상이 발생했다. 이 일로 세계 여러 곳의 항공편이 취소 또는 지연됐고 생방송이 중단되거나 증권거래소의 지수 산정이 지연됐다. 병원에서는 진료와 수술이 연기되는 일 등이 발생해 직접 피해액이 7조 5000억 원에 이른다는 발표가 있었다.
우리나라에서도 전산망 마비 사태가 빈번하게 벌어지고 있다. 2018년 11월 KT 서울 아현지사 화재로 서울·수도권 일부 지역에서 유무선 통신 장애를 겪었다. 2021년 10월에는 KT 통신망의 ‘라우팅 시스템’에 오류가 발생했다. 2022년 10월에는 SK C&C 데이터센터에서 발생한 화재로 카카오톡·네이버·토스 등의 인터넷 서비스 장애가 발생했다. 지난해 11월에는 국가가 운영하는 지방행정 전산망 다운으로 민원서류 발급이 전면 중단됐다.
이번 정보통신(IT) 대란은 우리에게 시사하는 바가 매우 크다. 외부 업체(크라우드스트라이크) 소프트웨어가 다른 시스템(윈도 시스템)과 충돌할 경우 항공사 등 외부 기기들의 장애를 일으킬 수 있다는 것이다. 인터넷, 모바일 기술, 사물인터넷(IoT) 등의 기술 발전을 통해 모든 사람·기계·기관이 네트워크를 통해 서로 연결된 초연결 사회는 사람들을 편리하게 하는 동시에 시스템 장애의 가능성도 높인다. 어느 한 곳에서 발생한 사소한 장애가 전 세계 서비스에 장애를 일으킬 수 있는 것이다.
이 같은 사고는 몇 가지 중요한 교훈을 준다. 첫째, 기술적인 결함에 대비한 체계적인 대응 시스템과 재난 복구 계획이 반드시 필요하다. 이는 정기적인 시스템 점검과 함께 잠재적 위험을 사전에 감지하고 대응할 시스템을 갖추는 것을 포함한다.
둘째, IT 인프라의 복원력을 강화해야 한다. MS의 경우에는 외부 프로그램이 충돌하는지 시험할 수 있는 환경을 제공하고 충돌이 발생하더라도 시스템이 다운돼 서비스 장애로 이어지지 않도록 해야 한다. 이번 사고에 해당되지는 않지만 서비스 제공 기업들은 다중 데이터센터, 클라우드 백업 솔루션 등을 활용해 데이터의 안전을 보장하는 것도 중요하다.
셋째, 사고 발생에 대비해 투명한 커뮤니케이션 전략을 마련해야 한다. 크라우드스트라이크 사고처럼 큰 이슈가 발생했을 때 정확하고 신속한 정보 제공이 필수적이다.
넷째, 초연결 사회의 특성상 국제적인 협력도 매우 중요하다. 글로벌 네트워크의 안정성을 확보하기 위해서는 각국의 기술 기업과 정부가 정보를 공유하고 공동으로 위험에 대응하는 체계를 구축하는 것이 필요하다.
마지막으로 정기적인 ‘IT 재난’ 훈련이 필요하다. 어떤 시스템에 장애가 발생했을 때 각자에게 미치는 영향이 무엇인지를 인식할 기회가 제공돼야 하고 이를 통해 사용자 한 명 한 명이 자신의 위치에 맞는 역할로 대응할 수 있어야 한다. 초연결 사회는 어떤 장애가 내게 미치는 영향을 파악하기가 매우 어렵다.
결론적으로 초연결 사회에서 IT 재난에 대한 대비는 단순한 선택이 아니라 지속 가능한 발전과 안정적인 사회 운영을 위한 필수적인 조치다.