

[데일리임팩트 변윤재 기자] 정부가 화재 대응에 미흡한 데이터센터 시스템과 카카오의 미흡한 이중화 조치가 대규모 서비스 장애를 일으킨 것으로 파악했다.
[변윤재 기자] 6일 과학기술정보통신부, 방송통신위원회, 소방청은 SK(주) C&C 판교 데이터센터 화재와 관련한 조사 결과를 발표했다.
과기정통부에 따르면, 지난 10월 15일 오후 3시19분 SK(주) C&C 판교 데이터센터 지하 3층 배터리실에 화재가 발생했다. 화재는 같은날 오후 11시45분경 완전히 진압됐지만, 네이버와 카카오 서비스는 장애가 빚어졌다. 정상화까지 네이버는 최대 12시간, 카카오는 최대 약 127시간33분이 걸렸다.
1차 원인으로는 SK(주) C&C 판교 데이터센터의 구조가 지목됐다. 배터리 온도 등을 모니터링하는 시스템인 BMS를 갖췄기 때문에 온도가 평소보다 상승하면 이를 알려줘야 한다. 하지만 BMS가 화재 발생 직전까지 이상징후를 감지하지 못했다.
초기 진압과정이 어려운 구조도 문제였다. 리튬이온 배터리는 일부 무정전 전원 장치(UPS)와 분리되지 않았다. 전력선 또한 배터리실 위쪽을 지나도록 설계됐다. 화재로 인한 열기 때문에 UPS의 작동이 중지되고, 전력선이 손상되면서 서비스 장애가 발생했다.
화재 대비 매뉴얼도 미흡했다. 실제 상황 수준까지 반영한 세부 대응계획과 모의훈련은 없었다.
때문에 초기 진압에 한계가 있었다. 화재 발생 이후에는 가스 소화 장비가 작동했지만 리튬이온 배터리는 살수해야 한다. 결국 살수 시 누전 등 2차 피해 방지를 위해 전체 전력을 차단했다.
카카오도 이중화 조치가 제대로 이뤄지지 않았던 것으로 드러났다. 카카오는 서비스 기능을 5개 레이어로 구분하고, 판교 데이터센터와 기타 센터 간 동작-대기 체계로 이중화 시스템을 구축했다. 동작 서버가 작동되지 않으면 대기 서버가 이어받는 방식이다.
그러나 대기 서버를 활성화하기 위한 운영 및 관리도구가 SK(주) C&C 판교 데이터센터에서만 이중화 됐다. 판교 데이터센터가 멈춰도 다른 데이터센터가 작동할 수 없었던 것이다.
또 애플리케이션, 서비스 플랫폼 레이어에서 이미지, 동영상 송수신 시스템 등 일부 서비스 구성요소가 데이터센터에 이중화되지 않았다. 카카오톡, 다음 등 서비스 핵심 기능이 판교 데이터센터에 집중된 점도 문제였다. 일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 했지만, 주력 데이터센터 전체가 불능이 되는 대형 재난상황에 대한 대비 역시 부족했다.
이로 인해 카카오는 동시다발적인 장애가 지속됐다. 현재 먹통사고로 접수된 피해 건수는 10만5116건이다. 유료 서비스가 1만4918건, 금전적 피해를 언급한 무료 서비스는 1만3198건이 접수됐다.
반면 네이버는 데이터센터 간 이중화 조치를 해 서비스 중단은 없었다. 단 다른 데이터센터로 서비스를 돌리는 과정에서 쇼핑, 뉴스 등에서 일부 오류가 발생했다.
과기정통부는 3사에 먼저 개선할 수 있는 부분부터 조치할 것을 주문했다. SK(주) C&C에는 데이터센터 화재·예방 탐지, 데이터센터 전력공급 생존성 확보 등을 갖출 것을 지시했다. BMS 관리를 강화하고 이와 별도로 다양한 화재감지 시스템을 구축할 것을 지시했다. 리튬이온 배터리에 특화된 소화설비를 갖추고 불가능할 경우 대안을 마련해 달라고 했다.
아울러 배터리와 기타 전기설비 간 물리적 공간을 분리하고 배터리실 내에 위치한 전력선을 재배치해 구조적 안정성을 확보하도록 했다. 화재 등 재난 발생 구역의 전력을 개별 차단하고 재난 현장에 직접 진입하지 않고도 해당 구역의 전력 차단 등이 가능하게 조치를 취해달라고도 했다. 재난대응 시나리오를 개발하고 세부 훈련 계획을 수립하는 한편, 훈련 실시 결과도 보고하라고 했다.
카카오에는 서비스 다중화를 요구했다. 운영 및 관리도구를 여러 데이터센터로 다중화하고, 인증 등 주요 기능에도 현재보다 높은 수준의 분산 및 다중화를 적용할 방안을 수립하도록 했다.
데이터센터 전소나 네트워크 마비 등 최악의 상황을 가정한 훈련 계획을 수립·시행하고, 보고할 것을 주문했다. 장애 탐지-전파-복구 등 전 단계 복구 체계를 재점검해 자동화 기능을 도입하라고도 했다. 아울러 서비스 장애를 신속하게 고지할 체계를 구축하는 한편, 국민 피해를 구제할 원칙과 기준을 설정, 유·무료 서비스를 포함한 보상 계획을 수립하라고 당부했다.
네이버에도 서비스별 복구 목표, 장애 시나리오별 복구 방안 등을 재점검해 개선방안을 마련하고 주 데이터센터 전소 등 상황을 가정해 모의 훈련을 실시할 것을 요구했다.
과기정통부는 각 사에 1개월 내로 조치 결과와 향후 계획을 보고하도록 지시했다. 이를 바탕으로 재난예방·복구에 대한 전문가 의견 등을 수렴해 내년 1분기 내로 디지털 서비스 안정성 확보를 위한 종합 개선안을 수립할 예정이다.
이와 관련, 방통위는 향후 통신장애 발생 시 유·무료 서비스를 피해 구제책 마련을 위해 법령과 이용약관 등의 개선을 추진할 방침이다. 내년 1분기 과기정통부의 종합 개선방안 발표 전까지 내용을 확정한다. 방통위는 서비스 장애 고지 대상을 무료 서비스 이용자로 확대하는 방안을 컴토한다. 그러나 법적 근거가 없어 무료 서비스에 대한 보상을 약관에 포함시키기 어려울 것이란 지적이 나온다.
ⓒ새로운 눈으로 시장을 바라봅니다. 딜사이트경제슬롯머신 무료게임 앱 무단전재 배포금지
