디지틀조선TV 유튜브 바로가기

과기부 디지털서비스 장애 조사결과 발표, 3사에 시정 요구

안정문 기자 ㅣ stablegate@chosun.com
등록 2022.12.07 11:59

SK C&C BMS 감지 못하고 리튬배터리 방화조치 없어, 구조적 문제도
카카오 관리도구는 판교센터에만
3사에 이행결과 및 향후 계획 1개월내 제출토록 요구

7일 과학기술정보통신부에 따르면 방송통신위원회, 소방청과 함께 6일 10월15일 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고 3사에게 1개월 이내 주요 사고원인에 대한 개선 조치와 향후 계획을 수립해 보고할 것을 요구했다. 사진은 사진은 10월15일 오후 경기 성남시 분당구 삼평동 SK판교캠퍼스에서 불이나 소방대원들이 현장을 살피고 있는 모습./뉴스1

7일 과학기술정보통신부에 따르면 방송통신위원회, 소방청과 함께 6일 10월15일 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고 3사에게 1개월 이내 주요 사고원인에 대한 개선 조치와 향후 계획을 수립해 보고할 것을 요구했다.

10월15일 오후 3시19분 SK C&C 판교 데이터센터 지하 3층 배터리실에 화재가 발생했고 23시 45분에 완전 진화됐다. 화재 진압, 건물 전력 차단 등 사유로 카카오, 네이버 등 입주기업 서비스는 장애를 겪었다.

판교 데이터센터는 화재진압 후 순차적으로 전력공급을 재개해 19일 오전 5시 전력공급을 정상화했다.

서비스 장애 및 이용자 피해가 가장 광범위했던 카카오의 경우 주요 서비스의 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등 조치를 통해 20일 23시경 정상화되어 장애 복구에 127시간 33분 소요됐다.

네이버는 일부기능 오류(일부 기사 댓글 이용불가 현상 등)가 발생하였으며 주요 서비스·기능 대부분은 약 20분~12시간 내 정상화됐다.

정부는 사고 직후 ‘방송통신재난 대책본부’를 구성·운영(총 15차)해 신속한 장애 복구를 독려하고 원인을 조사했으며 분석 결과에 따라 3사에 대해 책임있는 조치 및 대책마련 등 후속조치를 시행하도록 한다는 계획을 세웠다.

3사에 대해 단기적으로 조치 가능한 사항은 각 사가 선제적으로 조치토록 한다.

중·장기적으로 조치가 필요하거나 구체적 방안 마련 등이 필요한 사안은 향후 조치계획을 1개월 내 보고토록 한다.

또한 각 사가 제출한 조치 결과, 향후 계획 및 재난예방·복구에 대한 의견 등은 추후 정책방안 마련에 반영한다.

방통위는 카카오 등에 대해 피해접수 전담 창구 개설과 피해보상 협의체를 마련하여 실질적인 피해 구제방안을 수립·이행토록 했며 향후 통신장애 발생 시 이용자 고지와 실효성 있는 피해 구제를 위한 법령 및 이용약관 등 개선방안을 마련한다는 계획을 세웠다.

◆ SK C&C BMS 감지 못하고 리튬배터리 방화조치 없어, 구조적 문제도

SK C&C 판교 데이터센터는 배터리 온도 등을 감시하는 시스템(BMS)을 갖추고 있었으나 화재 발생 직전까지 화재에 대한 이상징후를 탐지하지 못했다.

화재 발생 후 가스 소화 장비가 작동했으나 가스 소화가 어려운 리튬이온 배터리 화재 특성 상 초기 진압에 한계가 있었다. SK C&C는 2016년 리튬이온배터리 설치 이후 현재까지 특화된 방화조치는 취하지 않았다.

구조적 문제도 지적됐다.

리튬이온 배터리가 일부 무정전 전원장치(UPS)와 물리적으로 완벽히 분리되지 않은 공간(천장 공간이 미분리된 격벽)에 배치되어 있어 화재 열기 등으로 무정전 전원장치가 작동이 중지됐고 일부 전원공급도 중단됐다.

배터리 상단에 있던 전력선은 화재로 손상됐고 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체전력이 차단된 것이다.

살수가 필요한 상황에서 살수로 인한 2차 피해가 우려되는 특정 구역 및 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치가 이뤄지지 못했다.

화재 대비 지침은 있었으나 살수 상황, 발화 구역 등 실제 화재상황 수준까지 반영한 세부 대응계획 및 모의훈련은 없었다.

◆카카오 관리도구는 판교센터에만

카카오는 대기 서버를 동작 서버로 만들기 위한 권한관리 기능인 ‘운영 및 관리도구’를 판교 데이터센터 내에서만 이중화했고 타 데이터센터와는 이중화하지 않았다.

이 때문에 판교 데이터센터의 동작 서버 작동 불능 서비스 장애 복구가 지연됐다.

‘애플리케이션’, ‘서비스 플랫폼’ 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화되어 있지 않았던 점도 복구에 상당 시간이 소요된 원인으로 분석됐다.

카카오톡, 다음 등 카카오 서비스 대부분의 핵심기능이 판교 데이터센터에 집중되어 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받았다.

과기부는 "카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 절차를 정의하고 있으나 각 단계별 체계화 및 자동화가 미흡했다"며 "1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족했다"고 설명했다.

네이버는 데이터센터 간 이중화 조치를 하여 서비스 중단은 없었으나, 타 데이터센터로 서비스 전환 과정 등에서 일부 기능에 오류가 발생했다.

◆3사에 1개월 내 주요 원인 개선 지시, 조치계획 수립해 보고 요구

정부는 장애 원인 발표와 함께 3사에 시정 조치를 요구했다.

SK C&C에 데이터센터 화재 예방·탐지, 데이터센터 전력공급 생존성 확보 등 조치를 취할 것을 요구했다.

과기부는 카카오에 대한 요구사항으로 서비스 다중화, 재난대비 훈련 등 조치, 이용자 고지 및 피해 구제 등을 내놨다.

네이버에는 철저한 장애 예방과 신속 복구를 위해 서비스별 복구 목표, 장애 각본별 복구 방안 등을 재점검하여 개선방안을 마련하고 주 데이터센터 전소 등 상황을 가정하고 모의 훈련을 실시하여 보고할 것을 요구했다.

이종호 과기정통부 장관은 “데이터센터와 디지털서비스의 장애가 국민 일상의 불편을 넘어 경제·사회 전반을 마비시키는 등 지대한 영향을 끼쳤다"며 "이번 사고에 원인을 제공한 사업자들은 이를 엄중히 인식하고 피해 복구 및 재발 예방에 최선의 노력을 다함으로써 디지털서비스에 대한 국민 신뢰를 다시 회복할 수 있기를 바란다”고 말했다.

그는 “정부는 이번 사고를 계기로 주요 디지털서비스에 대한 재난대응체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검결과, 제도개선 등을 종합하여 디지털 시대에 맞는 안정성 강화방안을 마련함으로써 끊김없는 디지털서비스를 제공할 수 있는 확고한 디지털 위기관리 체계를 구축해나가겠다”고 덧붙였다.

과기정통부는 1개월 후 3사가 제출한 조치결과 및 향후 조치계획과 재난 예방-대비-대응-복구 전 단계별 재난관리체계 강화를 위한 전문가·사업자 의견과 법·제도 개선사항을 반영해 디지털서비스 안정성 확보를 위한 종합적 개선방안을 2023년 1분기 중으로 수립한다.


최신기사


    최신 뉴스 더보기


        많이 본 뉴스

          산업 최신 뉴스 더보기

            많이 본 뉴스