전문가들 "대용량 전기시설 데이터센터 화재 가능성 상존"
30시간 멈춘 이중화 봤나…이중화 시스템 부실 논란
10년 전 실수 되풀이…연 매출 18억→6조 오른 동안 시스템 안정성은 총체적 난국
[서울=뉴시스]윤현성 기자 = "화재라는 건 워낙 예상할 수 없는 사고다. 화재가 나서 서버 전체가 내려가는 상황에 대해서는 대비가 부족했던 것 같다."
지난 주말 SK C&C 판교 데이터센터에서 발생한 화재로 카카오 관련 서비스들이 대거 중단되는 초유의 사태가 발생한 가운데 이같은 경영진의 발언이 소비자들의 분노를 더욱 부채질했다. 일각에선 "그럼 화재가 불 난다고 예고하고 일어나냐"는 등 강한 비판이 제기되는 가운데 카카오의 '컨틴전시 플랜(위기관리계획)'에 근본적으로 부실했던 것 아니냐는 지적이 나온다.
'컨틴전시 플랜'은 자연재해, 테러 등 예측하기 어렵고, 예측했더라도 단기간 회복이 어려운 사태가 발생할 경우를 대비하는 일종의 비상 계획을 의미한다.
이번 데이터센터 화재는 지진, 홍수와 마찬가지로 충분히 예상 가능했던 상황이라는 게 IT 전문가들의 공통된 견해다. 특히 데이터 서버에 상시 대용량 전원을 공급하는 데이터센터의 경우 전기 누수 등의 문제 등으로 화재 가능성을 염두에 두고 대책을 수립하는 게 일반적이라는 설명이다.
카카오 스스로 밝혔던 것처럼 카카오는 데이터센터 화재로 전원이 통째로 나갈 가능성은 카카오의 재난 대응체계 시나리오에서 빠져 있을 가능성이 높다. 이원화 시스템도 제대로 갖췄는지 의문이다. 이원화 시스템이란 한 곳의 데이터센터가 중단될 경우 실시간 혹은 시간 차를 두고 서비스를 복원할 수 있는 백업 시스템을 말한다. 카카오의 서버는 SK C&C 판교 데이터센터 화재로 인한 전원 차단 직후 수시간 이후에도 가동되지 않았다. 그야말로 '허점 투성이'였던 셈이다.
이번 사고 원인에 대한 카카오의 설명은 이렇다. 판교 데이터센터를 메인 센터로 3만2000대의 서버가 운용된다. 이번 화재로 인해 전체 서버에 공급이 차단되며 먹통 사태가 일어났다고 설명했다. 이 정도 대규모로 서버가 다운된 것도 처음이고, 화재 사고다 보니 현장에 직접 진입해 물리적으로 대처하는 것도 어려워 복구가 지연됐다는 입장이다.
특히 카카오는 데이터센터를 이중화했고, 판교 데이터센터의 트래픽을 다른 센터로 전환하는 과정에서 복구 시간이 소요됐다고 해명하기도 했다.
하지만 업계에서는 이같은 해명을 납득하기 어렵다고 본다. 이중화 시스템의 존재 의의는 데이터센터에 입주한 전체 서버들의 장애가 발생한 상황을 대비하는 것이고, 그러기 위해서는 이를 대체할 실시간 백업 시스템이 다른 데이터센터에 갖췄어야 하는데 제대로 가동되지 않았기 때문이다.
지난 주말 SK C&C 판교 데이터센터에서 발생한 화재로 카카오 관련 서비스들이 대거 중단되는 초유의 사태가 발생한 가운데 이같은 경영진의 발언이 소비자들의 분노를 더욱 부채질했다. 일각에선 "그럼 화재가 불 난다고 예고하고 일어나냐"는 등 강한 비판이 제기되는 가운데 카카오의 '컨틴전시 플랜(위기관리계획)'에 근본적으로 부실했던 것 아니냐는 지적이 나온다.
'컨틴전시 플랜'은 자연재해, 테러 등 예측하기 어렵고, 예측했더라도 단기간 회복이 어려운 사태가 발생할 경우를 대비하는 일종의 비상 계획을 의미한다.
이번 데이터센터 화재는 지진, 홍수와 마찬가지로 충분히 예상 가능했던 상황이라는 게 IT 전문가들의 공통된 견해다. 특히 데이터 서버에 상시 대용량 전원을 공급하는 데이터센터의 경우 전기 누수 등의 문제 등으로 화재 가능성을 염두에 두고 대책을 수립하는 게 일반적이라는 설명이다.
카카오 스스로 밝혔던 것처럼 카카오는 데이터센터 화재로 전원이 통째로 나갈 가능성은 카카오의 재난 대응체계 시나리오에서 빠져 있을 가능성이 높다. 이원화 시스템도 제대로 갖췄는지 의문이다. 이원화 시스템이란 한 곳의 데이터센터가 중단될 경우 실시간 혹은 시간 차를 두고 서비스를 복원할 수 있는 백업 시스템을 말한다. 카카오의 서버는 SK C&C 판교 데이터센터 화재로 인한 전원 차단 직후 수시간 이후에도 가동되지 않았다. 그야말로 '허점 투성이'였던 셈이다.
'화재'도 예측 안된 재난대응?
특히 카카오는 데이터센터를 이중화했고, 판교 데이터센터의 트래픽을 다른 센터로 전환하는 과정에서 복구 시간이 소요됐다고 해명하기도 했다.
하지만 업계에서는 이같은 해명을 납득하기 어렵다고 본다. 이중화 시스템의 존재 의의는 데이터센터에 입주한 전체 서버들의 장애가 발생한 상황을 대비하는 것이고, 그러기 위해서는 이를 대체할 실시간 백업 시스템이 다른 데이터센터에 갖췄어야 하는데 제대로 가동되지 않았기 때문이다.
IDC 업계 전문가들은 카카오와 같은 대국민 서비스가 제대로 된 백업 체계를 갖추기 위해서는 비용이 들더라도 1대1로 이원화 백업 시스템을 갖췄어야 한다고 말한다. 쉽게 말해 판교 데이터센터에 가동 중인 3만2000대를 가동 중이면, 다른 데이터센터도 이와 버금가는 3만2000대의 백업 서버를 통째로 갖추고 있어야 한다는 것. 그래야만 한 곳이 통째로 멈추더라도 실시간 혹은 시간 차로 다른 데이터센터에서 무중단 서비스를 제공할 수 있다는 설명이다. 실제로 아마존과 넷플릭스 등 글로벌 IT서비스 기업들은 이같은 형태로 백업 시스템을 분산 배치해 운용하고 있는 것으로 알려졌다.
일각에선 카카오가 분산 이중화 시스템을 갖췄더라도 도메인네임서버(DNS) 운용 설계가 잘못됐을 가능성도 거론되고 있다. 업계 전문가는 "통상 이용자들이 서비스를 받을 때 특정 서버 주소로 들어올 수 있도록 해주는 이른바 '대문'이 바로 DNS시스템인데, 이를 외부에 두고 메인 데이터센터에 문제가 발생했을 경우, 백업 데이터센터로 연결될 수 있도록 설정됐다면 전원이 일시 차단되더라도 문제가 없었을 것"이라며 이 부문에 구성 자체가 잘못됐을 가능성을 제기했다.
과거 2014년도 삼성SDS 과천 데이터 화재사고시 삼성카드 등의 백업 시스템 가동이 즉각 되지 않았던 것도 DNS시스템 문제 때문이었던 것으로 알려졌다.
설비 운용 이외에도 코로나19 팬데믹 이후 재택근무 체계가 정착되면서 기본적인 DR(Disaster Recovery·재해복구) 훈련 등도 미흡했을 것이라는 지적도 제기되고 있다. 한마디로 '컨틴전시 플랜' 자체가 주먹구구식이었다는 얘기다.
카카오와 함께 SK C&C 판교 데이터센터에 입주한 네이버 서버의 경우 비교적 오류가 적었는데, 이중화 작업, DR 시스템 설계 차이라는 견해도 있다. 실제로 네이버는 사고 발생 이후 4시간여 만에 대부분 서비스가 정상화 수순에 접어들었으나, 카카오는 사고 이후 40시간 이상이 지난 현재도 일부 서비스가 정상적으로 작동하지 않고 있는 상황이다.
네이버는 "이중화 및 DR 구성을 활용해 전면적 서비스 중단까진 발생하지 않았는데, 화재 발생 후 다른 데이터센터로 서비스를 전환하는 과정에서 일부 기능 오류가 있었다"며 "가능한 모든 주요 서비스를 이중화하고 있고, 서비스 컨퍼런스들을 분산 배치해서 장애가 있더라도 국지적 오류로 막을 수 있도록 준비한 게 주효했다"고 밝혔다.
카카오, 10년 전 사고 후에도 안일했나…총체적 난국
카카오는 지난 2012년 당시 입주해있던 LG CNS 가산 데이터센터의 전원이 차단되며 카카오톡, 카카오스토리 등 주요 서비스가 4시간 가량 불통되는 사고를 당한 바 있다. 당시에도 LG CNS 데이터센터의 전원 차단으로 서비스가 중단된 것이었는데, '화재'를 제외하면 이번 SK C&C 데이터센터의 사례와 유사한 상황이다.
당시 카카오 경영진은 "중장기적으로 서버 분산 운영을 하겠다"고 대책을 밝혔다. 전원 차단 사고 당시 카카오는 연간 매출 18억원 수준의 작은 벤처기업이었지만, 지금은 연 매출 6조원이 넘는 대기업이다. 그 기간 동안 사업 확장에는 공격적으로 나섰지만 상대적으로 인프라 투자가 소홀했던 것 아니냐는 지적이 나올 수밖에 없다.
업계의 한 관계자는 "인프라 안정성에 대한 지속적인 투자와 DR훈련 등은 최고경영진이 어떤 마인드와 의지를 보이느냐에 달렸다"며 "최근 카카오톡의 잦은 수발신 불통사태를 보면 이같은 부분에 소홀한 측면이 없지 않다"고 말했다.
◎공감언론 뉴시스 [email protected]