27일 오후 주말 앱 오류로 고속·시외버스 이용객 큰 불편
지난 7월 '글로벌 IT대란' 떠올리게 해…전문가들 '레질리언스'강조
위기대응 능력 강화 위해선 다중 백업·AI 기술 활용한 모니터링 필요
[서울=뉴시스]송혜리 기자 = 지난 일요일, 교통 서비스 앱 티머니가 2시간 가량 서비스 장애를 일으켜 전국 주요 터미널에서 혼란이 발생했다. 고속버스 예약·발권 서비스가 중단되면서 많은 주말 이용객들이 불편을 겪었고 티머니 택시 서비스까지 영향을 받으며 교통 혼선을 초래했다.
이번 사태의 원인은 데이터센터 내 네트워크 장비의 오류로 밝혀졌으며, 티머니 측은 보강 조치를 검토 중이라고 전했다.
전문가들은 이번 사태가 전 사회 영역이 디지털화된 초연결 사회의 구조적 허점을 보여주는 예시 중 하나라고 평가한다.
고속버스는 물론 KTX, 항공·택시 등 대중교통은 물론 정부민원 처리·공연·영화 예매 매·병원 예약 등 대부분의 서비스들이 스마트폰 앱 하나로 편리하게 이용할 수 있지만, 기술적 오류나 외부 해킹에 의해 작동이 멈췄을 경우, 심각한 불편을 끼칠 수 있다는 것. 기술적 오류나 외부해킹 위협에서 100% 안전한 시스템은 존재할 수 없는 만큼, 위기 발생시 빠르게 시스템을 정상화할 수 있는 '레질리언스(Resilience·회복력)'이 초연결 사회의 과제로 대두되고 있다.
◆교통 대란 될 뻔…위기상황 대응 능력 '레질리언스' 강조
지난 27일 오후 대중교통 앱인 '티머니GO' 전산망에 오류가 발생하면서 서울 서초구 서울고속버스터미널을 비롯해 전국 140여곳 고속·시외버스 터미널에서 앱 사용자들이 큰 불편을 겪었다. '티머니GO'로 고속 버스 예매·발권을 해왔던 이용자들은 1시간 30분 가까이 앱 접속이 안돼 터미널에서 발만 동동 굴러야 했다.
각 터미널에선 비상 발권 시스템을 가동해 현장 예매로 전환하고 현금 발권에 나선 것으로 전해졌다. 티머니 시스템을 사용하는 택시에서도 승인이 안 돼 요금 수납에 어려움을 겪었던 것으로 알려졌다.
운영사 확인 결과, 해당 오류는 인천 부평에 위치한 LG 데이터센터의 네트워크 장비 문제로 확인됐다. 오류의 원인을 비교적 빠르게 찾았다는 것만으로 다행이랄까. 만약 더 복잡한 다층 시스템이었다면 전국적인 교통 대란으로 이어졌을 가능성이 크다는 게 전문가들의 경고다.
지난 7월 전세계를 강타했던 '글로벌 IT대란'의 경우가 그렇다. 크라우드스트라이크의 보안 SW 업데이트 오류가 전세계 주요 정보기술(IT) 인프라를 멈춰 세웠다. 공항 시스템이 마비돼 발권이 중단됐고, 5000편 이상의 항공기가 하늘로 날아 오르지 못했다. 별안간 난민이 돼버린 사람들은 공항에서 잠자리를 찾아야 했다. 은행에서 돈을 찾을 수도 보낼 수도 없었으며, 미국 일부 지역의 911 전산망이 마비됐고 일부 병원에서는 수술과 진료가 중단됐다. 방송국은 방송을 송출하지 못했다.
그럼에도 워낙 시스템이 다차원적으로 연계돼 있다 보니 관계 당국조차 정확한 원인을 찾지 못한 채 우왕좌왕해야 했다. 피해 기관들이 마이크로소프트(MS) 클라우드 서비스를 이용하는 곳들이 많다는 이유로 초기 MS의 실수로 잘못 진단하기도 했다. 시스템을 완전 정상화하는데도 최소 수개월이 걸린 것으로 알려졌다.
전문가들은 이어지고 있는 IT 사고와 관련해 '레질리언스'을 높일 것을 강조한다.
디지털화된 초연결 사회에서 100% 완벽한 시스템인 없다. '무사고'란 불가능하다는 얘기다. 이제 중요한 것은 얼마만큼 빠르게 복구할 수 있는지, 또 이러한 역량을 갖췄는 지가 관건이란 설명이다.
레질리언스는 시스템이 위기 상황이나 예기치 않은 장애로부터 영향을 받더라도 빠르게 정상 상태로 복구하고, 서비스의 연속성을 유지하는 능력을 뜻한다. 여기에는 단순히 데이터를 복구하는 것을 넘어 시스템이 지속적으로 운영되도록 설계하고 장애에 대응할 수 있는 탄력성을 확보하는 것이 중요하다는 설명이다.
◆다층 백업 및 네트워크 이중화·비상대응 매뉴얼 및 인력 훈련 강화 필수
레질리언스를 강화하려면 예방적 유지보수와 지속적인 시스템 테스트, 아울러 장애 발생 시 신속하게 대응할 수 있는 체계적 준비가 중요하다.
특히 시스템을 이중화하고 예기치 않은 장애 발생 시 자동으로 전환할 수 있도록 백업 시스템을 강화하는 것이 핵심이다. 주요 서비스에 대한 다중화 설정은 단일 장애의 영향을 최소화하고 빠른 복구를 가능하게 한다.
시스템 운영 상태를 실시간으로 모니터링하고 또 인공지능(AI), 머신러닝을 활용해 비정상적인 패턴을 사전에 감지해 문제 발생 가능성을 예측할 수 있도록 하는 것도 중요하다. 이런 모니터링 시스템은 고속 데이터 분석을 통해 사전에 장애 징후를 포착하고 신속한 대응을 가능하게 한다.
재해 복구 시스템(DR) 설계는 단순 백업에 그치지 않고, 시스템을 전체적으로 복구할 수 있도록 설계돼야 한다. 이를 위해 고성능의 데이터 복구 인프라를 구축하고 정기적으로 DR 시스템 점검과 복구 시뮬레이션을 실시해 복구 프로세스의 완성도를 높이는 것이 필요하다.
아울러 서비스가 장애로 인해 마비될 경우 빠르게 대처할 수 있도록 정기적인 훈련과 대응 매뉴얼 구축이 필요하다. 비상 대응 훈련은 위기 발생 시 실질적 대응력을 높이고 각 상황별로 대응 속도를 단축시키는 데 중요한 역할을 한다.
관련 업계 관계자는 "디지털 전환이 가속화되면서 우리의 생활과 사회는 더욱 촘촘하게 연결되고 있다"면서 "하지만 이러한 초연결 사회에서 발생하는 단일 장애가 전반적인 시스템에 치명적인 영향을 미칠 수 있는 만큼, 사전 대비와 지속적인 관리가 필요하다"고 설명했다.
◎공감언론 뉴시스 chewoo@newsis.com