카카오가 지난 10월 SK C&C 판교 데이터센터(IDC) 화재로 발생했던 '카카오 먹통 사태'를 계기로 데이터센터 이중화를 비롯해 IT 엔지니어링 혁신을 위한 투자를 대규모 투자를 단행하기로 했다.

고우찬 카카오 비상대책위원회 재발방지대책 공동 소위원장은 7일 오전 11시 개최된 개발자 콘퍼런스 ‘이프 카카오 데브 2022(if kakao dev 2022(이프 카카오)에서 카카오의 미래 투자와 혁신 계획에 대해 밝혔다.

고 소위원장에 따르면 카카오의 미래 혁신 계획은 ▲안산 데이터센터 구축을 통한 완전한 이중화 ▲IT 엔지니어링 거버넌스 강화 및 인재 확보 ▲BCP(비상대응계획) 및 DR(재난 복구) 체계 개선 ▲과거 대비 투자 재원 3배 확대 등을 골자로 한다.

◆2년 뒤 안산 데이터센터로 완전 이중화 구축…'3중 진화 방식'으로 화재 대응

먼저 카카오는 오는 2024년 사용을 목표로 총 4600억원의 예산을 투입해 안산 데이터센터를 시공하고 있다. 안산 데이터센터를 통해 24시간 무중단 운영을 위한 이중화 인프라를 구축하고, 이를 전력·냉방·통신 3개 영역 모두에 적용한다는 계획이다.

특히 고 소위원장은 안산 데이터센터는 이번 판교 데이터센터 화재 사고의 주요 원인이 된 UPS(무정전 전원 장치)실과 배터리실을 방화 격벽으로 분리해 배터리실 화재가 발생하더라도 나머지 시설 작동에는 영향을 주지 않게 설계했다고 강조했다. 이에 더해 EPS-UPS-배터리를 묶어 하나의 섹터를 구성하고, 이같은 섹터를 총 4개 확보해 전력 안정성도 극대화하기로 했다.

화재 진화 방식도 3중 적용해 보다 철저하게 대응한다. 안산 데이터센터에는 ▲밀폐된 전기 판넬별 개별 소화장치 설치 ▲규정치 이상 소화 가스 비치 및 소화 가스 부족 상황 대응을 위한 예비 시스템 구축 ▲소화 가스 진화 실패 시 화재 발생 구간 차단 및 냉각수를 통한 방염·방열 진행 등 3중 진화 방식이 단계적으로 작동된다.

이에 대해 고 소위원장은 "안산 데이터센터는 화재 조기 진압을 위해 골든 타임 안에 적극 대처하게 될 것"이라며 "이외에도 침수, 해일, 강풍, 지진 등 극단적인 재난 재해에 대한 대비책도 완비한 상태로서, 카카오의 안정적 서비스 운영에 크게 기여할 것으로 기대된다"고 강조했다.

◆BCP·DR 취약성 개선해 사고 재발 방지…IT 엔지니어링 투자도 3배 늘린다

이번 대규모 먹통 사태와 관련해 IT 엔지니어링 관점에서의 혁신도 추진된다. 먼저 카카오는 CEO 직할 부문 규모로 IT 엔지니어링 전담 조직을 확대 편성하는 방안을 검토 중이다. IT 엔지니어링 전문가들을 추가로 적극 영입하고, 특히 데이터센터, SRE, Devops, 클라우드 개발 엔지니어 채용과 육성을 공격적으로 진행한다는 계획이다. 대규모 장애에 대비한 재해복구 위원회도 신설돼 대규모 장애에 대해 즉각 대응할 수 있도록 하는 체계도 마련된다.

자연재해를 비롯한 각종 사건·사고에 대응하기 위한 비상대응계획인 BCP와 DR(재난 복구)도 강화된다. 고 소위원장은 "저희끼리 나름의 BCP 체계를 갖췄다고 생각했지만 결과적으로는 부족했다는 것이 이번 사고의 교훈"이라며 "외부 전문가들의 자문을 구해 좀더 객관적으로 구체적인 현재 BCP 취약성을 진단하고 정확한 처방을 받아 실행하는 작업을 진행하겠다"고 설명했다.

BCP 취약성 개선을 위해 카카오는 외부 파트너와의 협력을 진행할 계획이다. 아울러 카오스 엔지니어링, 서비스 스태터스(status) 페이지 등 주요 글로벌 기업들이 도입해 효과를 보고 있는 영역에서 R&D(연구개발)도 진행하기로 했다.

DR 구조도 삼중화+α의 형태로 개선된다. 데이터센터 삼중화는 구조상 3개 데이터센터 중 하나가 무력화되는 상황에서도 이중화가 담보되는 안정성을 갖고 있는 만큼 유사 사고 재발을 완전히 틀어막겠다는 목표다.

주요 서비스의 경우에는 데이터센터 삼중화에 더해 추가 안전 장치로 멀티 클라우드까지 활용해 서비스 연속성을 더욱 강화할 방침이다. 이같은 안전 장치가 모두 무력화되는 최악의 상황까지 고려해 카카오톡 텍스트 메시지 전송 기능 등 핵심 서비스에 대해서는 원격지 DR 데이터센터를 별도로 구축하는 방안도 검토할 계획이다.

이같은 계획 추진을 위해 카카오의 전반적인 IT 엔지니어링 투자 규모는 대폭 확대될 예정이다. 카카오는 향후 5년간 지난 5년간 투자 금액의 3배 이상 규모로 투자를 확대할 방침이다.

고 소위원장은 "보다 안정적이 서비스 제공을 위해 IT 엔지니어링 거버넌스 강화, 인재 확보, BCP 외부 자문, 기술 R&D와 오픈소스화, 삼중화+α의 DR 아키텍처 구현, 멀티클라우드, 원격지 DR 구현, 그리고 이를 위한 과감한 투자 결정이 검토되고 있다"며 "차근차근 착실히 실행해서 이번 서비스 중단으로 받으신 불편이 되풀이 되지 않고, 편히 믿고 쓰실 수 있도록 최선을 다하겠다"고 말했다.

