메뉴 닫기

정부 행정 전산망 장애 분석 – 이중화 인프라의 장애 이유 ,쌍둥이 장애

지난 금요일 정부 행정 전산망이 장애를 일으켜 일요일날 복구 되었다.

저렇게 복구가 안되는 기간이 날을 넘기는 경우는 우리같이 인프라로 먹고 사는 사람 들은
직관적으로  네트워크 인프라 특히 – 데이타가 통과하는 게이트웨이 이중화 인프라( 로드 밸런서나 라우터  백본 스위치 등의 )의 동시 장애 를 의심하게 된다.

정부 네트워크 인프라가 장애에 대비해 이중화 되어 있고 장애시 실시간 이중화된 경로로 데이타 패킷이 흐르도록 설계 되었지만
이중화된 또 다른 장비가 정상 작동 하지 않는 이유로 추정 되는건 ..둘다 고장이 의심되기 때문이다.

같이 태어난 쌍둥이는 유전적 으로 동일한 유전자를 물려 받아서 같은날 태어나니  아픈날도 같고 심지어 거의 같은 시기에 사망하는 것 같이
하드웨어 인프라도 비슷한 장애를 겪기 때문이다. 

하드웨어가 같은 생산라인에서 같은 시기에 생산되어  같은날  전기 스위치를 켜게 되면  전기적 충격이 동일하게 시작 되어 
고장일도 거의 같은 날 나는 경우가 종종 있다.

그것이 파워서플라이, 하드 디스크, 메인 보드, 네트워크 광모듈, 스위칭 게이트웨이 인프라 등 다양한 형태의 장애가 같은 시점에 발생을 한다. 

예를 들어 하드디스크 장애
전에는 고객들에게 백업용 하드 장착을 권고 햇는데 –  같은날 같은시에 두개의 하드가 동시에 고장을 일으 켯던 사례,
또한  스토리지를  복사본이 있는 레이드 1으로 묶어서 장애 확률를 줄이고자 했는데 , 하드디스크가 동시에 같은날 사망해서
데이터를 모두 날리는 경우는 아주 흔한 사례고.

클라우드 서비스에서 파워 서플라이나 메인 보드 ssd가 하루에 동시에 죽는 일  데이터 센터에서  이중화된 activ standby ups 가 동시에 다운 된 치명적인 사례

네트워크 인프라에서 백본 스위치의  스위칭 모듈이 동시에 고장 나는 일
–  동료 호스팅 회사는 10G가 흔하지 않던 십여년전 백본 스위치의  10G 광 모듈이 세개가 동시에 장애, 당시 하나에 수백만원 하던 시스코 광모듈 – 타사와 잘 호환 하지 않는 – 장애후 수배해서 정상화 하는데 일주일이 걸렸다.

 장애를 대비한 네트워크 이중화 인프라 일 경우 – 특히 게이트 웨이를 담당하는 백본이나 라우터나 네트워크 로드 밸런서  복구에 치명적인 시간소요가 발생을 한다.  게이트 웨이 이중화 인프라는 대부분 가격이 비싸서 2중 화만 해두고 차선책을 꾸려 두지 않는데, 
대부분은 장애시 이중화가 정상 작동 하여 장애에 대비한 보람이 있으나,
언젠가는 이중화에 놓은 쌍둥이 장비가 동시에 아퍼서 들어 눞는 일이 발생한다. 그러면 답 안나온다.   새로운 장비를 구하거나 새롭게 네트워크를 구성 하는 방법 밖에…

게이트 웨이 이중화 장애시에는 답은 없다.
이중화는 같은 회사로 구성 하라는 네트워크 장비 회사들 말을 들을수 밖에 없지만,
되도록 여유 분을 한개 정도 더 갖추는 방법, 광모듈이나 백본 , 라우팅 모듈등은 동일 시기 말고 인터벌을 두고 구입 하는게 좋고
우회로를 확보 하는 방법,
장애시 이중화 없이 다른 경로로 단순한  라우팅 을 하는 방법등

쌍둥이 장애시에 대한 다양한 시나리오를 만들어서 대비 하는게 답이다.
통신사 같으면 링으로 망을 구성 하고, 다양한 우회로를 쉽게 만들수 있지만. 정부 기관이야 긴급 조달 해서 3일 만에 대응 했지만
일반적인  데이터 센터라면 그러한 장애 대응은 쉽지 않다. 넉넉하게 여유 부품과 여유 장비를 갖추고 잇는게 답이다.

특히 클라우드 서비스 시대 , 데이터 모든 장비가 같은날 세팅 되어 같은 시점에 스위치 온 되는 경우가 비일 비재한,
그러다 보면 하드웨어 장애도 같은날 동시에 일어나는 일이 비일 비재 하지 싶다. 방법은 그에 대한 훈련과 여유 장비 보유 방법 뿐이 지 싶다.

 

쌍둥이 장애 –

Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x