MegaRAID의 레이드 하드디스크에 이상이 생겼을때 변경해야할 하드디스크가 아닌
같이 설정된 “멀쩡한” 하드디스크를 제거 했을때 발생하는 문제점과 에 그에 대한 조치 방안에 대한 실험 글입니다.
레이드 상태 : 레이드 10으로 하드디스크 4대중 2대에 문제가 발생한 상태
주의 : 이 실험은 “매우 위험“합니다. 이 글은 참고만 하시는것을 권장하며 따라하시다가 발생되는 문제점은
작성자 및 스마일서브가 절대 책임지지 않습니다.
정상적인 하드디스크 제거 실험
레이드 상태는 10으로 묶여있으며 /testdisk에 마운트 되어 있습니다.
레이드 하드디스크의 상태는 위에 보이는 바와 같이 Span에 있는 하드디스크가 한개씩 문제가 있는 상황이며
이상태에서 다른 하드디스크 1대에 이상이 생기면 레이드가 유지되지 어렵습니다.
여기서 실험을 위해 Span:0에 설정되어 있는 정상적인 하드디스크 Slot: 0을 제거하였습니다.
제거한 하드디스크는 0번인데 사진으로 보이는 하드디스크는 1번인점에 의문을 가질수도 있으나.
하드디스크의 베이의 번호가 1번으로 찍혀있는 부분이며 실제적으로는 0번입니다.
이런 부분이 있기에 레이드 하드디스크 교체는 주기(번호) 순서를 자세히 본후 교체를 해야합니다.
Slot: 0번을 제거하면 바로 에러메세지가 나타나는 부분을 확인할 수 있었습니다.
서버에서 레이드를 확인하면 아직 마운트가 되어있는 상태이며 이동도 가능하나 ls touch 등의 명령어를 사용할시
입력 / 출력 오류 즉 I/O에러가 표출 되는 부분을 확인할수 있었습니다.
조치 방안 실험
만약 하드디스크를 잘못뺐다면 조치 방법은 2가지로 갈립니다.
1. 하드디스크를 원래대로 적재하고 리부팅한다.
2. 아래와 같은 방법으로 대처한다.
조치 방안을 실험하기 위해 제거했던 하드디스크 Slot: 0번을 다시 적재하였습니다.
제거했던 Slot: 0이 확인됩니다. “Change to Unconfigured Good”를 클릭합니다.
상태 변경 후에는 “Replace Missing Drive”를 클릭합니다.
Span과 Row index를 확인하고 OK를 클릭합니다.
Slot: 0을 오른쪽 클릭하여 “Make Drive Online”을 클릭합니다.
“Confirm”을 클릭하고 yes를 클릭합니다.
이렇게 진행하면 하드디스크가 정상적으로 인식되는 부분이 확인되었습니다.
다만 서버에서 확인시 I/O에러는 발생되고 있음이 확인되기때문에 리부팅이 필요합니다.
낮은 확률로 리부팅 필요없이 정상적으로 이용이 가능한적도 있었습니다.
리부팅시에는 정상적으로 파일 생성 삭제등이 가능한 부분을 확인 하였습니다. 만약 이 단계에 성공하였다면
되도록 자료 백업 및 파일시스템 체크를 진행하는것이 좋을것같습니다.