하나의 하드 디스크 만 실패하면 RAID 4 디스크 설정이 충돌 할 수 있습니까? [닫은]

저는 웹 개발자입니다. 하드웨어에 대한 경험이 많지 않습니다. 이러한 이유로 관리 서버를 사용합니다.

오늘 아침, 설정에있는 드라이브 중 하나가 고장났습니다. 그러나 전체 사이트가 다운되었습니다. 웹 호스트에게 무슨 일이 있었는지 물어 봤는데, RAID 컨트롤러가 제대로 작동하지 않는 방식으로 하드 디스크가 고장 났다고 대답했습니다. 어레이가 RAID 4로 설정되었습니다.

당신은 전에 그것을 본 적이 있습니까? 가능합니까?

이 사람들에 대한 도움을 주셔서 감사합니다. 내 웹 호스트가 저에게 정직한 지 알아야합니다.



답변

공급자가 RAID에 사용되지 않는 하드 드라이브를 사용하고 있지 않을 가능성이 높습니다. 일반 소비자 SATA 드라이브는이 범주에 속합니다.

드라이브에 수정 불가능한 읽기 오류 (URE)가 발생하기 시작했을 가능성이 있습니다. 소비자 드라이브에서이 문제가 발생하면 드라이브는 그 자리에 앉아 포기할 때까지 읽기 작업 (일반적으로 30-60 초 동안)을 재 시도합니다. RAID는 드라이브가 오류 (30-60) 초를보고 할 때까지 기다립니다. 따라서 몇 개의 섹터에 대한 간단한 요청으로 인해 서버가 쉽게 정지되는 반면 실패한 드라이브는 읽기-재시도 조작을 통해 분쇄됩니다.

RAID 어레 이용 드라이브에는 시간 제한 오류 복구 (SATA 드라이브 용)가 있습니다. TLER는 장애를 컨트롤러에 신속하게 다시보고하므로 컨트롤러는 이러한 장애에 지능적으로 대응할 수 있습니다 (주로 지능적으로, 희망적으로). SCSI (SAS도)는 약간 다르게 작동합니다. SCSI 명령 세트를 사용하면 컨트롤러가 드라이브에 대한 다양한 복구 작업 제한을 지정할 수 있습니다 (MODE SELECT : RW ERR RECOVERY). RAID 컨트롤러는 드라이브가 빨리 고장 나도록 설정해야합니다. 그러면 컨트롤러는 드라이브가 TUR 명령으로 제대로 작동한다고 생각하는지 검사하고 검사 조건이있는 경우 드라이브를 어레이에서 고장 나게합니다.


답변

그렇습니다. 어레이가 장애에서 살아 남았어야한다고 생각하는 시나리오에서도 가능합니다.

배열이 실패하는 이유는 다음과 같습니다.

  • RAID 모드로 유지 될 수있는 것보다 많은 드라이브가 고장났습니다. 예를 들면 다음과 같습니다.
    • RAID 0 (스트라이핑)은 어떤 드라이브 장애에서도 살아남을 수 없습니다.
    • RAID 1은 1 개의 드라이브를 제외한 모든 드라이브의 장애에도 견딜 수 있습니다.
    • RAID 4/5는 1 개의 드라이브 장애에도 견딜 수 있습니다.
    • RAID 6은 2 개의 드라이브 장애에도 견딜 수 있습니다.
    • RAID 10은 고장난 드라이브에 따라 최대 50 %의 드라이브 고장에도 견딜 수 있습니다.
  • RAID 소프트웨어 또는 컨트롤러 펌웨어의 버그.
  • 사용자 오류.
    • 누군가 너무 많은 드라이브를 가져 왔습니다.
    • 누군가 드라이브를 잡아 당겨 교체하지 않았으며 다른 드라이브가 고장났습니다.
    • 어레이가 모니터링되지 않아 살아남을 수있는 것보다 더 많은 드라이브가 고장날 수 있습니다.
  • 소비자 급 드라이브를 갖춘 저렴한 컨트롤러는 일반적으로 생존 가능한 시나리오에서도 실패하는 것으로 알려져 있습니다.
    • 소비자 수준의 드라이브는 불량 섹터를 읽을 때까지 거의 무한정 읽기를 시도합니다. 저렴한 컨트롤러는 그러한 드라이브가 결과를 반환 할 때까지 거의 무한정 기다립니다. 대기 시간이 너무 길어 운영 체제가 포기할 수 있습니다. 그런 다음 재부팅시 드라이브가 컨트롤러에 충분히 빠르게 응답하지 않고 어레이가 고장난 것으로 간주됩니다.
    • 반면, 엔터프라이즈 레벨 드라이브는 빠르게 포기하여 컨트롤러가 다른 드라이브에서 데이터를 가져올 수 있습니다. 또한 올바른 컨트롤러는 응답에 너무 오래 걸리는 드라이브를 실패한 것으로 표시하고 계속 진행합니다.

답변

RAID 0 구현 인 경우 단일 드라이브에 장애가 발생하면 어레이 및 모든 데이터가 손실됩니다.


답변

디스크가 잘못되거나 임박한 오류보고가 시작될 때 펌웨어 버그가 전체 RAID를 제거하는 것을 보았습니다. 죄송합니다. 구체적인 사항은 없지만 네, 일어날 수 있습니다. 물론 RAID 사양의 일부가 아닌 것은 분명히 버그입니다.


답변

네 가능합니다. 아니에요 되어 발생하는 것이 아니라 확실히 할 수 있습니다. URE (복구 불가능한 읽기 오류) 및 컨트롤러 오류 및 펌웨어 버그 등을 입력하십시오.

추가 정보가 없으면 (호스트가 제공하지 않을 것임) 확실하게 말할 수는 없지만 많은 RAID 배열을 사용하는 사람은 전체 배열이 손실되거나 충돌 할 때 경험이 있습니다. 해서는 안됩니다.

(그리고, 그런데, RAID4는 매우 일반적으로 사용되는 RAID 수준이 아니라 해야 모든 드라이브의 손실을 견딜 .합니까 그러나, 항상 것을 의미하지.)


답변

나는 기계공이 실패하지 않고 전자 장치가 통신 인터페이스를 구성하는 많은 HDD 오류를 겪었습니다. 크기가 작기 때문에 많은 전자 부품이 작은 전기적 불규칙성에도 매우 민감합니다 (이것은 근처의 대형 A / C 모터를 켜고 끄는 등의 상황이 발생할 수 있으며 전원 공급 장치가 약간 저렴한 경우에 발생할 수 있습니다).

드라이브의 내부 전력 변환기 또는 커패시터 (에너지 저장 버퍼)가 HDD의 외부 커넥터에서 생성 된 전기 신호를 태우면 사양에서 벗어날 수 있습니다. 드라이브는 구리선을 통해 컨트롤러에 연결되어 있으며, 종종 서버에서 많은 드라이브가 케이블 연결을 공유하여 설치를 용이하게하고 클러 터를 줄이므로 여러 개의 인접한 구성 요소를 쉽게 중단 시키거나 영구적으로 파괴 할 수 있습니다.

이것은 가격 책정과 거의 관련이 없습니다. 고가의 컨트롤러와 드라이브는 비정상적인 조건에 더 견딜 수 있거나 차폐가 더 나은 부품을 사용할 수 있으며 예산 구성 요소의 경우 표준이 아닌 부품을 얻을 가능성이 높습니다. 그러나 나는 정기적으로 $ 50 드라이브와 $ 500 드라이브에서 동일한 커패시터를 발견했습니다. 또한 고장난 HDD가 12 볼트를 전원 공급 장치에서 SATA 커넥터로 직접 라우팅하면 가격표의 수에 관계없이 RAID 컨트롤러가 작동하지 않습니다.

그것은 일반적으로 일어나는 일은 아니지만 내 경험으로는 분명히 들리지 않습니다.


답변

예, 단일 드라이브 장애 후 전체 RAID가 실패 할 수 있습니다. 첫 번째 고장난 드라이브는 컨트롤러에 의해 오프라인 상태가되고 습격은 여전히 ​​잘 작동합니다. 그러나 고장난 드라이브를 교체하면 컨트롤러가 RAID를 재 구축하기 시작합니다. 남아있는 다른 드라이브 중 하나에 잠재적 인 발견되지 않은 읽기 문제가있는 경우, 실패한 드라이브를 다시 빌드하면 더 많은 드라이브가 오프라인 상태가 될 수 있습니다 (레이드를 다시 빌드하는 동안 읽기 문제가 발견 될 때). 불합격.