3Ware의 tw_cli는“DEGRADED”디스크와“ECC-ERROR”가 무엇을 의미합니까? u0

3ware 9650SE-16ML 카드에 슬픈 RAID 배열이 있습니다. 내가 말할 수없는 것은 방금 더블 디스크 오류 (버거!)를 겪었는지 또는 이것을 잘못 읽고 있는지입니다. 관련 출력 /c0 show all은 다음과 같습니다.

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ

그리고 실패는 (에서 show alarms)입니다.

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

나는 일어난 일이 p0에 실패 했다고 생각 하고 p1에 ECC 오류 (일명 내 데이터가 사라짐)가 있다고 생각 합니다. 하지만 … 어쩌면? 97 %의 재 구축 상태를 유지하지만이 오류를 극복 할 수는 없습니다.

내가 알 수있는 한, 이전 관리자는 정기적 인 확인을 해제했습니다. 이것이 우리를이 상태로 만드는 것입니다. 대부분의 사람들이 3Ware RAID에 대해 걱정해야하는 것은 아닙니다!

최신 정보

며칠 동안 치고 난 후 IgnoreECC 비트를 수행하고 다시 작성했지만 데이터가 제한되었습니다. 버머.



답변

ECC 오류는 드라이브에 읽을 수없는 섹터가 하나 이상 있음을 의미합니다. 그러나 운이 좋으면 해당 볼륨에있는 파일 시스템에서 해당 섹터를 실제로 사용하지 않을 수 있으므로이 상태의 어레이에서 데이터를 여전히 복사 할 수 있습니다.

재 구축 중에 ECC 오류를 무시하는 옵션도 있습니다.

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

그러나이 옵션을 사용하면 불량 섹터의 영향을받는 RAID 스트라이프가 손상됩니다 (이 경우 카드가 정확히 무엇을하는지 확실하지 않음-전체 스트라이프를 0으로 또는 임의의 데이터로 대체 할 수 있음). 복구 됨 “어레이는 실제로 감지 할 수없는 손상을 가질 수 있습니다 (영향을받는 스트라이프가 일부 데이터 파일의 중간에있는 경우). 재구성을 시도하기 전에 어레이에서 다른 장소로 데이터를 복사하는 것이 더 안전 할 수 있습니다 (적어도 나쁜 영역을 읽으려고 할 때 오류가 발생합니다).

읽을 수없는 섹터를 일찍 포착하도록 어레이의 예약 확인을 설정해야합니다. 그러면 방금 시작된 드라이브를 교체 할 수 있습니다.


답변

물리적 드라이브 (p0)가 DEGRADED 상태가 된 적이 없었지만 ECC-ERROR 드라이브 또는 DEGRADED 드라이브를 통해 제거 할 수 있습니다.

/c0 p1 remove

그리고 다시 스캔을 발행

/c0 rescan

그들을 통해 공격대에 다시 넣어

maint rebuild c0 u0 p1

ECC-ERROR로 실패한 SATA 드라이브 i는 몇 시간 동안이라도 다시 실패하기 전에 부활 할 수있었습니다.


답변

데이터가 사라 졌을 가능성이 큽니다. ECC 오류는이 디스크를 읽는 동안 복구 할 수없는 오류를 의미합니다.

백업하지 않은 경우 어레이의 현재 상태를 덤프 할 수 있습니다. 컨트롤러가 데이터 유실 여부 또는 빈 영역 (파일 시스템에 대한 통찰력이 없음)을 알지 못하기 때문에 가능할 수 있습니다.


답변