SMART Hardware_ECC_Recovered 값이 높아야합니까? 7 Seek_Error_Rate

나는 다음과 같은 메시지를 받았다 /var/log/messages.


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

디스크에 오류가 발생하여 교체해야한다는 의미입니까? SMART 시험 결과의 해석에 대한 정보는 어디에서 읽을 수 있습니까?



답변

Spinrite 명성 의 Steve Gibson에 따르면 SMART 값은 순간적인 판독 치가 아니라 시간이 지남에 따라 측정되어야합니다. 즉, 값이 47 개월 인 경우 47의 값이 반드시 나쁘지는 않습니다. 그러나 값이 한 시간 전 42 초이고 빠르게 상승하면 드라이브가 데이터의 일부에 액세스하는 데 어려움을 겪고 있으며 곧 섹터를 읽을 수 없을 수도 있습니다. 해당 드라이브의 데이터 값에 따라 교체 할 수 있습니다.


답변

이 속성의 높은 값은 실제로 꽤 좋습니다.

하드웨어 ECC 복구 SMART 매개 변수는 ECC 수정 오류 사이의 시간을 나타냅니다.

https://kb.acronis.com/content/9131


답변

첫째, 더 낮은 값은 더 높은 값이 아닌 SMART에 대해 더 나쁩니다 (임계 값 열이 항상 현재 값보다 낮은 방법에 유의하십시오). 따라서 가치가 증가한다고해서 걱정할 필요는 없습니다. 그러나이 규칙은 원시 값에는 적용되지 않습니다.

SMART 값은 약간 진동하는 경향이 있습니다 (예를 들어 46에서 47 사이의 가장자리에있을 수 있으므로 작은 변경이라도 다른 값으로 전환 될 수 있음).

smartctl -a출력에이 값이 45라는 최악 의 결과가 표시되므로 약간 위에 오실 레이션하는 것이 정상입니다.

자세한 정보는 Wikipedia : ATA SMART attributes를 참조하십시오 .


답변

Google이 수행 한 광범위한 연구조차도 SMART 오류로 많은 드라이브 오류가 예측되지 않았다는 것을 발견했습니다. 당신이 보는 것은 완벽하게 정상일 수 있지만, 각 제조업체는 원시 값을보고 된 값으로 변환하기위한 다른 메트릭을 가지고 있기 때문에 드라이브가 많은 오류를 경험하고 있는지 확실하게 말하기는 어렵습니다. 그러나 큰 숫자는 저에게 홀수입니다.

모든 드라이브를 읽고 (dd 또는 rsync를 새 드라이브로 읽음) SMART 값을 확인하는 것이 좋습니다. 해당 원시 번호 또는보고 된 값이 표시되면 로트를 많이 변경하여 드라이브를 교체하기 시작합니다.


답변

아무 문제가 없습니다.

당신은 항상 실행할 수 있습니다

smartctl -t long /dev/yourdrive

그런 다음 몇 시간 후에 결과를 쿼리하십시오.

smartctl -a /dev/yourdrive

확인차.


답변

복구 된 IIRC 하드웨어 ECC는 디스크 읽기에서 오류를 수정하는 것으로 디스크에서는 드문 일이 아니며 이러한 이유로 정확하게 오류 수정 메커니즘으로 데이터를 인코딩합니다. 일부 컨트롤러는 디스크 섹터에서 중복 정보를 지원하고 또 다른 오류 수정 계층을 추가합니다.

Dave Cheney에 따르면 시간이 지남에 따라 수치를 모니터링해야합니다. 이러한 통계의 급격한 변화는 드라이브 고장을 나타냅니다. 또한 증가 된 결함 목록을 주시하십시오. 증가 된 결함 목록이 증가하기 시작하거나 SMART 통계가 크게 변경되기 시작하면 예방 적으로 드라이브를 교체해야합니다.


답변