나는 다음과 같은 메시지를 받았다 /var/log/messages
.
Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47
#smartctl -a /dev/sda
:
smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 110 088 006 Pre-fail Always - 28526210
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 24
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 471723621
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2520
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 41
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 068 052 045 Old_age Always - 32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius 0x0022 032 048 000 Old_age Always - 32 (0 27 0 0)
195 Hardware_ECC_Recovered 0x001a 047 045 000 Old_age Always - 105036390
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0
디스크에 오류가 발생하여 교체해야한다는 의미입니까? SMART 시험 결과의 해석에 대한 정보는 어디에서 읽을 수 있습니까?
답변
Spinrite 명성 의 Steve Gibson에 따르면 SMART 값은 순간적인 판독 치가 아니라 시간이 지남에 따라 측정되어야합니다. 즉, 값이 47 개월 인 경우 47의 값이 반드시 나쁘지는 않습니다. 그러나 값이 한 시간 전 42 초이고 빠르게 상승하면 드라이브가 데이터의 일부에 액세스하는 데 어려움을 겪고 있으며 곧 섹터를 읽을 수 없을 수도 있습니다. 해당 드라이브의 데이터 값에 따라 교체 할 수 있습니다.
답변
이 속성의 높은 값은 실제로 꽤 좋습니다.
하드웨어 ECC 복구 SMART 매개 변수는 ECC 수정 오류 사이의 시간을 나타냅니다.
https://kb.acronis.com/content/9131
답변
첫째, 더 낮은 값은 더 높은 값이 아닌 SMART에 대해 더 나쁩니다 (임계 값 열이 항상 현재 값보다 낮은 방법에 유의하십시오). 따라서 가치가 증가한다고해서 걱정할 필요는 없습니다. 그러나이 규칙은 원시 값에는 적용되지 않습니다.
SMART 값은 약간 진동하는 경향이 있습니다 (예를 들어 46에서 47 사이의 가장자리에있을 수 있으므로 작은 변경이라도 다른 값으로 전환 될 수 있음).
smartctl -a
출력에이 값이 45라는 최악 의 결과가 표시되므로 약간 위에 오실 레이션하는 것이 정상입니다.
자세한 정보는 Wikipedia : ATA SMART attributes를 참조하십시오 .
답변
Google이 수행 한 광범위한 연구조차도 SMART 오류로 많은 드라이브 오류가 예측되지 않았다는 것을 발견했습니다. 당신이 보는 것은 완벽하게 정상일 수 있지만, 각 제조업체는 원시 값을보고 된 값으로 변환하기위한 다른 메트릭을 가지고 있기 때문에 드라이브가 많은 오류를 경험하고 있는지 확실하게 말하기는 어렵습니다. 그러나 큰 숫자는 저에게 홀수입니다.
모든 드라이브를 읽고 (dd 또는 rsync를 새 드라이브로 읽음) SMART 값을 확인하는 것이 좋습니다. 해당 원시 번호 또는보고 된 값이 표시되면 로트를 많이 변경하여 드라이브를 교체하기 시작합니다.
답변
아무 문제가 없습니다.
당신은 항상 실행할 수 있습니다
smartctl -t long /dev/yourdrive
그런 다음 몇 시간 후에 결과를 쿼리하십시오.
smartctl -a /dev/yourdrive
확인차.
답변
복구 된 IIRC 하드웨어 ECC는 디스크 읽기에서 오류를 수정하는 것으로 디스크에서는 드문 일이 아니며 이러한 이유로 정확하게 오류 수정 메커니즘으로 데이터를 인코딩합니다. 일부 컨트롤러는 디스크 섹터에서 중복 정보를 지원하고 또 다른 오류 수정 계층을 추가합니다.
Dave Cheney에 따르면 시간이 지남에 따라 수치를 모니터링해야합니다. 이러한 통계의 급격한 변화는 드라이브 고장을 나타냅니다. 또한 증가 된 결함 목록을 주시하십시오. 증가 된 결함 목록이 증가하기 시작하거나 SMART 통계가 크게 변경되기 시작하면 예방 적으로 드라이브를 교체해야합니다.