태그 보관물: smartctl

smartctl

내 하드 드라이브가 고장입니까?

방금 hdd에서 테스트를 시도했지만 자체 테스트를 완료하고 싶지 않습니다. 결과는 다음과 같습니다.

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

이 디스크가 고장 났습니까?



답변

당신의 운전은자가 진단을하는 것을 매우 기쁘게 생각합니다. 요약하면 지난 1 시간 동안 5 개 이상을 수행했습니다. 그리고 모두 테스트 초기에 읽기 오류로 실패했습니다.

예,이 하드 드라이브는 고장입니다. 유명한 Google 실험실 보고서에 따르면 (현재 링크를 손에 넣을 수는 없지만) smartctl드라이브가 고장 났다고 말하면 아마도 (I)입니다.

편집 : 저장하지 마십시오. 모든 데이터를 가져 와서 교체하십시오.


답변

질문에 대답하기 위해 SMART 테스트 실패는 임박한 드라이브 오류를 확실하게 나타냅니다. 잠재적 인 데이터 손실을 방지하려면 가능한 빨리 데이터를 백업하고 드라이브를 교체해야합니다.

@ sj0h는 447,630에서 매우 높은로드 사이클 수를 언급했습니다. (대부분의 최신 하드 드라이브는 600,000 번의로드 / 언로드주기를 견딜 수 있도록 설계되었습니다.) 이는 일반적으로 APM (Advanced Power Management) 기능으로 인해 발생합니다.이 기능은 몇 초 후 게으른. 필요할 때 헤드가 플래터에 다시 장착됩니다. 하드 드라이브가 간헐적 인 온 / 오프 활동을하는 대부분의 시스템에서 이로 인해 많은로드 / 언로드주기가 발생할 수 있습니다. APM을 끄려면 루트 프롬프트에서 다음 명령을 실행하십시오.

smartctl -s apm,off /dev/sda

이 명령은 시스템 전원을 껐다 켜거나 절전 모드로 전환하거나 드라이브 전원을 끌 때마다 실행해야합니다.이 설정은 드라이브를 끌 때 유지되지 않기 때문입니다.

내 경험상 이렇게하면로드 / 언로드주기 수가 대폭 줄어들고 결과적으로 나중에 이런 종류의 장애가 다시 발생할 가능성이 줄어 듭니다. 그러나 이렇게하면 전력 소비와 드라이브 온도가 증가합니다. 드라이브가 50 ° C를 초과하는 온도에서 지속적으로 작동하는 경우 조기 고장의 위험이 높아 지므로 더 따뜻한 달에는 APM을 켜두거나 끄면 켜야 할 수 있습니다.


답변

읽기 오류 외에도로드 사이클 수도 고려하십시오. 거의 500,000에서 이것은 고장의 원인 또는 적어도 높은로드 사이클 마모를 나타낼 수 있습니다. 전원을 켤 때마다 1 분마다로드주기가 있습니다. 드라이브를 교체 한 후 새 드라이브에서도이 작업을 수행하고 있지 않은지 확인하십시오.


답변

예, 읽을 수없는 16 개의 섹터가 있습니다. 드라이브의 거의 같은 영역에서 모두 실패한 몇 가지 테스트를 수행하려고했기 때문에 백업 속도는 빠르지 만 지금은 근처에 머무르면 데이터에 액세스 할 수 없습니다. 섹터 92290592, 92290596.

다른 문제가있는 영역이있을 수 있지만 16 개 섹터가 연속적이거나 확산되어 있는지 알 수 없으며 백업 후 재생하려면 -t select, startlba-endlba를 사용하여 선택적 자체 테스트를 수행 할 수 있습니다.

Current_Pending_Sector는 하드 디스크 펌웨어가 읽기를 시도했지만 실패 할 때까지 실패한 후이를 Offline_Uncorrectable로 표시하거나 다른 예비 섹터로 손상된 섹터를 대체 할 때까지 (OS가 요청할 때마다) 하드 디스크 펌웨어를 읽었 음을 의미합니다. OS가 그것에 기록합니다 (따라서 Reallocated_Sector_Ct가 증가합니다).


답변

나는 개인적으로 드라이브를 교체 할 것입니다. 어떤 이유로 아직 그렇게하고 싶지는 않지만 드라이브에 아직 머물러 있으면 실수로 새 파일에 잘못된 영역을 사용하지 않는 방법이 필요합니다.

나는 비디오를 기록하는 오래된 Mac에서 그런 드라이브를 가지고 있었고 비디오가 좋기 때문에 아직 변경하고 싶지 않다고 결정했습니다. 따라서 오류를 격리해야했습니다. 먼저 나쁜 파일에 대해서만 빈 폴더를 만든 다음 디스크에있는 기존 파일을 모두 읽으려고했고 오류가있는 파일은 bad-files-directory로 옮겨졌습니다 (중요하지 않은 것).

그런 다음 하드 드라이브를 채우기 위해 고유 한 이름의 1MB 파일을 많이 만들었습니다 (따라서 모든 빈 공간은 이제이 1MB 파일 중 하나였습니다). 오류가있는 모든 파일이 불량 파일 디렉토리로 이동되었으며 남은 파일이 양호하여 불량 공간을 되찾기 위해 삭제 될 수 있습니다.

이제 드라이브를 조금 더 오래 사용할 수 있지만 중요한 용도로는 사용하지 마십시오. 그것은 보다 실패가 발생했을 때 그것은 가장 가능성이 불편할 수 있습니다.


답변

이것은 좋은 신호가 아닙니다. 디스크의 내용을 백업하고 디스크를 중요한 용도로 사용하지 않아야합니다.

그러나 섹터를 재 할당하고 수년 동안 작동 상태를 유지하는 데 실패한 섹터가있는 디스크를 보았으므로 중요하지 않은 항목이나 추가 백업과 같이 잠시 동안 유지할 수 있습니다.

한 가지해야 할 일은 읽을 수없는 섹터에 의해 어떤 파일이 손상되었는지 확인하고 디스크에 의해 재 할당을 강제하기 위해이 섹터에 기록하는 것입니다 ( “Current_Pending_Sector”에서 “Reallocated_Sector_Ct”로 이동). Linux를 사용하는 경우 http://smartmontools.sourceforge.net/badblockhowto.html을 참조 하십시오 . 섹터가 재 할당되면 자체 테스트는 더 읽을 수없는 섹터를 통과하거나보고해야합니다.

나는 불량 섹터가 반드시 임박한 실패를 나타내는 것이라고 생각하지 않는다는 점에서 대부분의 답변에 동의하지 않습니다 . 으로 http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/는 말한다, “모든 하드 드라이브 시작은 인생의 어느 시점에서 불량 섹터를 생성하는 방법”을 참조하십시오.


답변