MCE 메시지에서 결함이있는 메모리 모듈을 찾는 방법은 무엇입니까?

서버에서 어떤 메모리 모듈이 나쁜지 찾기 위해 MCE 메시지를 이해하려고합니다. 이 메시지는 /var/log/kern.log오늘 두 번 중지되는 한 서버에 나타납니다 .

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error

메모리 모듈이 불량한 것 같습니다. 서버는 8x8Go 메모리 모듈 (각 CPU 당 8 개의 메모리 슬롯)이있는 2x Xeon E5-2650입니다.

다음의 메모리 모듈 인구는 다음과 같습니다 lshw.

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

알다시피, 뱅크 # 5에는 메모리 모듈이 없습니다. 그래서 제 질문은 :이 메시지가 메모리 실패에 관한 것이라는 데 동의하십니까? 그렇다면 교체 할 모듈을 어떻게 찾을 수 있습니까?



답변

이러한 오류는 장치의 EDAC-오류 감지 및 수정 edac_mc 클래스에서 발생합니다.

받고있는 이벤트는 CE 이벤트 (수정 가능한 오류)입니다. DIMM이 고장 나기 시작했음을 나타냅니다.

EDAC는 어떤 메모리 행 또는 채널이 참조하는지에 대한 특정 정보를보고하지 않았으므로 해당 메모리 행 또는 채널이 실패 할 때까지 어느 것을 교체해야하는지 말하기가 어렵습니다.

그러나 / sys / devices / system / edac / mc / mc *를 살펴보면 어느 행 / 딤이 잘못된 것인지에 대해 조금 더 알 수 있습니다.

예를 들어

ls -s /sys/devices/system/edac/mc/mc0
total 0
0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb
0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count
0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

ce_count 필드를보십시오.

참고 사항 :

시스템은 계속 작동 할 수 있지만 안전성은 떨어집니다. CE를 표시하는 메모리 DIMM의 예방 적 유지 보수 및 사전 부품 교체는 두려운 UE (정확한 오류) 이벤트 및 시스템 ‘패닉’의 가능성을 줄일 수 있습니다.

edac에 대한 자세한 정보는 다음과 같습니다.

https://www.kernel.org/doc/Documentation/edac.txt


답변

mcelog를 설치하고 데몬으로 실행하여 더 나은 보고서를 제공 할 수 있습니다. 그것들은 여전히 ​​cryptic하지만 culrpit DIMM을 찾기 위해 약간 더 많은 정보가 있습니다.

mcelog는 과도한 메모리 오류가있는 페이지를 비활성화하여 실시간 문제를 처리 할 수 ​​있으므로 시스템을 복구 할 수있을 때까지 더 오래 실행할 수 있습니다.


답변

일부 공급 업체는 특정 기간 동안 여러 수정 가능한 오류가 해를 끼치 지 않는다고 말합니다.

예를 들어, 오라클은 다음 이벤트 중 하나가 발생하면 DIMM을 교체한다고 말합니다.

  • 단일 DIMM에서 24 시간 이내에 24 개 이상의 수정 가능한 오류 (CE)가 발생하며 다른 DIMM에서 더 이상 CE를 표시하지 않습니다.

  • 수정 불가능한 메모리 오류 (UCE)로 인해 BIOS에서 DIMM이 메모리 테스트에 실패합니다.

  • UCE가 발생하고 조사에 따르면 오류는 메모리에서 시작된 것으로 나타납니다.

24 시간 내에 24 개의 오류를 확인하십시오.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

또한,

둘 이상의 DIMM에 여러 개의 CE가 발생한 경우, 자격을 갖춘 Sun 지원 전문가가 DIMM을 교체하기 전에 CE의 다른 가능한 원인을 배제해야합니다.

마지막으로 HP는 메모리 오류를 잘못 감지하는 서버 펌웨어 일 수있는 것과 비슷한 것을 말합니다. 대부분의 경우 펌웨어 업그레이드로 오 탐지 경고가 수정됩니다. 다른 DIMM에서 MCE를 받기 시작한 경우 특히 그렇습니다.


답변