ZFS-L2ARC 캐시 장치 오류의 영향 (Nexenta) ONLINE

NexentaStor 스토리지 장치로 실행 되는 HP ProLiant DL380 G7 서버가 있습니다. 이 서버에는 36GB RAM, 2 개의 LSI 9211-8i SAS 컨트롤러 (SAS 확장기 없음), 2 개의 SAS 시스템 드라이브, 12 개의 SAS 데이터 드라이브, 핫 스페어 디스크, Intel X25-M L2ARC 캐시 및 DDRdrive PCI ZIL 가속기가 있습니다. 이 시스템은 여러 VMWare 호스트에 NFS를 제공합니다. 또한 어레이에 약 90-100GB의 중복 제거 된 데이터가 있습니다.

VM 게스트와 Nexenta SSH / 웹 콘솔에 액세스 할 수 없게하고 기능을 복원하기 위해 어레이를 완전히 재부팅해야하는 두 가지 사고가 발생했습니다. 두 경우 모두 인텔 X-25M L2ARC SSD가 실패하거나 “오프라인”되었습니다. 캐시 오류에 대해 NexentaStor가 경고하지 못했지만 응답이없는 콘솔 화면에 일반 ZFS FMA 경고가 표시되었습니다.

여기에 이미지 설명을 입력하십시오

zpool status출력했다 :

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL

errors: No known data errors

이것은 Nexenta 내에서 경고를 트리거하지 않았습니다.

L2ARC 장애가 시스템에 영향을 미치지 않을 것이라는 인상을 받았습니다. 그러나이 경우 분명히 범인이었습니다. RAID L2ARC에 대한 권장 사항을 본 적이 없습니다. 서버에서 불량 SSD를 완전히 제거하면 다시 실행되지만 장치 오류의 영향 (NexentaStor의 알림이 없음)에 대해 걱정하고 있습니다.

편집 – 요즘 L2ARC 캐시 애플리케이션을위한 현재 최고의 선택 SSD는 무엇입니까?



답변

ZFS는 디스크 I / O를 수행하지 않으며 ZFS 아래의 장치 드라이버는 디스크 I / O를 수행합니다. 장치가 적시에 응답하지 않거나이 경우 확장기의 다른 모든 장치가 중단되면 ZFS에 장애로 표시되지 않습니다. 모든 ZFS는 I / O가 느립니다.

Intel X-25M 펌웨어에는 과부하가 걸리는 동안 동작에 영향을 미치고 재설정 폭풍이 발생할 수있는 버그가 있습니다. 이 문제는 모든 OS에 영향을 미치며 OS 계층에서 해결할 수 없습니다. 수정 또는 수정에 대해서는 하드웨어 공급 업체에 문의하십시오.

L2ARC에 의해 판독이 만족 될 것으로 예상되면, 판독이 시도 될 것이다. 그런 다음 ZFS는 하위 계층 드라이버를 사용하여 오류를보고합니다. 이 경우 드라이버, 장치 및 기본 시간 초과 설정에 따라 드라이브가 5 분 동안 계속 재설정되고 다시 시도하여 I / O가 실패한 것으로 선언됩니다. 하위 계층 드라이버가 I / O를 실패로 선언 한 후에 만 ​​ZFS가 풀에서 재 시도합니다.

NexentaStor의 볼륨 확인 및 디스크 확인 러너는 추가 오류 메시지를 찾고 이메일 및 오류 로깅을 통해 경고합니다. 디스크 검사 러너는 3.1 릴리스에서 SSD의 펌웨어가 손상되어 나타나는 상태를 구체적으로 알려주기 위해 개선되었습니다.

결론 : 하드웨어에 결함이 있으므로 수정하거나 교체해야합니다.


답변

X25-M SSD를 후면 판에 연결하고 있습니까? Nexenta에 알려진 문제가 있으며 백플레인을 통해 L2ARC에 액세스합니다. 가장 좋은 방법은 SSD를 마더 보드의 SATA 포트에 직접 연결하는 것입니다. AHCI도 사용하도록 구성되어 있는지 확인하십시오.

이 서버에서 미션 크리티컬을 실행중인 경우 SLC SSD (예 : X25-E 또는 STEC SSD)로 전환합니다. 그러나 X25-M이 아니라면 아마도 괜찮을 것입니다.


답변

에드, 당신은 비교적 합리적인 가격에서 꽤 대담한 가격에 이르기까지 다양한 것을 사용할 수 있습니다. 나는 모든 경우에 SAS SSD를 배치하는 것을 선호하며 STEC와 Pliant와 함께 잘 해냈습니다. 두 제품 모두 L2ARC 장치가있는 MLC 드라이브를 제공합니다. 아직 테스트되지 않았지만 곧 출시 될 SLC SAS 2.0 인 Seagate의 SSD 제품은 “비싸지 않다”는 소문이 있습니다. 지켜봐 주시기 바랍니다 ….

-PB