NexentaStor 스토리지 장치로 실행 되는 HP ProLiant DL380 G7 서버가 있습니다. 이 서버에는 36GB RAM, 2 개의 LSI 9211-8i SAS 컨트롤러 (SAS 확장기 없음), 2 개의 SAS 시스템 드라이브, 12 개의 SAS 데이터 드라이브, 핫 스페어 디스크, Intel X25-M L2ARC 캐시 및 DDRdrive PCI ZIL 가속기가 있습니다. 이 시스템은 여러 VMWare 호스트에 NFS를 제공합니다. 또한 어레이에 약 90-100GB의 중복 제거 된 데이터가 있습니다.
VM 게스트와 Nexenta SSH / 웹 콘솔에 액세스 할 수 없게하고 기능을 복원하기 위해 어레이를 완전히 재부팅해야하는 두 가지 사고가 발생했습니다. 두 경우 모두 인텔 X-25M L2ARC SSD가 실패하거나 “오프라인”되었습니다. 캐시 오류에 대해 NexentaStor가 경고하지 못했지만 응답이없는 콘솔 화면에 일반 ZFS FMA 경고가 표시되었습니다.
zpool status
출력했다 :
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
이것은 Nexenta 내에서 경고를 트리거하지 않았습니다.
L2ARC 장애가 시스템에 영향을 미치지 않을 것이라는 인상을 받았습니다. 그러나이 경우 분명히 범인이었습니다. RAID L2ARC에 대한 권장 사항을 본 적이 없습니다. 서버에서 불량 SSD를 완전히 제거하면 다시 실행되지만 장치 오류의 영향 (NexentaStor의 알림이 없음)에 대해 걱정하고 있습니다.
편집 – 요즘 L2ARC 캐시 애플리케이션을위한 현재 최고의 선택 SSD는 무엇입니까?
답변
ZFS는 디스크 I / O를 수행하지 않으며 ZFS 아래의 장치 드라이버는 디스크 I / O를 수행합니다. 장치가 적시에 응답하지 않거나이 경우 확장기의 다른 모든 장치가 중단되면 ZFS에 장애로 표시되지 않습니다. 모든 ZFS는 I / O가 느립니다.
Intel X-25M 펌웨어에는 과부하가 걸리는 동안 동작에 영향을 미치고 재설정 폭풍이 발생할 수있는 버그가 있습니다. 이 문제는 모든 OS에 영향을 미치며 OS 계층에서 해결할 수 없습니다. 수정 또는 수정에 대해서는 하드웨어 공급 업체에 문의하십시오.
L2ARC에 의해 판독이 만족 될 것으로 예상되면, 판독이 시도 될 것이다. 그런 다음 ZFS는 하위 계층 드라이버를 사용하여 오류를보고합니다. 이 경우 드라이버, 장치 및 기본 시간 초과 설정에 따라 드라이브가 5 분 동안 계속 재설정되고 다시 시도하여 I / O가 실패한 것으로 선언됩니다. 하위 계층 드라이버가 I / O를 실패로 선언 한 후에 만 ZFS가 풀에서 재 시도합니다.
NexentaStor의 볼륨 확인 및 디스크 확인 러너는 추가 오류 메시지를 찾고 이메일 및 오류 로깅을 통해 경고합니다. 디스크 검사 러너는 3.1 릴리스에서 SSD의 펌웨어가 손상되어 나타나는 상태를 구체적으로 알려주기 위해 개선되었습니다.
결론 : 하드웨어에 결함이 있으므로 수정하거나 교체해야합니다.
답변
X25-M SSD를 후면 판에 연결하고 있습니까? Nexenta에 알려진 문제가 있으며 백플레인을 통해 L2ARC에 액세스합니다. 가장 좋은 방법은 SSD를 마더 보드의 SATA 포트에 직접 연결하는 것입니다. AHCI도 사용하도록 구성되어 있는지 확인하십시오.
이 서버에서 미션 크리티컬을 실행중인 경우 SLC SSD (예 : X25-E 또는 STEC SSD)로 전환합니다. 그러나 X25-M이 아니라면 아마도 괜찮을 것입니다.
답변
에드, 당신은 비교적 합리적인 가격에서 꽤 대담한 가격에 이르기까지 다양한 것을 사용할 수 있습니다. 나는 모든 경우에 SAS SSD를 배치하는 것을 선호하며 STEC와 Pliant와 함께 잘 해냈습니다. 두 제품 모두 L2ARC 장치가있는 MLC 드라이브를 제공합니다. 아직 테스트되지 않았지만 곧 출시 될 SLC SAS 2.0 인 Seagate의 SSD 제품은 “비싸지 않다”는 소문이 있습니다. 지켜봐 주시기 바랍니다 ….
-PB