SAN의“필수”여유 공간? 가상 디스크는 단일 LUN에 해당하며

저는 SAN 전문가가 아니며 공급 업체가 해결할 수없는 지속적이고 치명적인 문제에 대한 힌트를 얻기 위해이 글을 쓰고 있습니다.

비디오 감시 시스템 용으로 제공되는 16 x 2 Tb 디스크가있는 ENHANCE ES3160P4 SAN을 소유하고 있습니다. SAN은 공급 업체가 RAID 5 어레이 내에서 14 개의 디스크를 사용하도록 구성되었으며 2 개의 디스크가 전역 예비입니다. RAID는 일반적으로 전체 RAID 공간에 걸쳐있는 동일한 크기의 가상 디스크 2 개로 나뉩니다. 각각은 12 Tb 이상이됩니다. 각 가상 디스크는 단일 LUN에 해당하며 단일 LUN은 단일 비디오 서버에 연결되어 비디오 데이터를 지속적으로 저장하고 사용자가 필요할 때 녹화를 검색 할 수 있도록합니다. LUN은 NTFS로 포맷되며 iSCSI를 통해 Windows Server 2012 비디오 서버에 연결됩니다. 비디오 서버는 사용 가능한 공간을 완전히 사용하는 경향이 있습니다.

이 구성을 사용하면 SAN 디스크가 고장 나고 다른 디스크가 고장 나서 SAN이 RAID를 복구 할 수 없을 때마다 실패합니다. 지난 몇 달 동안 RAID를 4 번 잃었습니다.

이 문제는 SAN 샘플이 잘못 되었기 때문에 발생하지 않는 것 같습니다. 동일한 유형의 동일한 세 가지 시스템이 동일하게 구성되어 있기 때문에 동일한 문제가있는 것 같습니다. 오직 하나만 문제가 없지만 현재는 충분히 사용되지 않습니다.

몇 달 동안 알 수없는 테스트와 점검을 거친 후 공급 업체는 SAN을 100 % 사용해서는 안된다는 사실을 잘 알고 있거나 물리적으로 빠르게 성능이 저하 될 것이라고 말하면서 문제를 해결하기 위해 가상 디스크를 만들어야한다고 말했습니다. RAID에서 사용 가능한 총 공간의 10-15 %를 남겨 둡니다.

웹에서 문제를 검색했지만 이에 대한 구체적인 진술을 찾지 못했습니다. 전체 RAID에 걸쳐 가상 디스크를 생성 한 다음 LUN을 사용하지 않는 것이 더 합리적이라고 생각합니다 (즉, Windows에 여유 공간이 있고 조각화를 방지 할 수 있음). 그렇지 않다면, ENHANCE SAN이 여유 공간이 남아 있어야하는 “잘 알려진”경우 전체 RAID에 걸쳐 가상 디스크를 생성 할 수있는 이유와 공급 업체가 처음에 이와 같이 시스템을 구성한 이유를 이해할 수 없습니다. … 그러나 그것은 또 다른 요점입니다.

결국 우리는이 상황을 해결하고자합니다. 모든 제안이 수락됩니다. 말했듯이, 나는 SAN 전문가가 아니지만 많은 문제가 발생하면 더 이상이 상황을 받아 들일 수 없기 때문에 공급 업체가 진행 상황을 알고 있는지 여부를 실제로 이해하고 싶습니다.

미리 감사드립니다! 문안 인사

편집 : 디스크 유형
답에서 알 수 있듯이 디스크는 모두 Western Digital 모델 WD2001FYYG-01SL3이라고 덧붙입니다.



답변

당신이 묘사 한 것의 주된 문제는 그들이 큰 어레이에 대해 RAID5를 사용하기로 결정했다는 것입니다.이 설정에는 아주 나쁜 선택입니다. 이는 경험 한 이유입니다. 복구 중에 두 번째 디스크 장애가 발생하면 이 두 번째 실패는 그 위험을 감수 할 가능성이 너무 높습니다.

예를 들어 RAID6을 대신 사용하는 경우 복구 중에 두 번째 디스크 장애가 발생해도 어레이에 장애가 발생하지 않으며 순 스토리지 용량에 해당하는 디스크 하나의 비용과 특정 성능 영향으로 복구가 정상적으로 진행될 수 있습니다.

15 %의 여유 공간을 남겨두면이 문제에 어떤 도움이되는지 알 수 없으며 파일 시스템의 성능 관점에서 보면 좋은 아이디어 일 수도 있고 그렇지 않을 수도 있지만, 이는 실패한 RAID와는 관련이 없습니다. 나는 헛소리라고 부릅니다.

그러나 몇 달 동안 여러 번 이런 일이 발생하는 것은 RAID5 시스템에 비해 너무 많은 것으로 보입니다. 사용 된 디스크 유형을 살펴 보는 것이 좋습니다. 공급 업체가 그러한 시스템에서 사용하도록 인증 된 24/7 드라이브 대신 저렴한 데스크탑 드라이브를 사용했을 수 있습니다.


답변

나는 이것이 오래된 게시물이라는 것을 완전히 이해하고 있지만 프로덕션 환경에서 계속 큰 RAID5 어레이를 볼 때 여기에 내 생각을 추가하고 싶습니다.

  • 너무 자주 고장난 디스크는 일반적으로 과열 및 / 또는 너무 많은 진동의 경우로 엔지니어링이 잘 안된 시스템 또는 잘못된 위치에서 발견 될 수 있습니다.

  • 대형 RAID5 배열은되어야 강력하게 피했다. 일반적 으로 RAID5 + 핫 스페어가 아닌 RAID6 어레이를 사용하는 것이 훨씬 좋습니다. OP의 경우, 2 개의 전역 핫 스페어가있는 1 개의 패리티 디스크를 갖는 것이 아니라 RAID6 구성에 2 개의 패리티 디스크를 갖는 것이 훨씬 낫습니다.

  • 오류 및 상태보고를위한 안정적인 시스템을 갖추는 것이 중요합니다. 무의식적으로 저하되고 모니터링되지 않는 어레이는 재난을위한 레시피입니다.


답변