이것은 이상한 질문처럼 들릴지 모르지만 일부 동료들과 화려하게 논의되었습니다. 8 개 또는 12 개의 디스크로 구성된 적당한 크기의 RAID 어레이를 고려하십시오. 디스크의 초기 배치를 구매하거나 어레이를 확대하거나 하드웨어를 새로 고치기 위해 교체를 구매할 때 취할 수있는 두 가지 방법이 있습니다.
- 하나의 공급 업체에서 모든 드라이브를 한 번에 구입하고 모든 디스크가 들어있는 큰 상자 하나를받습니다.
- 다양한 공급 업체로부터 디스크 한 장을 주문하거나 한 번에 여러 디스크 주문을 며칠 또는 몇 주 동안 펼칩니다.
분명히 중간 근거가 있지만, 이것들은 주요 반대되는 사고 방식입니다. 필자는 어레이의 치명적인 장애 위험을 줄이는 관점에서 어떤 접근 방식이 더 합리적인지 궁금했습니다. ( “디스크의 25 %가 어레이를 한 번 리 실버 링하는 데 걸리는 시간과 동일한 시간 창 내에서 실패합니다.”라고 정의합니다.) 논리는 모든 디스크가 동일한 위치에서 온 경우 모두 동일 할 수 있습니다. 파업 대기중인 근본적인 결함. 원하는 경우 시계에서 동일한 초기 카운트 다운이있는 동일한 시한 폭탄.
각 접근 방식에 대해 몇 가지 일반적인 장단점을 수집했지만 그 중 일부는 확실한 증거 기반 데이터 대신 추측과 직감으로 느껴집니다.
한 번에 구매, 전문가
- 연구 / 주문 단계에서 소요되는 시간이 줄어 듭니다.
- 공급 업체가 청구 할 경우 운송 비용을 최소화합니다.
- 디스크는 작동 특성 (온도, 진동 등)에서 동일한 펌웨어 버전과 동일한 “쿼크”를 갖도록 보장됩니다.
- 가격 상승 / 재고 부족으로 인해 프로젝트가 중단 될 가능성은 거의 없습니다.
- 다음 각 디스크는 설치해야 할 시점에 준비되어 있습니다.
- 일련 번호는 모두 사전에 알려져 있으며 일련 번호가 증가하는 순서로 인클로저에 디스크를 설치할 수 있습니다. 지나치게 까다로운 것처럼 보이지만 일부 사람들은 그것을 소중하게 생각합니다. (관리 인터페이스가 하드웨어 포트 순서 대신 일련 번호로 디스크를 정렬한다고 생각합니다 …?)
한 번에 모두 사기
- 모든 디스크 (아마도)는 같은 재료로 제작 된 같은 공장에서 나왔습니다. 그것들은 같은 환경에 보관되었으며 운송 중 동일한 잠재적 남용의 대상이되었습니다. 하나의 결함이나 손상은 모두 존재합니다.
- 드라이브를 한 번에 하나씩 기존 어레이로 교체하고 각 새 디스크를 개별적으로 리 실버 링해야하는 경우 주문의 마지막 디스크가 설치되어 결함이 발견되는 데 몇 주가 걸릴 수 있습니다. 이 기간 동안 공급 업체와의 반품 / 교체 기간이 만료 될 수 있습니다.
- 프로젝트 중 발생할 수있는 미래의 가격 인하를 이용할 수 없습니다.
전문가, 개별 구매
- 한 디스크에 오류가 발생하면 다른 디스크와 제조 / 전송 기록이 거의 공유되지 않습니다. 제조 또는 운송 과정에서 문제가 발생한 경우 다른 디스크에서 근본 원인이 발생하지 않았을 가능성이 있습니다.
- 디스크가 도착하자 죽었거나 첫 사용 시간 동안 고장난 경우, 배송이 도착한 직후에 디스크가 감지되어 반품 프로세스가 더 순조롭게 진행될 수 있습니다.
개별 구매, 단점
- 합리적인 가격으로 충분한 공급 업체를 찾으려면 상당한 시간이 걸립니다. 주문 추적, 배송 실패, 손상된 제품 반품 및 기타 문제는 해결하는 데 시간이 오래 걸릴 수 있습니다.
- 잠재적으로 더 높은 운송 비용.
- 새로운 디스크가 필요하지만 프로젝트를 멈추게 할 수있는 디스크는 없을 것입니다.
- 이점을 상상해보십시오. 구입 한 공급 업체 나 날짜에 관계없이 모든 디스크는 같은 위치에서 왔으며 실제로는 동일합니다. 제조 결함은 품질 관리에 의해 감지되었으며 표준 디스크는 판매되지 않았을 것입니다. 운송 손상은 포장을 풀 때 손상된 드라이브가 분명해 지도록 엄청나게 육안으로 볼 수 있어야합니다.
우리가 단순히 총알 포인트 수로 가면 “대량 구매”가 아주 명확하게 이깁니다. 그러나 일부 장점은 약하고 일부 단점은 강합니다. 많은 글 머리 기호는 단순히 다른 것들의 논리적 역수를 나타냅니다. 이러한 것들 중 일부는 어리석은 미신 일 수 있습니다. 그러나 미신이 배열 무결성을 유지하는 데 더 나은 작업을 수행한다면 기꺼이 함께 할 것입니다.
어떤 그룹이 여기에서 가장 현명합니까?
업데이트 : 이 토론과 관련된 데이터가 있습니다. 제가 개인적으로 지은 마지막 배열 (약 4 년 전)에는 8 개의 디스크가있었습니다. 하나의 공급 업체에서 주문했지만 구매를 한 달 간격으로 각각 4 개의 디스크 주문 두 개로 나누었습니다. 첫 번째 실행 시간 내에 어레이의 디스크 하나에 장애가 발생했습니다. 첫 번째 배치에서 왔으며 모든 주문을 처리하는 데 걸리는 시간에 해당 주문의 반품 기간이 마감되었습니다.
4 년 후에도 7 개의 원본 디스크와 1 개의 교체 디스크가 여전히 오류없이 실행됩니다. (나무를 두 드린다.)
답변
실제로 엔터프라이즈 공급 업체 (HPE, Dell 등)에서 구매하는 사람들 은 이에 대해 걱정하지 않습니다 .
이러한 공급 업체가 공급 한 드라이브는 이미 동일한 부품 번호로 여러 제조업체에 분산되어 있습니다.
특정 SKU 하의 HP 디스크는 HGST 또는 Seagate 또는 Western Digital 일 수 있습니다.
동일한 HP 부품 번호, 제조업체 변형, 로트 번호 및 펌웨어
그러나 배치 실패 가능성을 능가하려고 시도해서는 안됩니다. 마음의 평안을 주면 시도해 볼 수 있지만 노력할 가치가 없을 수도 있습니다.
클러스터링, 복제 및 솔리드 백업과 같은 모범 사례는 배치 오류를 실제로 방지합니다. 따뜻한 것과 차가운 여분을 추가하십시오. 시스템을 면밀히 모니터링하십시오. ZFS와 같은 스마트 파일 시스템 활용 🙂
그리고 하드 드라이브 고장이 항상 기계적인 것은 아닙니다.
답변
ewwhite의 답변과 달리 일부 sysadmin은 일괄 적으로 주문합니다. 나는 결코 개인적으로 드라이브를 주문하지 않을 것이지만, 내가 그런 능력을 발휘 한 마지막 장소의 표준 작전은 드라이브를 배치로 주문하는 것이 었습니다. 12 개의 드라이브 머신의 경우 SOP는 드라이브를 3 개의 배치로 분할하여 머신에 3 계층 이중화 프로파일을 제공하도록 지시했습니다.
그러나 내가 상담 한 다른 작은 의상은 다른 프로토콜을 따르고 일부는 배치와 관련이 없으며 일부는 배치를 2 ~ 4 개의 어레이로 나눕니다. 짧은 대답은 당신이 달성해야 할 서비스 수준에 적절한 느낌을주는 것입니다.
참고 : 내가 일한 마지막 장소는 확실히 옳은 일이었습니다. 앱 스토리지 시스템은 전체 드라이브 배치에서 실패하기로 결정했으며이 특정 배치는 모두 동일한 오류가 있음을 발견했습니다. 배치 프로토콜을 따르지 않았다면 심각한 데이터 손실이 발생했을 것입니다.
답변
죽어가는 어레이와 어려운 드라이브를 처리하는 데 많은 시간을 소비 한 사람의 정직한 답변 : 피할 수 있다면 모든 드라이브를 같은 배치에 두지 마십시오.
내 경험은 회전 디스크에만 적용되며, SSD에는 대량 주문시 고려해야 할 고유 한 문제와 이점이 있습니다.
정확히 처리하는 가장 좋은 방법은 주로 작업하는 어레이의 크기에 달려 있습니다 .2 개의 드라이브 중복성을 가진 6 개의 드라이브 어레이와 함께 작업하는 경우 3 제조업체의 유사한 드라이브를 안전하게 구입하여 어레이를 분할 할 수 있습니다 그렇게
이상한 드라이브를 사용하거나 쉽게 분할 할 수없는 어레이를 사용하는 경우 다른 공급 업체에서 동일한 드라이브를 구입하는 것과 같은 다른 접근법을 시도하거나 대량으로 구매하는 경우 살펴볼 수 있습니다 함께 제조 될 가능성에 따라 드라이브를 분리하십시오.
올바른 기본 기술로 작은 어레이를 실행하는 경우 이기종 디스크 공급 장치에서 점진적으로 구축하는 것이 좋습니다. 한 달 또는 두 달 후 또는 시스템을 채울 때 최소한의 드라이브 수로 시작하여 다음 공급 장치를 구입하십시오. 또한 선택한 특정 모델과 관련하여 발생할 수있는 문제에 대해 알아볼 수 있습니다.
이 조언의 이유는 두 가지 단점이 있습니다.
-
원점이 비슷한 드라이브가 많을 때 MTBF가 현저히 손상되었습니다. 통계에서는 샘플의 유사성 때문에 평균화 효과가 덜 유용한 경향이있는 샘플링 바이어스라고합니다. 배치 또는 설계 자체에 결함이 있고 생각보다 자주 발생하는 경우 MTBF가 제안한 것보다 해당 배치의 드라이브가 더 빨리 실패합니다.
드라이브가 분산 된 경우 MTBF의 [50 %, 90 %, 120 %, 200 %]를 얻을 수 있지만 모든 드라이브가 해당 50 % 배치에서 나온다면 손이 엉망입니다.
-
RAID 배열 재 조립으로 디스크가 종료됩니다. 아뇨 드라이브 장애가 발생하고 어레이가 재 구축되면 다른 드라이브에서 데이터를 스캔하는 동안 다른 드라이브에 추가로드를가합니다. 드라이브가 고장에 가까우면 재 구축시 드라이브를 꺼내거나 이미 해당 섹션을 읽지 않았기 때문에 알지 못하는 고장 위치가 이미있을 수 있습니다.
동일한 배치에서 많은 드라이브를 사용하는 경우 이러한 종류의 캐스케이드 오류가 발생할 가능성이 다른 경우보다 훨씬 높습니다. 사용중인 어레이 유형에 대해 권장되는 방법이 무엇이든 정기 순찰 스캔, 문지르 기, 리 실버 링을 통해이를 완화 할 수 있지만 단점은 성능에 영향을 미치며 완료하는 데 몇 시간이 걸릴 수 있다는 것입니다.
Backblaze는 드라이브의 수명이 얼마나 다른지에 대한 정황에 대해 정기적 인 드라이브 오류 통계 보고서를 작성합니다. 나는 어떤 방식 으로든 회사와 관련이 없지만 드라이브 안정성의 주제에 대해 무엇을 말하고 있는지 알아야합니다. . 예를 들어 https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ … 샘플 세트가 더 작을 수 있으므로 외부 데이터가 자신의 경험을 망칠 수 있습니다. 좋은 참조.
답변
몇 년 전에 고객에게이 문제를 고려해야했습니다. 다중 소스에 대한 권장 사항을 백업하기 위해 실용적인 경험과 연구가 결합되어 있습니다.
신중함은 ewwhite의 탁월한 답변 뿐만 아니라 현재 장단점을 따로 설정 하여 드라이브를 직접 구매하는 경우 멀티 소스를 제공한다고 제안합니다. RAID 약점에 대한 Wikipedia 토론을 간단히 살펴보면 흥미로운 두 가지 참조가 있습니다.
첫 번째 참조는 ACM 용지 RAID : 고성능, 안정적인 2 차 스토리지 (Chen, Lee, Gibson, Katz 및 Patterson. ACM Computing Surveys. 26 : 145-185)입니다. 3.4.4 절에서 저자는 하드웨어 고장이 통계적으로 독립적 인 사건은 아니며 그 이유를 제시한다. 이 답변을 작성할 때이 논문은 온라인으로 제공됩니다. pp 19-22는 신뢰성에 대해 논의합니다 ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889 ).
두 번째 참조는 실제 세계의 디스크 오류입니다. 1,000,000 시간의 MTTF는 무엇을 의미합니까? (Schroeder, Gibson. 파일 및 스토리지 기술에 관한 제 5 회 USENIX 회의) 저자는 독립적 인 이벤트에 대해 예측 된 것보다 높은 속도로 드라이브 장애가 시간 내에 클러스터링 될 수 있다는 주장을 백업하기위한 통계 데이터를 제시합니다. 이 답변을 작성하는 시점에서이 백서는 온라인으로도 제공됩니다 ( https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html ).
Dell은 대규모 디스크 환경에서 관련된 디스크 오류로 인해 2012 년에 RAID 5에 대해 명시 적으로 권장했습니다. RAID 6은 2019 년경 비슷한 이유로 신뢰할 수 없게 될 것으로 예상됩니다 (ZDNet 기사 : “why-raid-6-stops-working-in-2019”: http://www.zdnet.com/article/why-raid-6 -2019 년 근무 중지 / ). 이 두 가지의 핵심 요소는 디스크 크기와 재 구축 시간이지만 RAID 5 문제를 완화하기 위해 더 작은 드라이브 크기와 멀티 소싱 이 권장되었습니다.
따라서 가능하면 드라이브를 다중 소스하십시오. ewwhite의 답변에 설명 된대로 엔터프라이즈 공급 업체로부터 구매하는 경우 이는 투명하게 발생할 수 있습니다. 그러나 … 고객이 엔터프라이즈 공급 업체로부터 2TB 드라이브 16 개를 구입했습니다. 그들은 방금 동일한 제조업체에서 생산되었으며 동시에 제조 된 것으로 보입니다. RAID01 어레이를 구성한 후 2 주 내에 드라이브 중 2 개가 고장났습니다. 따라서 드라이브를 받으면 확인하십시오. (어쨌든 이미 확인 했습니까?)
답변
드라이브를 개별적으로 주문할 때 발생할 수있는 또 다른 단점은 포장 및 취급입니다.
하드 드라이브는 거의 소매 포장으로 제공되지 않습니다. 한 번에 하나씩 구입하면 판매자가 거의 다시 포장합니다. 나는 매우 가변적 으로이 repackaging을 발견했습니다. 때때로 당신은 많은 패딩으로 멋진 상자를 얻지 만 다른 시간에는 거의 패딩을 얻지 못합니다.
더 작은 상자는 명백한 외적 손상없이 운송 업체가 던지기에 더 취약합니다.
답변
“불량 배치”시나리오를 완화하려는 경우, 특정 구매 배치의 모든 드라이브가 거의 동시에 고장 나거나 고장날 수 있음을 의미하는 경우, 어레이의 크기와 사용중인 RAID 레벨을 고려해야합니다.
여러 주문을 고려하는 경우, 모든 표준에 적용되는 표준은 없습니다. 2 ~ 4 개의 구매 계층을 권장하는 사람들은 드라이브의 전체 계층이 하나라도 고장 나더라도 어레이가 온라인 상태인지 스스로에게 문의해야합니다. 따라서 1/5/10/50과 같은 중복 RAID 레벨의 경우 한 번에 드라이브 1을 구입해야합니다. RAID6의 경우 한 번에 2 개를 구입할 수 있습니다.
정기적으로 백업하는 드라이브를 구입하고 어레이 크기 및 RAID 유형에 적합한 핫 / 콜드 스페어를 구입하는 방법에 관계없이 권장합니다.
답변
나는 항상 중고 / 대량을 구매합니다. 내가 추적하는 주문은 거의 항상 동일한 장치 모델이며 적어도 사용되는 것은 “배치 불량”에 대한 우려를 완화합니다. 웹에 떠 다니는 Fire-sale 하드웨어가 너무 많아 미션 크리티컬 하드웨어가 아닌 한 새로운 드라이브 (또는 그 문제에 대한 다른 것) 구매를 정당화하는 데 어려움을 겪고 있습니다 (모든 백업 하드웨어는 여전히 개조되었습니다!)
+ PRO : 경쟁력있는 온라인 가격과 변화하는 비즈니스 환경으로 인한 하드웨어의 지속적인 홍수로 인해 작업 환경에서 소매점을 50 ~ 80 % 할인 된 가격으로 구입할 수 있습니다.
+ PRO : 저렴한 가격으로 교체 하드웨어의 과잉 구매 및 유지 보수를위한 예산을 확보합니다.
+ PRO : 판매자 관계 이미 온라인 / 소비자 하드웨어에 대해 이미 상당한 할인 혜택을 받고 약간 할인 된 온라인 판매자가 있습니다. 대량으로 구매하거나 SLA를 가지고 있지 않는 한 일반적으로 Monoprice로 얻을 수는 없습니다. 또한 특히 하드 드라이브의 경우 즉시 테스트해야합니다. 판매자가 DOA 하드웨어를 환불하거나 교체하지 않는 문제는 없었습니다 (사기 실패가 아닌 한).
-CON : 보증, 적법성 문제 보증은 장치의 제조일을 기준으로하며, 브랜드, 복제품 등을 판매하려는 온라인 사기꾼에 대해서도주의를 기울여야합니다.
-CON : 테스트 테스트 오버 헤드를 고려해야합니다. 어쨌든 새로운 하드웨어도 테스트해야하므로 이것이 적용되는지 확실하지 않습니다.
-CON : 판단하기 어려운 수명; 디스크 장애에 약간 더 민감합니다.
참고 : 클라이언트 빌드이고 명시 적으로 리퍼브 / 사용 요청을하지 않으면 항상 반짝임 / 새로 작성하십시오!