지리적으로 분산 된 내결함성 및 "지능형"응용 프로그램 / 호스트 모니터링 시스템 수 있어야하며 호스트 당 1500-2500 개의

인사말,

분산 모니터링 시스템에 대한 의견과 견해를 묻고 싶습니다. 무엇을 사용하고 있으며 어떤 것이 내 박스를 체크 할 수 있는지 알고 있습니까?

요구 사항은 매우 복잡합니다.

단일 실패 지점이 없습니다. 정말. 나는 심각하게 죽었다! ‘마스터’및 ‘작업자’모두 단일 / 다중 노드 장애를 허용 할 수 있어야하며 모니터링 위치 ( “사이트”)에 여러 노드가 없거나 동일한 네트워크에 있다고 가정 할 수 있습니다. 따라서 이것은 아마도 DRBD 또는 Keepalive와 같은 전통적인 HA 기술을 배제 할 것입니다.
분산 논리, 여러 데이터 센터 및 여러 대륙에 여러 네트워크에 5 개 이상의 노드를 배포하고 싶습니다. 고객의 관점에서 네트워크 및 응용 프로그램에 대한 “새 눈”보기, 50 개 이상의 노드 또는 500 개 이상의 노드가있을 때 모니터링 논리에 대한 보너스 포인트가 저하되지 않습니다.
야구장 수치에 대해 상당히 합리적인 수의 호스트 / 서비스 확인 (la Nagios)을 처리 할 수 있어야하며 호스트 당 1500-2500 개의 호스트와 30 개의 서비스를 가정합니다. 더 많은 모니터링 노드를 추가하여 상대적으로 선형으로 확장 할 수 있다면 정말 좋을 것입니다. 아마도 5 년 안에 호스트 당 5000 개의 호스트와 40 개의 서비스를 모니터링하려고 할 것입니다! 위의 ‘분산 논리’에 대한 참고 사항을 추가하면 다음과 같이 말할 수 있습니다.
- 정상적인 상황에서 이러한 검사는 $ n 또는 n %의 모니터링 노드에서 실행해야합니다.
- 장애가 감지되면 다른 $ n 또는 n %의 노드에서 검사를 실행하고 결과를 상관시킨 다음이를 사용하여 경보를 발행하기위한 기준이 충족되었는지 여부를 판별하십시오.
그래프 및 관리 친화적 인 기능. SLA를 추적하고 ‘고 가용성’애플리케이션이 연중 무휴 24 시간 가동되는지 여부를 아는 것이 다소 유용합니다. 이상적으로 제안 된 솔루션은 최소한의 faff로 “즉시”보고해야합니다.
맞춤형 검사 개발을위한 견고한 API 또는 플러그인 시스템이 있어야합니다.
경고에 대해 합리적이어야합니다. 하나의 모니터링 노드가 코어 라우터가 다운 되었다는 것을 반드시 SMS를 통해 (3am!) 알고 싶지 않습니다 . 내가 않는 그들의 정의 비율이 알고 싶은 동의 뭔가 펑키이 벌어지고 있음) 기본적으로 제가 여기에 대해 이야기하고있는 것은 “쿼럼”논리, 또는 분산 광기에 정신의 응용 프로그램입니다!

상용 및 공개 소스 옵션을 모두 고려하고 싶습니다. 수백만 파운드의 비용이 드는 소프트웨어를 사용하지 않으려 고합니다 .-) 또한 모든 상자를 표시하는 아무것도 없을 수 있음을 인정합니다. 집단에게 물어보고 싶었습니다.

모니터링 노드와 배치에 대해 생각할 때, 이들 중 대부분은 임의의 ISP 네트워크에있는 전용 서버이므로 대부분 제어 할 수 없습니다. BGP 피드 및 기타 복잡한 네트워킹 기술에 의존하는 솔루션은 적합하지 않을 수 있습니다.

또한 Nagios, Zabbix 및 친구들을 포함하여 과거에 오픈 소스 맛의 대부분을 평가, 배포 또는 많이 사용 / 사용자 정의했음을 지적해야합니다.이 도구는 실제로 나쁜 도구는 아니지만 전체적으로 평평합니다. 특히 제 질문과 ‘지능적’경고에서 논의 된 논리와 관련하여 분산 된 측면입니다.

필요한 사항을 명확하게 설명해 드리겠습니다. 건배 남자와 여자 🙂

답변

실제로 대답은 아니지만 몇 가지 조언 :

nagios @ goldman sachs 에 관한 프리젠 테이션을 확인하십시오 . 중복성, 확장 성 : 수천 개의 호스트, 자동화 된 구성 생성이라는 문제에 직면했습니다.
중복 nagios 설정이 있었지만 훨씬 작은 규모-80 서버, 총 ~ 1k 서비스. 하나의 전용 마스터 서버, 하나의 슬레이브 서버가 하루에 몇 번 정기적으로 마스터에서 구성을 가져옵니다. 두 서버 모두 동일한 시스템의 모니터링을 다루었으며 서로간에 상태를 교차 점검했습니다. 나는 주로 맞춤형 제품 별 검사를 호출하기위한 프레임 워크로 nagios를 사용했습니다 [ ‘인공적인 흐름 제어’를 수행하는 스크립트를 실행하는 크론 작업, SQL에 기록 된 결과웨어, nrpe 플러그인이 마지막 x 분 동안의 실행을 성공적으로 / 실패했는지 확인하는웨어]. 모두 매우 훌륭하게 작동했습니다.
당신의 쿼럼 논리는 좋은 것 같습니다-나의 ‘인공적인 흐름’과 약간 비슷합니다-기본적으로 계속 진행합니다. 그리고 nrpe는 어떤 종류의 플래그를 확인하거나 [sql db with timestamp-status] 일을 어떻게하고 있는지 확인하십시오.
확장 가능한 계층 구조를 만들고 싶을 것입니다. 다른 노드의 개요를 수집하는 노드가 있으며 첫 번째 시점에서 프리젠 테이션을 봅니다. 모든 단일 검사에 대해 기본 nagios 분기는 모니터링되는 서비스 수가 많을수록 과도합니다.

몇 가지 질문에 대답하기 위해 :

필자의 경우 환경 모니터링은 마스터 마스터가 아닌 일반적인 마스터-슬레이브 설정 [primary sql 또는 app server + hot standby]이었습니다.
내 설정에는 ‘휴먼 필터링 팩터’-SMS 알림의 ‘백업’인 리졸버 그룹이 포함되었습니다. 다른 이유로 24/5 교대 근무 한 기술자 그룹이 이미 있었으며 너무 많은 부담을주지 않는 추가 작업으로 ‘nagios 메일 확인’을 받았습니다. 그리고 그들은 db-admins / it-ops / app-admins ware가 실제로 문제를 일으키고 고치는 것을 확인하는 책임을지고;-]
zabbix 에 대한 많은 좋은 소식을 들었 습니다. 트렌드를 경고하고 플로팅하는 데 사용했지만 결코 사용하지 않았습니다. 나를 위해 munin 은 트릭을 수행합니다. 나는 서버의 munin 목록에 ‘빨간색'[critical] 색상이 있는지 확인하는 간단한 nagios 플러그인 검사를 해킹했습니다. 추가 검사입니다. munin rrd-files에서 값을 읽을 수 있으므로 모니터링되는 시스템에 보내는 쿼리 수를 줄일 수 있습니다.

답변

당신이 요구하는 것은 Shinken이 Nagios를 위해 한 것과 매우 흡사합니다.

Shinken은 Nagios 재작 성입니다.

현대 언어 (Python)
최신 분산 프로그래밍 프레임 워크 (Pyro)
영역 (다중 테넌시), HA, 스페어 모니터링
Livestatus API
Nagios 플러그인 호환
기본 NRPE 실행
객체의 비즈니스 중요도
비즈니스 규칙을 객체 상태에 적용 할 수 있습니다 (클러스터 또는 풀 가용성 관리)
그래프는 흑연 또는 RRDtool 기반 PNP4nagios를 사용할 수 있습니다
대규모 환경에서 안정적으로 구축
대규모 배포에서는보고를 위해 Splunk와 페어링하거나 RRDtool이 적합하지 않은 Graphite를 살펴볼 수 있습니다.

이것은 생각을위한 음식이어야합니다.

건배

How IT

언제든지 물어보세요.

지리적으로 분산 된 내결함성 및 “지능형”응용 프로그램 / 호스트 모니터링 시스템 수 있어야하며 호스트 당 1500-2500 개의

답변

답변

답변