1
모니터 엔지니어링 목표
좋은 모니터는 단순히 임계치를 넘는 것을 감지하는 도구가 아니라, 정확한 타이밍에 정확한 사람에게 실행 가능한 알림을 전달하는 시스템입니다.
실무 기준 3가지
- Actionable: 알림 메시지에 대응 방법(대시보드 링크, 런북, 오너)이 포함되어야 합니다.
- Accurate: 실제 사용자 영향과 상관없는 노이즈 알림 비율을 줄여야 합니다.
- Accountable: 모니터별 Owner/Review 주기를 명시해서 방치 모니터를 없애야 합니다.
Alert Policy 문장 템플릿
모든 모니터는 아래 문장을 채울 수 있어야 합니다.
When [condition] happens for [window],
notify [team/channel] because [user impact],
and run [playbook link].
2
신호 품질 지표
Datadog 모니터 품질을 정량화하면 "느낌 기반 튜닝"이 아니라 "데이터 기반 튜닝"으로 전환할 수 있습니다.
Precision
알림 중 실제 장애 비율
TP / (TP + FP)
Recall
실제 장애 중 감지한 비율
TP / (TP + FN)
MTTA
경보 후 담당자 인지 시간
ack_ts - alert_ts
운영 팁
Precision이 0.5 미만이면 우선순위가 높은 모니터부터 조건을 강화하세요. Recall이 낮으면 감지 범위를 넓히고, MTTA가 높으면 라우팅 채널/온콜 정책을 조정해야 합니다.
3
Datadog 모니터 설계 패턴
상황별 추천 모니터 타입
| 상황 | 권장 타입 | 설계 포인트 |
|---|---|---|
| 고정 SLO 위반 | Metric Threshold | 평균이 아닌 p95/p99 사용 |
| 급격한 변동 | Change / Outlier | 기준선 대비 상승폭 감지 |
| 계절성 패턴 | Anomaly | 요일/시간대 패턴 학습 필요 |
| 복합 조건 | Composite | 신호 조합으로 노이즈 억제 |
# 예시: 에러율 + 트래픽 최소치 복합 조건
A = sum(last_5m):sum:trace.http.request.errors{service:checkout}.as_count()
/ sum:trace.http.request.hits{service:checkout}.as_count() > 0.03
B = sum(last_5m):sum:trace.http.request.hits{service:checkout}.as_count() > 200
Composite = A && B
안티 패턴
트래픽이 거의 없는 야간 시간대에 "에러율 100%" 경보가 반복되는 경우가 많습니다. 비율 알림에는 항상 최소 분모 조건(트래픽 floor)을 붙이세요.
4
튜닝 운영 루프
좋은 모니터는 한 번에 완성되지 않습니다. 주기적 리뷰 루프를 고정해야 품질이 유지됩니다.
- 1. Baseline 측정: 최근 2~4주 알림 히스토리에서 FP/FN 사례 수집
- 2. Hypothesis: 임계치, 윈도우, 집계 함수 변경 가설 정의
- 3. Canary Monitor: 동일 조건의 샤도우 모니터를 별도 채널에 발송
- 4. Evaluate: Precision/Recall/MTTA 비교
- 5. Promote: 성능이 개선된 경우에만 프로덕션 모니터 교체
권장 운영 리듬
P1/P2 연관 모니터는 주 1회, 나머지는 월 1회 리뷰하세요. 리뷰 로그(변경 이유, 전후 지표)를 남기면 신규 온콜도 빠르게 맥락을 이해할 수 있습니다.
5
실전 템플릿: 알림 메시지/런북 연결
메시지 예시
[P2][checkout-api] error rate 4.2% for 5m (threshold 3.0%)
Impact: checkout success rate may degrade.
Dashboard: https://app.datadoghq.com/dashboard/checkout-slo
Runbook: https://internal/wiki/checkout-alert-runbook
Owner: @team-checkout-oncall
체크리스트
- 알림 제목에 서비스 + 심각도 + 증상이 포함되어 있는가?
- 대시보드 링크가 문제의 핵심 지표(p99, 에러율, 트래픽)로 바로 연결되는가?
- 런북에 즉시 실행 가능한 완화 조치(rollback, feature flag, failover)가 있는가?
퀴즈
모니터 엔지니어링 핵심을 점검해봅시다. 총 5문항입니다.