홈으로
Module 19

Datadog Monitor Engineering

1

모니터 엔지니어링 목표

좋은 모니터는 단순히 임계치를 넘는 것을 감지하는 도구가 아니라, 정확한 타이밍에 정확한 사람에게 실행 가능한 알림을 전달하는 시스템입니다.

실무 기준 3가지

  • Actionable: 알림 메시지에 대응 방법(대시보드 링크, 런북, 오너)이 포함되어야 합니다.
  • Accurate: 실제 사용자 영향과 상관없는 노이즈 알림 비율을 줄여야 합니다.
  • Accountable: 모니터별 Owner/Review 주기를 명시해서 방치 모니터를 없애야 합니다.

Alert Policy 문장 템플릿

모든 모니터는 아래 문장을 채울 수 있어야 합니다.

When [condition] happens for [window],
notify [team/channel] because [user impact],
and run [playbook link].
2

신호 품질 지표

Datadog 모니터 품질을 정량화하면 "느낌 기반 튜닝"이 아니라 "데이터 기반 튜닝"으로 전환할 수 있습니다.

Precision

알림 중 실제 장애 비율

TP / (TP + FP)

Recall

실제 장애 중 감지한 비율

TP / (TP + FN)

MTTA

경보 후 담당자 인지 시간

ack_ts - alert_ts

운영 팁

Precision이 0.5 미만이면 우선순위가 높은 모니터부터 조건을 강화하세요. Recall이 낮으면 감지 범위를 넓히고, MTTA가 높으면 라우팅 채널/온콜 정책을 조정해야 합니다.

3

Datadog 모니터 설계 패턴

상황별 추천 모니터 타입

상황 권장 타입 설계 포인트
고정 SLO 위반Metric Threshold평균이 아닌 p95/p99 사용
급격한 변동Change / Outlier기준선 대비 상승폭 감지
계절성 패턴Anomaly요일/시간대 패턴 학습 필요
복합 조건Composite신호 조합으로 노이즈 억제
# 예시: 에러율 + 트래픽 최소치 복합 조건
A = sum(last_5m):sum:trace.http.request.errors{service:checkout}.as_count()
    / sum:trace.http.request.hits{service:checkout}.as_count() > 0.03
B = sum(last_5m):sum:trace.http.request.hits{service:checkout}.as_count() > 200
Composite = A && B

안티 패턴

트래픽이 거의 없는 야간 시간대에 "에러율 100%" 경보가 반복되는 경우가 많습니다. 비율 알림에는 항상 최소 분모 조건(트래픽 floor)을 붙이세요.

4

튜닝 운영 루프

좋은 모니터는 한 번에 완성되지 않습니다. 주기적 리뷰 루프를 고정해야 품질이 유지됩니다.

  1. 1. Baseline 측정: 최근 2~4주 알림 히스토리에서 FP/FN 사례 수집
  2. 2. Hypothesis: 임계치, 윈도우, 집계 함수 변경 가설 정의
  3. 3. Canary Monitor: 동일 조건의 샤도우 모니터를 별도 채널에 발송
  4. 4. Evaluate: Precision/Recall/MTTA 비교
  5. 5. Promote: 성능이 개선된 경우에만 프로덕션 모니터 교체

권장 운영 리듬

P1/P2 연관 모니터는 주 1회, 나머지는 월 1회 리뷰하세요. 리뷰 로그(변경 이유, 전후 지표)를 남기면 신규 온콜도 빠르게 맥락을 이해할 수 있습니다.

5

실전 템플릿: 알림 메시지/런북 연결

메시지 예시

[P2][checkout-api] error rate 4.2% for 5m (threshold 3.0%)
Impact: checkout success rate may degrade.
Dashboard: https://app.datadoghq.com/dashboard/checkout-slo
Runbook: https://internal/wiki/checkout-alert-runbook
Owner: @team-checkout-oncall

체크리스트

  • 알림 제목에 서비스 + 심각도 + 증상이 포함되어 있는가?
  • 대시보드 링크가 문제의 핵심 지표(p99, 에러율, 트래픽)로 바로 연결되는가?
  • 런북에 즉시 실행 가능한 완화 조치(rollback, feature flag, failover)가 있는가?

퀴즈

모니터 엔지니어링 핵심을 점검해봅시다. 총 5문항입니다.