Module 21: Datadog Cost Governance | Service Incident Analysis

1

Datadog 비용 구조 이해

Datadog 비용 최적화의 핵심은 "무엇이 비용을 만드는지"를 팀이 공통 언어로 이해하는 것입니다. 보통 로그 인덱싱, 고카디널리티 메트릭, 과도한 APM 수집이 상위 원인입니다.

"데이터를 많이 남기면 안전하다"는 접근은 장기적으로 비용 폭탄이 됩니다. 장애 대응에 실질적으로 쓰는 데이터와 감사/컴플라이언스 데이터를 분리해 운영하세요.

2

샘플링은 "무작정 줄이는 것"이 아니라 "문제 탐지 능력을 유지하면서 볼륨을 낮추는 것"입니다. 우선순위 기반 샘플링이 실무에서 가장 안정적입니다.

5xx, timeout, p99 outlier trace

트래픽 급증 시 정상 트랜잭션 샘플 비율 자동 축소

정상 헬스체크/정적 경로 로그 축소

"오류 데이터는 100%", "정상 데이터는 서비스 중요도에 따라 1~20%"로 시작한 뒤, 탐지율 저하가 없는지 월별로 검증하세요.

3

카디널리티 폭증은 커스텀 메트릭 비용을 급격히 증가시킵니다. user_id, session_id, request_id 같은 고유값 태그는 메트릭에 직접 붙이지 않는 것이 원칙입니다.

좋은 태그: env, service, region, endpoint_group
나쁜 태그: user_id, email, request_id, trace_id

4

모든 데이터를 같은 기간 보관할 필요는 없습니다. 운영 데이터는 짧게, 감사/보안 데이터는 길게 보관하는 계층형 전략이 필요합니다.

드랍/샘플링 룰은 ingest 직후 적용해야 비용 절감 효과가 큽니다. 인덱스된 후 제거하면 이미 비용이 발생한 뒤입니다.

5

비용 최적화는 일회성 캠페인이 아니라 운영 프로세스입니다. 팀별 예산/소유권이 없으면 1~2개월 내 원복됩니다.

1) Top 10 cost drivers (logs, metrics, apm)
2) 신규 서비스 태그/샘플링 정책 준수율
3) 절감 액션 진행률 (owner, due date)
4) 다음 달 예산 리스크

Datadog 비용 거버넌스 핵심을 5문제로 점검하세요.