Datadog 비용 구조 이해
Datadog 비용 최적화의 핵심은 "무엇이 비용을 만드는지"를 팀이 공통 언어로 이해하는 것입니다. 보통 로그 인덱싱, 고카디널리티 메트릭, 과도한 APM 수집이 상위 원인입니다.
주요 비용 드라이버
- Logs: ingest volume + indexed volume + retention 기간
- Metrics: custom metric 시계열 수 (태그 조합 영향)
- APM: span ingest 비율과 서비스 수
- RUM: 세션/이벤트 수집량
흔한 실수
"데이터를 많이 남기면 안전하다"는 접근은 장기적으로 비용 폭탄이 됩니다. 장애 대응에 실질적으로 쓰는 데이터와 감사/컴플라이언스 데이터를 분리해 운영하세요.
샘플링 전략: 정확도와 비용 균형
샘플링은 "무작정 줄이는 것"이 아니라 "문제 탐지 능력을 유지하면서 볼륨을 낮추는 것"입니다. 우선순위 기반 샘플링이 실무에서 가장 안정적입니다.
Always Keep
5xx, timeout, p99 outlier trace
Adaptive
트래픽 급증 시 정상 트랜잭션 샘플 비율 자동 축소
Low Priority
정상 헬스체크/정적 경로 로그 축소
실무 규칙
"오류 데이터는 100%", "정상 데이터는 서비스 중요도에 따라 1~20%"로 시작한 뒤, 탐지율 저하가 없는지 월별로 검증하세요.
카디널리티 제어
카디널리티 폭증은 커스텀 메트릭 비용을 급격히 증가시킵니다. user_id, session_id, request_id 같은 고유값 태그는 메트릭에 직접 붙이지 않는 것이 원칙입니다.
좋은 태그: env, service, region, endpoint_group
나쁜 태그: user_id, email, request_id, trace_id
대안 패턴
- 고유 ID는 로그/트레이스에만 유지하고 메트릭에서는 제외
- endpoint를 템플릿 경로(`/users/:id`)로 정규화
- 팀 단위 태그 정책을 lint/CI로 강제
보존 기간과 파이프라인 정책
모든 데이터를 같은 기간 보관할 필요는 없습니다. 운영 데이터는 짧게, 감사/보안 데이터는 길게 보관하는 계층형 전략이 필요합니다.
권장 분류 예시
- Hot (7~15일): 온콜 대응 핵심 로그/트레이스
- Warm (30~60일): 장애 트렌드/성능 분석용
- Archive (90일+): 규정 준수/감사용
Pipeline 우선순위
드랍/샘플링 룰은 ingest 직후 적용해야 비용 절감 효과가 큽니다. 인덱스된 후 제거하면 이미 비용이 발생한 뒤입니다.
거버넌스 운영 모델
비용 최적화는 일회성 캠페인이 아니라 운영 프로세스입니다. 팀별 예산/소유권이 없으면 1~2개월 내 원복됩니다.
월간 Cost Governance 회의 안건
1) Top 10 cost drivers (logs, metrics, apm)
2) 신규 서비스 태그/샘플링 정책 준수율
3) 절감 액션 진행률 (owner, due date)
4) 다음 달 예산 리스크
권장 KPI
- 서비스별 Datadog 단가(월/서비스)
- 고카디널리티 태그 위반 건수
- 오류 탐지율 유지율(비용 절감 전후)
퀴즈
Datadog 비용 거버넌스 핵심을 5문제로 점검하세요.