지표의 기초
좋은 지표의 조건, RED/USE, 비즈니스↔기술 연결
서비스 신뢰성 지표 기본
SLI/SLO, Golden Signals, 모니터링 생태계
Datadog RUM & 프론트엔드 지표
p99 레이턴시, Core Web Vitals, 에러 추적
AWS RDS 메트릭 분석
CPU, Connections, IOPS, Replication Lag
Kubernetes 리소스 모니터링
Pod/Node 리소스, OOMKill, HPA
장애 원인 분석 통합 프레임워크
타임라인, 상관 분석, Runbook, Post-mortem
모니터링 대시보드 설계
3계층 피라미드, 알림 설계, 도구별 실전 구축
실제 장애 시나리오를 기반으로 지표를 분석하고 근본 원인을 추적하는 실전 훈련
DB Connection Pool 고갈
배치 쿼리 커넥션 점유 → HikariPool timeout → API 5xx
Slow Query CPU 포화
인덱스 누락 → full scan → CPU 90%+ → 전체 응답 지연
Memory Leak OOMKill
JVM 힙 누수 → OOMKill → Pod 재시작 반복
CrashLoopBackOff
ConfigMap 오류 → Pod 시작 실패 → 반복 재시작
GraphQL API 성능 회귀
배포 후 API 응답 급등 → APM trace 분석 → N+1 쿼리 + missing index
Cascading Failure
외부 API timeout → circuit breaker 실패 → 연쇄 장애
Deployment Rollback 판단
카나리 배포 혼합 신호 → 롤백 vs 조사 의사결정
RDS Deadlock Storm
트랜잭션 순서 충돌 → deadlock 폭증 → DML 처리 마비
Event Loop Saturation
Node.js event loop 블로킹 → 전체 API 응답 지연 → GC/Heap 분석
Disk I/O & Inode Exhaustion
디스크 I/O 병목과 inode 고갈 장애 분석
Redis Cache Stampede
캐시 스탬피드와 N+1 쿼리 장애 분석
CPU Throttling + Network Saturation
CPU 쓰로틀링과 네트워크 포화 복합 장애
Datadog 고급 실무 주제(설계, 상관분석, 비용 최적화)를 다루는 확장 모듈
Datadog Monitor Engineering
정탐률 중심 모니터 튜닝, 알림 품질 개선, 운영 자동화
Datadog SLO Operations
Error Budget 운영, Burn Rate 해석, 운영 의사결정 자동화
Datadog 거버넌스 & 비용 최적화
태깅 표준화, 지표 보존 정책, 비용 이상 탐지 운영
Datadog 실전 운영 역량을 강화하는 고급 시나리오 실습
Monitor Tuning 실습
정탐률 개선을 위해 임계치/노이즈 필터를 조정하는 모니터 튜닝 시나리오
Burn-rate Routing 실습
Burn Rate 급등 상황에서 알림 라우팅과 대응 우선순위를 결정하는 훈련
Sampling & Cardinality 실습
샘플링 정책과 태그 cardinality 최적화로 비용/성능 균형 맞추기
Incident Workflow 실습
탐지부터 에스컬레이션, 복구, 회고까지 표준 장애 대응 워크플로우 훈련