Service Incident Analysis

지표의 기초

좋은 지표의 조건, RED/USE, 비즈니스↔기술 연결

미완료

서비스 신뢰성 지표 기본

SLI/SLO, Golden Signals, 모니터링 생태계

미완료

Datadog RUM & 프론트엔드 지표

p99 레이턴시, Core Web Vitals, 에러 추적

미완료

AWS RDS 메트릭 분석

CPU, Connections, IOPS, Replication Lag

미완료

Kubernetes 리소스 모니터링

Pod/Node 리소스, OOMKill, HPA

미완료

장애 원인 분석 통합 프레임워크

타임라인, 상관 분석, Runbook, Post-mortem

미완료

모니터링 대시보드 설계

3계층 피라미드, 알림 설계, 도구별 실전 구축

미완료

Advanced Labs

실제 장애 시나리오를 기반으로 지표를 분석하고 근본 원인을 추적하는 실전 훈련

DB Connection Pool 고갈

배치 쿼리 커넥션 점유 → HikariPool timeout → API 5xx

미완료

Slow Query CPU 포화

인덱스 누락 → full scan → CPU 90%+ → 전체 응답 지연

미완료

Memory Leak OOMKill

JVM 힙 누수 → OOMKill → Pod 재시작 반복

미완료

CrashLoopBackOff

ConfigMap 오류 → Pod 시작 실패 → 반복 재시작

미완료

GraphQL API 성능 회귀

배포 후 API 응답 급등 → APM trace 분석 → N+1 쿼리 + missing index

미완료

Cascading Failure

외부 API timeout → circuit breaker 실패 → 연쇄 장애

미완료

Deployment Rollback 판단

카나리 배포 혼합 신호 → 롤백 vs 조사 의사결정

미완료

RDS Deadlock Storm

트랜잭션 순서 충돌 → deadlock 폭증 → DML 처리 마비

미완료

Event Loop Saturation

Node.js event loop 블로킹 → 전체 API 응답 지연 → GC/Heap 분석

미완료

L10

Disk I/O & Inode Exhaustion

디스크 I/O 병목과 inode 고갈 장애 분석

미완료

L11

Redis Cache Stampede

캐시 스탬피드와 N+1 쿼리 장애 분석

미완료

L12

CPU Throttling + Network Saturation

CPU 쓰로틀링과 네트워크 포화 복합 장애

미완료

Datadog Advanced

Datadog 고급 실무 주제(설계, 상관분석, 비용 최적화)를 다루는 확장 모듈

Datadog Monitor Engineering

정탐률 중심 모니터 튜닝, 알림 품질 개선, 운영 자동화

미완료

Datadog SLO Operations

Error Budget 운영, Burn Rate 해석, 운영 의사결정 자동화

미완료

Datadog 거버넌스 & 비용 최적화

태깅 표준화, 지표 보존 정책, 비용 이상 탐지 운영

미완료

Datadog Advanced Labs

Datadog 실전 운영 역량을 강화하는 고급 시나리오 실습

L13

Monitor Tuning 실습

정탐률 개선을 위해 임계치/노이즈 필터를 조정하는 모니터 튜닝 시나리오

미완료

L14

Burn-rate Routing 실습

Burn Rate 급등 상황에서 알림 라우팅과 대응 우선순위를 결정하는 훈련

미완료

L15

Sampling & Cardinality 실습

샘플링 정책과 태그 cardinality 최적화로 비용/성능 균형 맞추기

미완료

L16

Incident Workflow 실습

탐지부터 에스컬레이션, 복구, 회고까지 표준 장애 대응 워크플로우 훈련

미완료