1
SLO/SLI 정의: 사용자 영향을 먼저 고정
SLO 운영의 시작은 기술 지표가 아니라 사용자 경험을 반영하는 SLI를 고르는 것입니다. 예를 들어 checkout API는 "2초 내 성공 응답 비율"이 실제 비즈니스 영향과 더 직접 연결됩니다.
SLI 선정 체크리스트
- 사용자 행동과 연결되는가? (로그인 성공, 결제 성공 등)
- 측정이 일관되는가? (정의/태그/집계 방식 고정)
- 운영팀이 조치 가능한가? (원인 추적 가능성)
예시
목표 SLO 99.9%를 월 단위로 운영한다면 허용 실패율은 0.1%입니다. 이 한도를 "Error Budget"으로 취급하고, 소진 속도로 위험도를 판단합니다.
2
Error Budget과 Burn Rate
Burn Rate는 "현재 실패율이 허용 실패율보다 몇 배 빠르게 소진되는지"를 보여줍니다. 값이 클수록 예산이 빠르게 사라지고 있다는 뜻입니다.
핵심 공식
burn_rate = current_error_rate / allowed_error_rate
예: SLO 99.9% (allowed_error_rate = 0.001)
현재 error_rate = 0.01 (1%) 라면 burn_rate = 10
운영 해석
- Burn rate 1: 계획된 속도로 budget 사용
- Burn rate 2~5: 주의 구간, 조기 분석 필요
- Burn rate 10+: 즉시 대응(P1/P2) 구간
3
멀티 윈도우 알림 전략
짧은 창은 빠른 탐지에 유리하고, 긴 창은 노이즈 억제에 유리합니다. Datadog에서는 두 창을 함께 사용해 품질을 크게 올릴 수 있습니다.
권장 패턴
- Critical: 5m burn rate > 14 AND 1h burn rate > 7
- Warning: 30m burn rate > 6 AND 6h burn rate > 3
# Datadog monitor query idea (concept)
short = burn_rate(last_5m, service:checkout)
long = burn_rate(last_1h, service:checkout)
alert if short > 14 && long > 7
주의
짧은 창 단독 알림은 배포 직후 스파이크에 취약합니다. 반대로 긴 창 단독 알림은 감지가 늦어집니다. 반드시 조합해서 운영하세요.
4
운영 리듬과 의사결정 룰
SLO는 대시보드에만 두면 의미가 없습니다. 운영 캘린더와 배포 의사결정에 연결해야 효과가 납니다.
주간 SLO Review
- - 상위 budget 소진 서비스 3개 리뷰
- - 반복 원인(배포, DB, 외부 API) 분류
- - 다음 주 개선 작업 등록
배포 가드레일
- - budget 잔여 30% 미만: 기능 배포 축소
- - budget 잔여 10% 미만: 안정화 작업 우선
- - budget 소진: 변경 freeze + RCA
핵심 포인트
SLO는 팀 성과지표가 아니라 "운영 의사결정 도구"입니다. 임계값을 팀 합의 문서(예: release policy)에 명시하세요.
5
실전 적용 템플릿
운영 회의 템플릿 (주간)
1) Top Burn Services
2) Burn Root Cause (deploy / infra / dependency)
3) Next Week Mitigation Plan
4) Release Gate Decision
5) Owner + Due Date
문서화 권장 항목
- 서비스별 SLI 정의와 예외 조건
- 경보 라우팅 룰(critical/warning 채널)
- error budget 소진 시 단계별 조치 기준
퀴즈
SLO 운영 핵심 개념을 5문제로 확인해보세요.