핵심 요약
무신사 29CM 팀은 SLI와 SLO를 도입해 서비스 건강성을 수치로 측정하고 운영 프로세스를 개선했습니다.
주요 경험
- SLI/SLO를 도입해 API 단위(주문/결제)와 전시 시스템의 구좌별 지표를 설정하고 모니터링했다.
- Datadog, Prometheus + Grafana를 활용해 실시간 대시보드와 SLO 관리, 에러 버짓 알림 체계를 운영했다.
- 주 단위 리뷰로 SLI/SLO 달성률과 장애를 점검하고 MTTD/MTTA 개선을 위한 티켓 기반 원인 파악과 해결 프로세스를 확립했다.
얻은 인사이트
- 수치 기반 운영이 사용자 경험 품질 관리의 핵심임을 확인했다.
- 에러 버짓 관리로 알림 과잉과 운영 피로도가 감소했다.
- 원인 파악과 개선 프로세스의 문서화로 재발 방지가 강화됐다.



