핵심 요약
여기어때가 Grafana OnCall과 Amazon Connect를 활용해 LGTM 스택 기반의 실전형 온콜 시스템을 구축하고, 자동 전화 알림과 Slack 연동으로 장애 대응을 신속하게 처리합니다.
구현 방법
- LGTM 스택(Loki, Grafana, Tempo, Mimir)과 Grafana OnCall을 통합해 알림 생성부터 대응까지를 하나의 환경에서 관리합니다.
- Grafana OnCall의 데이터 영속성을 AWS RDS(MySQL)로 확보하고, Helm 차트 배포 및 Slack OAuth 연계를 통해 프로덕션 구성의 완성도를 높였습니다.
- Target Group의 Unhealthy 상태를 실시간 탐지한 뒤, Amazon Connect로 담당자에게 자동 전화 발신하고 Slack에서 제어합니다.
주요 결과
- 1분 내 감지, 10초 내 전화 발신으로 대응 속도를 대폭 개선합니다.
- 고가 솔루션 없이 AWS 기본 서비스와 오픈소스 도구를 조합해 비용 효율성을 확보했습니다.
- Slack을 통한 피드백/제어와 OnCall 자동화 흐름으로 운영 부담을 경감했습니다.

