Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

“서버가 죽었어요”에서 시작된 이야기, Grafana OnCall과 Amazon Connect로 완성한 실전형 온콜 시스템

여기어때 favicon여기어때·DevOps·
AWSKubernetesMySQLAmazon ConnectGrafana OnCall
2025년 12월 16일1

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

여기어때가 Grafana OnCall과 Amazon Connect를 활용해 LGTM 스택 기반의 실전형 온콜 시스템을 구축하고, 자동 전화 알림과 Slack 연동으로 장애 대응을 신속하게 처리합니다.

구현 방법

  • LGTM 스택(Loki, Grafana, Tempo, Mimir)과 Grafana OnCall을 통합해 알림 생성부터 대응까지를 하나의 환경에서 관리합니다.
  • Grafana OnCall의 데이터 영속성을 AWS RDS(MySQL)로 확보하고, Helm 차트 배포 및 Slack OAuth 연계를 통해 프로덕션 구성의 완성도를 높였습니다.
  • Target Group의 Unhealthy 상태를 실시간 탐지한 뒤, Amazon Connect로 담당자에게 자동 전화 발신하고 Slack에서 제어합니다.

주요 결과

  • 1분 내 감지, 10초 내 전화 발신으로 대응 속도를 대폭 개선합니다.
  • 고가 솔루션 없이 AWS 기본 서비스와 오픈소스 도구를 조합해 비용 효율성을 확보했습니다.
  • Slack을 통한 피드백/제어와 OnCall 자동화 흐름으로 운영 부담을 경감했습니다.

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
올리브영 QA의 AWS Lambda를 통한 On call 도입기 섬네일
74%

올리브영 QA의 AWS Lambda를 통한 On call 도입기

올리브영 favicon올리브영·2024년 05월 20일
No Image
74%

DynamoDB야 진정해! Kafka와 Redis로 구현하는 실시간 역압력 아키텍처 구축기

롯데ON favicon롯데ON·2025년 12월 02일
Amazon Q Developer를 사용한 AWS Elastic Disaster Recovery 실시간 모니터링 섬네일
73%

Amazon Q Developer를 사용한 AWS Elastic Disaster Recovery 실시간 모니터링

AWS faviconAWS·2025년 09월 01일