핵심 요약
무신사는 하이브리드 인프라에서 온프렘 GPU와 AWS를 하나의 클러스터로 운영하고, AutoMode·Hybrid Node와 Self-managed Karpenter를 도입해 비용과 안정성을 대폭 개선한 AI Infra 구축 여정을 공유합니다. 네트워크를 eBPF/Cilium으로 재구성하고 OpenTelemetry로 관측을 통합했으며, Gateway API Inference Extension으로 우선순위 기반 라우팅을 실험했습니다. 결과적으로 최대 95% 비용 절감을 달성했고, 트래픽 급증 시에도 안정성을 추구했습니다.
구현 방법
- 온프렘 GPU(H100/H200/Blackwell)와 AWS EKS Hybrid Node를 연결해 단일 클러스터 운영
- 네트워크/데이터 plane를 eBPF/Cilium으로 재설계, kube-proxy 제거, AWS CNI 축소
- OpenTelemetry 기반 관측 통합과 Gateway API Inference Extension의 우선순위 레이어링 도입
주요 결과
- 비용 절감 최대 95%
- 트래픽 급증에서도 안정성 확보를 위한 설계

