핵심 요약
데브시스터즈의 엔지니어들이 로우 레벨 분석과 다중 복구 전략으로 CockroachDB 장애를 극복하고, 데이터 재구성으로 서비스 재개에 성공한 경험이다.
주요 경험
- 36시간 장애에서 Plan A/B를 병행하고 CockroachDB Enterprise 서포트와 협력해 데이터 정상 상태 복구를 시도했다.
- SST 구조를 분석하고 PrettyPrint 기반 파싱으로 데이터 추출 가능성을 확인했고, crdb2csv 개발과 PySpark 분산처리로 대량 데이터를 처리했다.
- 7TB 데이터를 4시간 만에 CSV로 변환하고 새 클러스터에 재적재하여 서비스 재개를 달성했다. 해커 문화와 오픈소스 협업이 위기 극복에 큰 힘이 됐다.
얻은 인사이트
- 로우 레벨 분석이 복구 옵션 확장을 가능하게 한다.
- 해커 문화와 오픈소스 협업이 위기 속 의사소통과 실행 속도를 높인다.
- Plan A/B/C의 병행 실행이 팀워크와 신뢰를 강화한다.
