핵심 요약
타다의 VCNC 데이터 분석팀이 Hadoop 대신 Apache Spark와 Zeppelin을 도입하고 AWS 클라우드 기반으로 시스템을 재구성하여 데이터 분석 속도와 운영 효율을 크게 개선한 사례입니다.
구현 방법
- Spark(Spark SQL) 엔진 채택으로 메모리 기반 처리와 단순화된 코드 구현
- Zeppelin 노트북 + Scheduler를 활용한 일일 배치 자동화와 시각화
- 로그를 S3로 중앙 저장하고 관리 포인트를 대폭 축소
주요 결과
- 일일 배치 분석 시간 8시간에서 약 1시간으로 단축
- 시스템 복잡성 감소로 유지보수와 확장성 향상
- Ad-hoc 분석 가능 시간이 늘어나 실무 적용성이 개선
- 이관은 점진적으로 진행되어 약 1개월 소요, 완전 대체는 약 6개월에 종료