홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

VCNC가 Hadoop대신 Spark를 선택한 이유

Apache Spark Apache Hive Scala Hadoop MapReduce Apache Zeppelin

2015년 05월 18일3

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

타다의 VCNC 데이터 분석팀이 Hadoop 대신 Apache Spark와 Zeppelin을 도입하고 AWS 클라우드 기반으로 시스템을 재구성하여 데이터 분석 속도와 운영 효율을 크게 개선한 사례입니다.

구현 방법

Spark(Spark SQL) 엔진 채택으로 메모리 기반 처리와 단순화된 코드 구현
Zeppelin 노트북 + Scheduler를 활용한 일일 배치 자동화와 시각화
로그를 S3로 중앙 저장하고 관리 포인트를 대폭 축소

주요 결과

일일 배치 분석 시간 8시간에서 약 1시간으로 단축
시스템 복잡성 감소로 유지보수와 확장성 향상
Ad-hoc 분석 가능 시간이 늘어나 실무 적용성이 개선
이관은 점진적으로 진행되어 약 1개월 소요, 완전 대체는 약 6개월에 종료

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

비트윈 데이터팀의 Spark Summit EU 2017 참가기

타다·2017년 12월 18일

비트윈이 사용자를 분석하는 방법

타다·2013년 05월 14일

비트윈 시스템 아키텍처

타다·2013년 04월 18일