Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

VCNC가 Hadoop대신 Spark를 선택한 이유

타다 favicon타다·Data·
Apache SparkApache HiveScalaHadoop MapReduceApache Zeppelin
2015년 05월 18일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

타다의 VCNC 데이터 분석팀이 Hadoop 대신 Apache Spark와 Zeppelin을 도입하고 AWS 클라우드 기반으로 시스템을 재구성하여 데이터 분석 속도와 운영 효율을 크게 개선한 사례입니다.

구현 방법

  • Spark(Spark SQL) 엔진 채택으로 메모리 기반 처리와 단순화된 코드 구현
  • Zeppelin 노트북 + Scheduler를 활용한 일일 배치 자동화와 시각화
  • 로그를 S3로 중앙 저장하고 관리 포인트를 대폭 축소

주요 결과

  • 일일 배치 분석 시간 8시간에서 약 1시간으로 단축
  • 시스템 복잡성 감소로 유지보수와 확장성 향상
  • Ad-hoc 분석 가능 시간이 늘어나 실무 적용성이 개선
  • 이관은 점진적으로 진행되어 약 1개월 소요, 완전 대체는 약 6개월에 종료

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
No Image
75%

비트윈 데이터팀의 Spark Summit EU 2017 참가기

타다 favicon타다·2017년 12월 18일
No Image
75%

비트윈이 사용자를 분석하는 방법

타다 favicon타다·2013년 05월 14일
No Image
71%

비트윈 시스템 아키텍처

타다 favicon타다·2013년 04월 18일