Skip to content

Room9/spark-datapipeline

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

클라우드를 활용한 데이터 파이프라인 구축

목적

클라우드에서 데이터 분석환경을 가격 효율적으로 구축하기 위한 기초 학습 및 실제 데이터 파이프라인 구성

image

알게된 것

  • Spark
  • Kafka
  • Scala 언어
  • ELK
  • AWS 환경 - EMR, Zeppeline, Ganglia, Glue

더 공부할 것

  • Docker
  • Kubernetes
  • IaC (infrastructure as code) 개발 : 인프라를 코딩으로 하기
  • 분석가가 어떻게 하면 손쉽게 분석할 수 있을까? 에 대한 고민
  • Airflow - Scheduler

Repository 구조

.
├── notebook                # Spark 실습용 notebook 
├── ods                     # Operation Data Store 로 운영(OLTP)에서 사용하는 상품 Master DB Table 
├── script                  # 실습을 위한 shell script 
├── shell                   # EMR 자동화를 위한 shell
└── README.md
 

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published