클라우드에서 데이터 분석환경을 가격 효율적으로 구축하기 위한 기초 학습 및 실제 데이터 파이프라인 구성
- Spark
- Kafka
- Scala 언어
- ELK
- AWS 환경 - EMR, Zeppeline, Ganglia, Glue
- Docker
- Kubernetes
- IaC (infrastructure as code) 개발 : 인프라를 코딩으로 하기
- 분석가가 어떻게 하면 손쉽게 분석할 수 있을까? 에 대한 고민
- Airflow - Scheduler
.
├── notebook # Spark 실습용 notebook
├── ods # Operation Data Store 로 운영(OLTP)에서 사용하는 상품 Master DB Table
├── script # 실습을 위한 shell script
├── shell # EMR 자동화를 위한 shell
└── README.md
