大数据学习&资料整理&实战项目 by
Xu1Aan欢迎加入,联系方式前往首页
- Java语言基础
- 并发编程
- JVM
- NIO
- Netty
- RPC
大数据平台是为了计算,现今社会所产生的越来越大的 数据量,以存储、运算、展现作为目的的平台。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据技术的,有分布式数据库,云计算平台,互联网,和可扩展的存储系统。
-
Scala
-
Spark
-
Flink
-
从零实现分布式流/批计算框架
-
从零实现分布存储框架
- ToDo(目前已经完成一半)
-
数仓采集
上面我们介绍了很多大数据框架,分类总结如下:
日志收集框架:Flume、Logstash、Filebeat
分布式文件存储系统:Hadoop HDFS
数据库系统:Mongodb、HBase
分布式计算框架:
- 批处理框架:Hadoop MapReduce
- 流处理框架:Storm
- 混合处理框架:Spark、Flink
查询分析框架:Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix
集群资源管理器:Hadoop YARN
分布式协调服务:Zookeeper
数据迁移工具:Sqoop
任务调度框架:Azkaban、Oozie
集群部署和监控:Ambari、Cloudera Manager
欢迎加入...






