Hadoop
就是一个大数据解决方案。它提供了一套分布式系统基础架构。
- 概念
- HDFS
- MapReduce
- Hadoop MapReduce作业的生命周期
![2020年大数据必备知识点汇总:Hadoop+Spark+HBase+Zookeeper](http://p2.ttnews.xyz/loading.gif)
![2020年大数据必备知识点汇总:Hadoop+Spark+HBase+Zookeeper](http://p2.ttnews.xyz/loading.gif)
Spark
Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
- 概念
- 核心架构
- 核心组件
- SPARK编程模型
- SPARK计算模型
- SPARK运行流程
- SPARK RDD流程
- SPARK RDD
HBase
Hbase 是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS 为 Hbase 提供可靠的底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供稳定服务和 Failover 机制,因此我们说 Hbase 是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案
- 概念
- 列式存储
- Hbase核心概念
- Hbase核心架构
- Hbase的写逻辑
- HBase vs Cassandra
Zookeeper
Zookeeper
Zookeeper 是一个分布式协调服务,可用于服务发现,分布式锁,分布式领导选举,配置管理等。Zookeeper 提供了一个类似于 Linux 文件系统的树形结构(可认为是轻量级的内存文件系统,但只适合存少量信息,完全不适合存储大量文件或者大文件),同时提供了对于每个节点的监控与通知机制
- Zookeeper概念
- Zookeeper角色
- Zookeeper工作原理(原子广播)
- Znode有四种形式的目录节点
Kafka
Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统,最初由 LinkedIn 公司开发,使用Scala 语言编写,目前是 Apache 的开源项目
- Kafka概念
- Kafka数据存储设计
- 生产者设计
- 消费者设计
Storm
Storm 是一个免费并开源的分布式实时计算系统。利用 Storm 可以很容易做到可靠地处理无限的数据流,像 Hadoop 批量处理大数据一样,Storm 可以实时处理数据。
- 概念
- 集群架构
- 编程模型( spout-> tuple-> bolt )
- Topology运行
- Storm Streaming Grouping
小编已经把以上涉及知识点整理了一份文档,针对每个知识点小编又收集了一些针对性的实战文档都可以免费分享给大家。
需要获取的朋友:转发文章并关注我,后台私信【资料】即可免费获取
閱讀更多 高級大數據工程師 的文章