Hadoop与Spark两个大数据技术生态系统各自的特点有哪些?

代码老妹儿


Apache Spark是一个通用和闪电般的集群计算系统。它提供了高级API。例如,Java,Scala,Python和R. Apache Spark是用于运行Spark应用程序的工具。 Spark比Bigdata Hadoop快100倍,比从磁盘访问数据快10倍。

Hadoop是一个用Java编写的开源,可扩展和容错框架。它有效地处理大量商品硬件上的大量数据。 Hadoop不仅是一个存储系统,而且是一个大数据存储和处理的平台。

Spark是闪电般的群集计算工具。 Apache Spark的应用程序运行速度比Hadoop快100倍,磁盘速度快10倍。由于减少了磁盘读/写周期的次数,并且可以存储内存中的中间数据。Hadoop MapReduce 从磁盘读取和写入,因此会降低处理速度。Spark很容易编程,因为它拥有大量具有RDD (弹性分布式数据集的高级操作符)。Hadoop MapReduce 的开发人员需要手动编写每一项操作,这使得工作非常困难。

Spark能够在同一个群集中执行批处理,交互式和机器学习和流式处理。因此使其成为一个完整的数据分析引擎。因此,不需要为每个需求管理不同的组件。在集群上安装Spark足以满足所有要求。MapReduce只提供批处理引擎,因此,会依赖于不同的引擎。例如 Storm,Giraph,Impala等用于其他要求,所以,管理很多组件非常困难。

Apache Spark 可以以每秒数百万事件的速率处理实时数据,即来自实时事件流的数据,例如,例如Twitter数据或Facebook分享/发布。 Spark的优势在于能够有效地处理直播视频流。Hadoop则不行,因为它旨在对大量数据执行批处理。


分享到:


相關文章: