spark介紹

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是--Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。

Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分佈數據集，除了能夠提供交互式查詢外，它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分佈式數據集。

儘管創建 Spark 是為了支持分佈式數據集上的迭代作業，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統中並行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發，可用來構建大型的、低延遲的數據分析應用程序。

前言

Apache Spark是一個開源集群運算框架，相對於Hadoop的MapReduce會在運行完工作後將中介數據存放到磁盤中，Spark使用了存儲器內運算技術，能在數據尚未寫入硬盤時即在存儲器內分析運算。

Spark 在存儲器內運行程序的運算速度能做到比 Hadoop MapReduce 的運算速度快上 100 倍，即便是運行程序於硬盤時，Spark 也能快上 10 倍速度。Spark 允許用戶將數據加載至集群存儲器，並多次對其進行查詢，非常適合用於機器學習算法。

使用 Spark 需要搭配集群管理員和分佈式存儲系統。Spark 支持獨立模式（本地 Spark 集群）、Hadoop YARN 或 Apache Mesos 的集群管理。在分佈式存儲方面，Spark 可以和 Alluxio, HDFS、 Cassandra 、OpenStack Swift 和 Amazon S3 等接口搭載。 Spark 也支持偽分佈式（pseudo-distributed）本地模式，不過通常只用於開發或測試時以本機文件系統取代分佈式存儲系統。在這樣的情況下，Spark 僅在一臺機器上使用每個 CPU 核心運行程序。