Spark官網下載地址:
有兩種一種是編譯好的 一種是沒編譯的(需要自己編譯) 看自己的選擇
下載好的文件
解壓之後可以看源碼
直接用IDE工具打開就可以
從官網下載需要的版本
https://archive.apache.org/dist/spark/
解壓文件
編譯前的環境準備
Maven 3.3.9+
jdk7以上
scala 2.11+
注意:在配置java之前,需要檢查以下Linux是否有自帶jdk,如果有的話,先刪除,然後再解壓jdk進行配置
用以下命令去檢查
rpm -qa | grep java
這裡是我自己下載的就不刪除了
卸載: rpm -e --nodeps xxxxxx aaaaa ddddd
在環境變量中配置以下三個環境變量
<code>export
JAVA_HOME=/opt/modules/jdk1.8.0_11export
PATH=$PATH
:$JAVA_HOME
/binexport
MAVEN_HOME=/opt/modules/apache-maven-3.3.9export
PATH=$PATH
:$MAVEN_HOME
/binexport
SCALA_HOME=/opt/modules/scala-2.11.8export
PATH=$PATH
:$SCALA_HOME
/bin/<code>
使用shell命令進行編譯(spark源碼主目錄下)執行
<code>./dev/make-distribution.sh
--name
2.7
.3
--tgz
-Phadoop-2.7
-Dhadoop.version=2.7.3
-Phive
-Phive-thriftserver
-Pyarn
-DskipTests-Dscala-2.11
/<code>
-Pyarn:表示支持yarn
-Phadoop-2.7:表示支持hadoop的大版本
-Dhadoop.version=2.6.0-cdh5.7.0:具體的hadoop版本
-Phive -Phive-thriftserver :支持hive和hive-thrifserver
-Dscala-2.11:表示對應的scala版本
需要等一段時間
注意事項
虛擬機內存最好4G以上,重啟虛擬機再編譯
編譯失敗:網絡不好、內存不夠
如果編譯cdh版本,需要改一下倉庫url
<code><
repository
><
id
>clouderaid
><
name
>cloudera Repositoryname
><
url
>https://repository.cloudera.com/artifactory/cloudera-reposurl
>repository
>/<code>
這樣就成功了
編譯就完成了