Spark源碼編譯

Spark官網下載地址:


有兩種一種是編譯好的 一種是沒編譯的(需要自己編譯) 看自己的選擇

Spark源碼編譯

下載好的文件

Spark源碼編譯

解壓之後可以看源碼

Spark源碼編譯

直接用IDE工具打開就可以

Spark源碼編譯


從官網下載需要的版本
https://archive.apache.org/dist/spark/

Spark源碼編譯

Spark源碼編譯

解壓文件

Spark源碼編譯

編譯前的環境準備

Maven 3.3.9+

Spark源碼編譯

jdk7以上

Spark源碼編譯

scala 2.11+

Spark源碼編譯

注意:在配置java之前,需要檢查以下Linux是否有自帶jdk,如果有的話,先刪除,然後再解壓jdk進行配置

用以下命令去檢查

rpm -qa | grep java

這裡是我自己下載的就不刪除了

Spark源碼編譯

卸載: rpm -e --nodeps xxxxxx aaaaa ddddd

在環境變量中配置以下三個環境變量

<code> 

export

JAVA_HOME=/opt/modules/jdk1.8.0_11

export

PATH=

$PATH

:

$JAVA_HOME

/bin

export

MAVEN_HOME=/opt/modules/apache-maven-3.3.9

export

PATH=

$PATH

:

$MAVEN_HOME

/bin

export

SCALA_HOME=/opt/modules/scala-2.11.8

export

PATH=

$PATH

:

$SCALA_HOME

/bin/<code>


使用shell命令進行編譯(spark源碼主目錄下)執行

<code>

./dev/make-distribution.sh

--name

2.7

.3

--tgz

-Phadoop-2.7

-Dhadoop.version=2.7.3

-Phive

-Phive-thriftserver

-Pyarn

-DskipTests-Dscala-2.11

/<code>


-Pyarn:表示支持yarn

-Phadoop-2.7:表示支持hadoop的大版本

-Dhadoop.version=2.6.0-cdh5.7.0:具體的hadoop版本

-Phive -Phive-thriftserver :支持hive和hive-thrifserver

-Dscala-2.11:表示對應的scala版本

Spark源碼編譯

Spark源碼編譯

需要等一段時間

注意事項

虛擬機內存最好4G以上,重啟虛擬機再編譯

編譯失敗:網絡不好、內存不夠

如果編譯cdh版本,需要改一下倉庫url

<code>

<

repository

>

<

id

>

cloudera

id

>

<

name

>

cloudera Repository

name

>

<

url

>

https://repository.cloudera.com/artifactory/cloudera-repos

url

>

repository

>

/<code>

這樣就成功了

Spark源碼編譯

編譯就完成了

Spark源碼編譯


分享到:


相關文章: