搭建以hdfs爲文件存儲庫的spark集羣

1,搭建啟動hadoop HA集群,之前文章有詳細的搭建過程。

啟動HDFS(在weekend01上執行)

sbin/start-dfs.sh

找一個文件上傳到自定義hdfs目錄下面

搭建以hdfs為文件存儲庫的spark集群

啟動spark shell 交互命令行(在weekend02 啟動)

bin/spark-shell --master spark://weekend02:7077 --executor-memory 512m --total-executor-cores 2

搭建以hdfs為文件存儲庫的spark集群

執行shell命令,進行運算

  1. #使用空格對文本每行字段進行切分,同樣單詞出現一次記錄為1 , 然後讓key進行累加,按照vule 排序,false降序,蒐集統計
  2. sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect;
  3. #使用空格對文本每行字段進行切分,同樣單詞出現一次記錄為1 , 然後讓key進行累加,按照vule 排序,false降序,統計保存到hdfs目錄
  4. sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://weekend02:9000/out")
  5. #使用空格對文本每行字段進行切分,同樣單詞出現一次記錄為1 , 然後讓key進行累加,輸出一個文件中,按照vule 排序,false降序,統計保存到hdfs目錄,保存為一個目錄
  6. sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_,1).sortBy(_._2,false).saveAsTextFile("hdfs://weekend02:9000/out1")

最後hdfs目錄下查看是否生成:

搭建以hdfs為文件存儲庫的spark集群

搭建以hdfs為文件存儲庫的spark集群


分享到:


相關文章: