1,搭建啟動hadoop HA集群,之前文章有詳細的搭建過程。
啟動HDFS(在weekend01上執行)
sbin/start-dfs.sh
找一個文件上傳到自定義hdfs目錄下面
啟動spark shell 交互命令行(在weekend02 啟動)
bin/spark-shell --master spark://weekend02:7077 --executor-memory 512m --total-executor-cores 2
執行shell命令,進行運算
- #使用空格對文本每行字段進行切分,同樣單詞出現一次記錄為1 , 然後讓key進行累加,按照vule 排序,false降序,蒐集統計
- sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect;
- #使用空格對文本每行字段進行切分,同樣單詞出現一次記錄為1 , 然後讓key進行累加,按照vule 排序,false降序,統計保存到hdfs目錄
- sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://weekend02:9000/out")
- #使用空格對文本每行字段進行切分,同樣單詞出現一次記錄為1 , 然後讓key進行累加,輸出一個文件中,按照vule 排序,false降序,統計保存到hdfs目錄,保存為一個目錄
- sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_,1).sortBy(_._2,false).saveAsTextFile("hdfs://weekend02:9000/out1")
最後hdfs目錄下查看是否生成:
閱讀更多 Java程序猿鼓勵師 的文章