第一章：MapReduce概述頭條網

第一章：MapReduce概述

2020-12-24 16:03:45 佚名

Mapredce定義：

MapReduce是一個分佈式運算程序的編程框架，是用戶開發（基於Hadoop的數據分析應用）的核心框架。

MapReduce的核心功能是將用戶編寫的業務邏輯代碼與自帶的默認組件整合成一個完整的分佈式運算程序，併發運行在一個Hadoop集群上。

MapReduce優缺點

1、優點

1.1、易於編程

1.2、良好的擴張性

1.3、高容錯

其中一臺機器掛掉，它上面運行的計算任務會自動轉移到另外的機器上運行，不需要人工干預

1.4、適用PB級以上海量數據的離線處理

2、缺點

2.1、不擅長實時計算

2.2、不擅長流式計算

2.3、不擅長DAG（有向圖）計算

多個應用存在依賴關係，後一個應用的輸入是前一個應用的輸出，在這種情況下，MapReduce不是不能做，而是每個MapReduce的輸出結果都會寫入到磁盤，會造成大量的磁盤IO，性能低下

MapReduce 進程

MrAppMaster：負責整個程序的過程調度和狀態協調
MapTask：負責Map階段的數據處理流程
ReduceTask：負責Reduce階段數據處理流程

常用的數據序列化類型

Java類型 Hadoop Writable類型

boolean BooleanWritable

byte ByteWritable

int IntWritable

float FloatWritable

long LongWritable

double DoubleWritable

String Text

map MapWritable

array ArrayWritable

MapReduce 編程規範

Mapper

用戶自定義的Mapper 繼承父類，重寫父類的map() 方法
Mapper 中業務邏輯寫在map() 方法內
Mapper 的輸入類型和輸出類型都是 K V對的形式，

Reduce

用戶自定義的Reduce 繼承父類，重寫父類的reduce() 方法
Reduce 業務邏輯寫在reduce() 方法內
Reduce的輸入類型，輸出類型都是K V對的形式
Reduce對每組k 調用一次reduce() 方法

Driver

相當於yarn集群的客戶端，用於提交整個程序到yarn 集群，提交時封裝了MapReduce程序相關運行參數的job對象

wordCount演練

需求：統計文件中每個單詞出現的次數，文件存儲在HDFS中，路徑和內容如下：

<code>[root@bbx hadoop-3.1.3]# bin/hdfs dfs -ls -R /home/input/
-rw-r--r--   1 root supergroup         30 2020-05-02 17:05 /home/input/name
[root@bbx hadoop-3.1.3]# bin/hdfs dfs -cat /home/input/name
2020-05-04 16:47:12,295 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
aa bb ss
aa cc dd
bb
cc
dd
ee/<code>

maven依賴

<code>

    4.0.0
    
        org.springframework.boot
        spring-boot-starter-parent
        2.2.6.RELEASE
          
    
    com.bbx
    wcdemo
    0.0.1-SNAPSHOT
    wcdemo
    Demo project for Spring Boot

    
        1.8
    

    
        
            org.springframework.boot
            spring-boot-starter
            
                
                    org.springframework.boot
                    spring-boot-starter-logging
                
            
        

        
            org.springframework.boot
            spring-boot-starter-test
            test
            
                
                    org.junit.vintage
                    junit-vintage-engine
                
            
        

        
            org.apache.hadoop
            hadoop-common
            3.1.3
            
                
                    slf4j-log4j12
                    org.slf4j
                
                
                    com.google.code.gson
                    gson
                
            
        

        
            org.apache.hadoop
            hadoop-client
            3.1.3
        

         
        
            org.apache.hadoop
            hadoop-hdfs
            3.1.3
            
                
                    slf4j-log4j12
                    org.slf4j
                
            
        
    

    
        
             
            
                maven-compiler-plugin
                
                    1.8
                    1.8
                
            
            
                maven-assembly-plugin
                
                    
                        jar-with-dependencies
                    
                    
                        
                            com.bbx.wcdemo.WcdemoApplication
                        
                    
                
                
                    
                        make-assembly
                        package
                        
                            single
                        
                    
                
            
        
    


/<code>

自定義mapper

<code>package com.bbx.wcdemo;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WCMapper extends Mapper {
    Text text = new Text();
    IntWritable intWritable = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //按行將內容讀取進來
        String[] values = value.toString().split(" ");
        for(String v:values){
            text.set(v);
            //拆分後按照 key，value 寫出   如 bbx：1，多個不會合並
            context.write(text,intWritable);
        }
    }
}
/<code>

自定義reduce

<code>package com.bbx.wcdemo;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WCReduce   extends Reducer {
    IntWritable intWritable =new IntWritable();
    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        //按照字典順序key分組，加載每一組key，key組內的value值求和
        for(IntWritable value:values){
            sum += value.get();
        }
        intWritable.set(sum);
        context.write(key,intWritable);
    }
}
/<code>

Driver 驅動

<code>package com.bbx.wcdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class WcdemoApplication {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);
        job.setJarByClass(WcdemoApplication.class);

        job.setMapperClass(WCMapper.class);
        job.setReducerClass(WCReduce.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        job.waitForCompletion(true);
    }

}
/<code>

集群環境運行----（輸出路徑不能存在）

<code>hadoop jar wcdemo-0.0.1-SNAPSHOT.jar com.bbx.wcdemo.WcdemoApplication  /home/input/ /home/output/<code>

分享到:

關鍵字: class MapReduce job

第一章：MapReduce概述

Mapredce定義：

MapReduce優缺點

MapReduce 進程

常用的數據序列化類型

MapReduce 編程規範

wordCount演練

相關文章:

開源老兵教你如何評估一項技術是否值得長期投入？

供聚會聯：大數據的結構跟特點

漫畫：什麼是數據倉庫？

結構化面試輔導（1）：概述，結構化面試是怎麼一回事?

分佈式計算框架

大數據大牛，終於用37部分講完了Hadoop體系之離線計算，共17.97G

大數據分析人才，真如馬雲說的月薪高達30K嗎？

SUV與越野車的最大區別與「前生今世」-概述

CPA思維導圖｜2019年註冊會計師審計科目之審計概述（一）

技術分析：深信服、振華科技、豐樂種業（1月25日覆盤筆記）

技術分析：金風科技、振華科技、三七互娛（1月27日覆盤筆記）

技術分析：振華科技、三七互娛、金風科技（1月22日覆盤筆記）

Hadoop Spark：全面比拼（架構、性能、成本、安全）

Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式

長沙十大熱門板塊，你更看好誰？

Springboot教程-概述

hadoop的安裝和三種模式的配置

英國留學哪些專業畢業3年內晉升最快

AlphaFlow推薦：業務流程管理十大推薦書籍

河南省人民醫院張茵：骨髓纖維化疾病概述

遼寧省“阜新市”概述

如何在github高效地搜索開源項目

三分鐘入門大數據之Hive與HBase之間的區別與聯繫是什麼？

三分鐘入門大數據之大數據基本的組件環境是什麼？

車聯網真要來了？全球汽車網絡安全市場將實現跨越式增長

千萬別錯過第一條：問道崆峒·養生平涼

HBase批量加載

分佈式計算框架spark

細述hbase協處理器

“996”式中國上班制與國外對比

概述：人工智能是如何改變網絡安全的？

亞洲概述（3）七年級地理下冊（粵人版）第一課第一節

浙江省寧波市“奉化”概述

“教育學邏輯圖”領讀團有獎招募開始

xml學習-概述

spark簡介

零基礎學習Hadoop應該如何學習

57頁完整版，精品情緒管理培訓PPT課件，情商知識，強烈推薦收藏

學習民法，必先研讀羅馬法

hadoop vs 其它系統

帶你瞭解分佈式框架hadoop

概述：草甘膦對人類的毒性

路由選擇協議—概述

13天馳騁西藏的終極朝聖，後藏阿里大環線自駕，附行程線路圖

小學語文閱讀理解答題的一般步驟

HBase批量加載架構

30分鐘理解Spark的基本原理

開源圖計算框架GraphLab介紹

2020註冊會計師（CPA）考試全解析（第一期）—— 概述

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？