MapReduce知識整理

2020-12-26 00:04:34 佚名

MapReduce概述

MapReduce定義

MapReduce是一個分佈式運算程序的編程框架，是用戶開發“基於Hadoop的數據分析應用”的核心框架。

MapReduce核心功能是將用戶編寫的業務邏輯代碼和自帶默認組件整合成一個完整的分佈式運算程序，並運行在一個Hadoop集群上。

MapReduce優缺點

優點

1.MapReduce易於編程。

它簡單的實現一些接口，就可以完成一個分佈式程序，這個分佈式程序可以分佈到大量廉價的PC機器上運行。也就是說你寫一個分佈式程序，跟寫一個簡單的串行程序是一模一樣的。就是因為這個特點使得MapReduce編程變得非常流行。

2.良好的擴展性

當你的計算資源不能得到滿足的時候，你可以通過簡單的增加機器來擴展它的計算能力。

3.高容錯性

MapReduce設計的初衷就是使程序能夠部署在廉價的PC機器上，這就要求它具有很高的容錯性。比如其中一臺機器掛了，它可以把上面的計算任務轉移到另外的一個節點上運行，不至於這個任務失敗，而且這個過程不需要人工參與，而完全是Hadoop內部完成的。

4.適合PB級以上海量數據的離線處理

可以實現上千臺服務器集群併發工作，提供數據處理能力。

缺點

1.不擅長實時計算

MapReduce無法像MySql一樣，在毫秒或者秒內返回結果。

2.不擅長流式計算

流式計算的輸入數據是動態的，而MapReduce的輸入數據集是靜態的，不能動態變化。這是因為MapReduce自身的設計特點決定了數據源必須是靜態的。

3.不擅長DAG(有向圖)計算

多個應用程序存在依賴關係，後一個應用程序的輸入為前一個輸出。在這種情況下，MapReduce並不能做，而是使用後，每個MapReduce作業的輸出節過都會寫入磁盤，會造成大量的磁盤IO，導致性能非常的低下。

MapReduce核心思想

1）分佈式的運算程序往往需要分成至少2個階段。

2）第一個階段的MapTask併發實例，完全並行運行，互不相干。

3）第二個階段的ReduceTask併發實例互不相干，但是他們的數據依賴於上一個階段的所有MapTask併發實例的輸出。

4）MapReduce編程模型只能包含一個Map階段和一個Reduce階段，如果用戶的業務邏輯非常複雜，那就只能多個MapReduce程序，串行運行。

總結：分析WordCount數據流走向深入理解MapReduce核心思想。

MapReduce進程

一個完整的MapReduce程序在分佈式運行時有三類實例進程：

1.MrAppMaster：負責整個程序的過程調度及狀態協調。

2.MapTask：負責Map階段的整個數據處理流程。

3.ReduceTask：負責Reduce階段的整個數據處理流程。

官方WordCount源碼

用反編譯工具反編譯源碼，發現WordCount案例有Map類、Reduce類和驅動類。且數據的類型是Hadoop自身封裝的序列化類型。

MapReduce編程規範

用戶編寫的程序分成三個部分：Mapper、Reducer和Driver。

1.Mapper階段

（1）用戶自定義的Mapper要繼承自己的父類

（2）Mapper的輸入數據是KV對的形式(KV的類型可自定義)

（3）Mapper中的業務邏輯寫在map()方法中

(4) Mapper的輸出數據是KV對的形式(KV的類型可自定義)

（5）map()方法（MapTask進程）對每一個調用一次

2.Reduce階段

（1）用戶自定義的Reducer要繼承自己的分類

（2）Reducer的輸入數據類型對應的Mapper的輸出數據類型，也是KV

（3）Reducer的業務邏輯寫在Reduce()方法中

（4）ReduceTask進程對每一組相同的組調用一次reduce()方法

3.Driver階段

相當於YARN集群的客戶端，用於提交我們整個程序到YARN集群，提交的是封裝了MapReduce程序相關運行參數的job對象。

WordCount案例實操

1．需求

在給定的文本文件中統計輸出每一個單詞出現的總次數

（1）輸入數據，hello.txt

（2）期望輸出數據

<code>atguigu 2
banzhang 1
cls 2
hadoop 1
jiao 1
ss 2
xue 1/<code>

2．需求分析

按照MapReduce編程規範，分別編寫Mapper，Reducer，Driver，

3．環境準備

（1）創建maven工程

（2）在pom.xml文件中添加如下依賴

<code>
		
			junit
			junit
			RELEASE
		
		
			org.apache.logging.log4j
			log4j-core
			2.8.2
		
		
			org.apache.hadoop
			hadoop-common
			2.7.2
		
		
			org.apache.hadoop
			hadoop-client
			2.7.2
		
		
			org.apache.hadoop
			hadoop-hdfs
			2.7.2
		
/<code>

（3）在項目的src/main/resources目錄下，新建一個文件，命名為“log4j.properties”，在文件中填入。

<code>log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n/<code>

4．編寫程序

（1）編寫Mapper類

<code>import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordcountMapper extends Mapper{
	
	Text k = new Text();
	IntWritable v = new IntWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {
		
		// 1 獲取一行
		String line = value.toString();
		
		// 2 切割
		String[] words = line.split(" ");
		
		// 3 輸出
		for (String word : words) {
			
			k.set(word);
			context.write(k, v);
		}
	}
}/<code>

（2）編寫Reducer類

<code>import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordcountReducer extends Reducer{

int sum;
IntWritable v = new IntWritable();

	@Override
	protected void reduce(Text key, Iterable values,Context context) throws IOException, InterruptedException {
		
		// 1 累加求和
		sum = 0;
		for (IntWritable count : values) {
			sum += count.get();
		}
		
		// 2 輸出
       v.set(sum);
		context.write(key,v);
	}
}/<code>

（3）編寫Driver驅動類

<code>import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordcountDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

		// 1 獲取配置信息以及封裝任務
		Configuration configuration = new Configuration();
		Job job = Job.getInstance(configuration);

		// 2 設置jar加載路徑
		job.setJarByClass(WordcountDriver.class);

		// 3 設置map和reduce類
		job.setMapperClass(WordcountMapper.class);
		job.setReducerClass(WordcountReducer.class);

		// 4 設置map輸出
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);

		// 5 設置最終輸出kv類型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		// 6 設置輸入和輸出路徑
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 7 提交
		boolean result = job.waitForCompletion(true);

		System.exit(result ? 0 : 1);
	}
}/<code>

5．本地測試

（1）如果電腦系統是win7的就將win7的hadoop jar包解壓到非中文路徑，並在Windows環境上配置HADOOP_HOME環境變量。如果是電腦win10操作系統，就解壓win10的hadoop jar包，並配置HADOOP_HOME環境變量。

注意：win8電腦和win10家庭版操作系統可能有問題，需要重新編譯源碼或者更改操作系統。

（2）在Eclipse/Idea上運行程序

6．集群上測試

（1）用maven打jar包，需要添加的打包插件依賴

注意：標記紅顏色的部分需要替換為自己工程主類

<code>
		
			
				maven-compiler-plugin
				2.3.2
				
					1.8
					1.8
				
			
			
				maven-assembly-plugin 
				
					
						jar-with-dependencies
					
					
						
							com.atguigu.mr.WordcountDriver
						
					
				
				
					
						make-assembly
						package
						
							single
						
					
				
			
		
	/<code>

注意：如果工程上顯示紅叉。在項目上右鍵->maven->update project即可。

（1）將程序打成jar包，然後拷貝到Hadoop集群中

步驟詳情：右鍵->Run as->maven install。等待編譯完成就會在項目的target文件夾中生成jar包。如果看不到。在項目上右鍵-》Refresh，即可看到。修改不帶依賴的jar包名稱為wc.jar，並拷貝該jar包到Hadoop集群。

（2）啟動Hadoop集群

（3）執行WordCount程序

<code>hadoop jar  wc.jar
 com.atguigu.wordcount.WordcountDriver /user/atguigu/input /user/atguigu/output/<code>

Hadoop序列化

序列化概述

序列化就是把內存中的對象，轉換成字節序列（或其他數據傳輸協議）以便於存儲到磁盤（持久化）和網絡傳輸。

反序列就是將收到字節序列（或其他數據傳輸協議）或者是磁盤的持久化數據，轉換成內存中的對象。

為什麼要序列化

一般來說，“活的”對象只生存在內存裡，關機斷電就沒有了。而且“活的”對象只能由本地的進程使用，不能被髮送到網絡上的另外一臺計算機。然而序列化可以存儲“活的對象”，可以將“活的”對象發送到遠程計算機。

為什麼不用Java的序列化

Java的序列化是一個重量級序列化框架，一個對象被序列化後，會附帶很多額外的信息(各種校驗信息，Header，繼承體系等)，不便於在網絡中高效傳輸。所以，Hadoop自己開發了一套序列化機制(Writable)。

Hadoop序列化特點：

（1）緊湊：高效使用存儲空間

（2）快速：讀寫數據的額外開銷小

（3）可擴展性：隨著通信協議的升級而可升級

（4）支持多語言的交互

自定義bean對象實現序列化接口（Writable）

在企業開發中往往常用的基本序列化類型不能滿足所有需求，比如在Hadoop框架內部傳遞一個bean對象，那麼該對象就需要實現序列化接口。

具體實現bean對象序列化步驟如下7步。

（1）必須實現Writable接口

（2）反序列化時，需要反射調用空參構造函數，所以必須有空參構造

<code>public FlowBean() {
	super();
}/<code>

（3）重寫序列化方法

<code>@Override
public void write(DataOutput out) throws IOException {
	out.writeLong(upFlow);
	out.writeLong(downFlow);
	out.writeLong(sumFlow);
}/<code>

（4）重寫反序列化方法

<code>@Override
public void readFields(DataInput in) throws IOException {
	upFlow = in.readLong();
	downFlow = in.readLong();
	sumFlow = in.readLong();
}/<code>

（5）注意反序列化的順序和序列化的順序完全一致

（6）要想把結果顯示在文件中，需要重寫toString()，可用”\t”分開，方便後續用。

（7）如果需要將自定義的bean放在key中傳輸，則還需要實現Comparable接口，因為MapReduce框中的Shuffle過程要求對key必須能排序。

<code>@Override
public int compareTo(FlowBean o) {
	// 倒序排列，從大到小
	return this.sumFlow > o.getSumFlow() ? -1 : 1;
}/<code>

序列化案例實操

1. 需求

統計每一個手機號耗費的總上行流量、下行流量、總流量

（1）輸入數據

phone_data.txt

（2）輸入數據格式：

<code>7 13560436666 120.196.100.99 1116  954 200
id 手機號碼 網絡ip 上行流量  下行流量     網絡狀態碼/<code>

（3）期望輸出數據格式

<code>13560436666 		1116		      954 			2070
手機號碼		    上行流量        下行流量		總流量/<code>

2．需求分析

3．編寫MapReduce程序

（1）編寫流量統計的Bean對象

<code>import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;

// 1 實現writable接口
public class FlowBean implements Writable{

	private long upFlow;
	private long downFlow;
	private long sumFlow;
	
	//2  反序列化時，需要反射調用空參構造函數，所以必須有
	public FlowBean() {
		super();
	}

	public FlowBean(long upFlow, long downFlow) {
		super();
		this.upFlow = upFlow;
		this.downFlow = downFlow;
		this.sumFlow = upFlow + downFlow;
	}
	
	//3  寫序列化方法
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(upFlow);
		out.writeLong(downFlow);
		out.writeLong(sumFlow);
	}
	
	//4 反序列化方法
	//5 反序列化方法讀順序必須和寫序列化方法的寫順序必須一致
	@Override
	public void readFields(DataInput in) throws IOException {
		this.upFlow  = in.readLong();
		this.downFlow = in.readLong();
		this.sumFlow = in.readLong();
	}

	// 6 編寫toString方法，方便後續打印到文本
	@Override
	public String toString() {
		return upFlow + "\t" + downFlow + "\t" + sumFlow;
	}

	public long getUpFlow() {
		return upFlow;
	}

	public void setUpFlow(long upFlow) {
		this.upFlow = upFlow;
	}

	public long getDownFlow() {
		return downFlow;
	}

	public void setDownFlow(long downFlow) {
		this.downFlow = downFlow;
	}

	public long getSumFlow() {
		return sumFlow;
	}

	public void setSumFlow(long sumFlow) {
		this.sumFlow = sumFlow;
	}
}/<code>

（2）編寫Mapper類

<code>
		
			junit
			junit
			RELEASE
		
		
			org.apache.logging.log4j
			log4j-core
			2.8.2
		
		
			org.apache.hadoop
			hadoop-common
			2.7.2
		
		
			org.apache.hadoop
			hadoop-client
			2.7.2
		
		
			org.apache.hadoop
			hadoop-hdfs
			2.7.2
		
/<code>

（3）編寫Reducer類

<code>log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n/<code>

（4）編寫Driver驅動類

<code>import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowsumDriver {

	public static void main(String[] args) throws IllegalArgumentException, IOException, ClassNotFoundException, InterruptedException {
		
// 輸入輸出路徑需要根據自己電腦上實際的輸入輸出路徑設置
args = new String[] { "e:/input/inputflow", "e:/output1" };

		// 1 獲取配置信息，或者job對象實例
		Configuration configuration = new Configuration();
		Job job = Job.getInstance(configuration);

		// 6 指定本程序的jar包所在的本地路徑
		job.setJarByClass(FlowsumDriver.class);

		// 2 指定本業務job要使用的mapper/Reducer業務類
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);

		// 3 指定mapper輸出數據的kv類型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);

		// 4 指定最終輸出的數據的kv類型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		
		// 5 指定job的輸入原始文件所在目錄
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 7 將job中配置的相關參數，以及job所用的java類所在的jar包， 提交給yarn去運行
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}/<code>

MapReduce框架原理

InputFormat數據輸入

切片與MapTask並行度決定機制

1．問題引出

MapTask的並行度決定Map階段的任務處理併發度，進而影響到整個Job的處理速度。

思考：1G的數據，啟動8個MapTask，可以提高集群的併發處理能力。那麼1K的數據，也啟動8個MapTask，會提高集群性能嗎？MapTask並行任務是否越多越好呢？哪些因素影響了MapTask並行度？

2．MapTask並行度決定機制

數據塊：Block是HDFS物理上把數據分成一塊一塊。

數據切片：數據切片只是在邏輯上對輸入進行分片，並不會在磁盤上將其切分成片進行存儲。

Job提交流程源碼和切片源碼詳解

1．Job提交流程源碼詳解

<code>import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordcountMapper extends Mapper{
	
	Text k = new Text();
	IntWritable v = new IntWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {
		
		// 1 獲取一行
		String line = value.toString();
		
		// 2 切割
		String[] words = line.split(" ");
		
		// 3 輸出
		for (String word : words) {
			
			k.set(word);
			context.write(k, v);
		}
	}
}/<code>

FileInputFormat切片源碼解析(input.getSplits(job))

（1）程序先找你數據存儲的目錄

（2）開始遍歷處理（規範切片）目錄下的每一個文件

（3）遍歷第一個文件ss.txt

a)獲取文件大小fs.sizeOf(ss.txt)

b)計算切片大小

computeSplitSize(Math.max(Math.mini(maxSize,blocksize)))=blocksize=128M

c)默認情況下，切片大小=blocksize

d)開始切，形成

第一個切片：ss.txt——0:128M

第二個切片ss.txt——128:256M

第三個切片ss.txt——256M:300M

（每次切片時，都要判斷切完剩下的部分是否大於塊的1.1倍，不大於1.1倍就劃分一塊切片）

e)將切片信息寫到一個切片規劃文件中

f)整個切片的核心過程在getSplit()方法中完成

g)InputSplit只記錄了切片的元數據信息，比如起始位置，長度以及所在的節點列表等。

(4)提交切片規劃文件到YARN上，YARN上的MrAppMaster就可以根據切片規劃文件計算開啟MapTask個數。

FileInputFormat切片機制

1.切片機制

（1）簡單地按照文件的內容長度進行切片

（2）切片大小，默認等於Block大小

（3）切片時不考慮數據集整體，而是逐個針對每一個文件單獨切片

2.案例分析

（1）輸入數據有兩個文件：

（2）經過FIleIputFormat的切片機制運算後，形成的切片信息如下：

FileInputFormat切片大小的參數配置

（1）源碼中計算切片大小的公式

Math.max(minSize,Math.mini(MaxSize,blockSize))；

mapreduce.input.fileinputformat.split.minisize=1 默認值為1

mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue默認值Long.MAXValue。因此，默認情況下，切片大小=blocksize。

（2）切片大小設置

maxsize（切片最大值）：參數如果調得比blockSize小，則會讓切片變小，而且就等於配置的這個參數的值。

minsize（切片最小值）：參數調的比blockSize大，則可以讓切片變得比blockSize還大。

（2）獲取切片信息API

<code>import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordcountReducer extends Reducer{

int sum;
IntWritable v = new IntWritable();

	@Override
	protected void reduce(Text key, Iterable values,Context context) throws IOException, InterruptedException {
		
		// 1 累加求和
		sum = 0;
		for (IntWritable count : values) {
			sum += count.get();
		}
		
		// 2 輸出
       v.set(sum);
		context.write(key,v);
	}
}/<code>

CombineTextInputFormat切片機制

框架默認的TextInputFormat切片機制是對任務按文件規劃切片，不管文件多小，都會是一個單獨的切片，都會交給一個MapTask，這樣如果有大量小文件，就會產生大量的MapTask，處理效率極其低下。

1、應用場景：

CombineTextInputFormat用於小文件過多的場景，它可以將多個小文件從邏輯上規劃到一個切片中，這樣，多個小文件就可以交給一個MapTask處理。

2、虛擬存儲切片最大值設置

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m

注意：虛擬存儲切片最大值設置最好根據實際的小文件大小情況來設置具體的值。

3、切片機制

生成切片過程包括：虛擬存儲過程和切片過程二部分。

（1）虛擬存儲過程：

將輸入目錄下所有文件大小，依次和設置的setMaxInputSplitSize值比較，如果不大於設置的最大值，邏輯上劃分一個塊。如果輸入文件大於設置的最大值且大於兩倍，那麼以最大值切割一塊；當剩餘數據大小超過設置的最大值且不大於最大值2倍，此時將文件均分成2個虛擬存儲塊（防止出現太小切片）。

例如setMaxInputSplitSize值為4M，輸入文件大小為8.02M，則先邏輯上分成一個4M。剩餘的大小為4.02M，如果按照4M邏輯劃分，就會出現0.02M的小的虛擬存儲文件，所以將剩餘的4.02M文件切分成（2.01M和2.01M）兩個文件。

（2）切片過程：

（a）判斷虛擬存儲的文件大小是否大於setMaxInputSplitSize值，大於等於則單獨形成一個切片。

（b）如果不大於則跟下一個虛擬存儲文件進行合併，共同形成一個切片。

（c）測試舉例：有4個小文件大小分別為1.7M、5.1M、3.4M以及6.8M這四個小文件，則虛擬存儲之後形成6個文件塊，大小分別為：

1.7M，（2.55M、2.55M），3.4M以及（3.4M、3.4M）

最終會形成3個切片，大小分別為：（1.7+2.55）M，（2.55+3.4）M，（3.4+3.4）M

CombineTextInputFormat案例實操

1．需求

將輸入的大量小文件合併成一個切片統一處理。

（1）輸入數據

準備4個小文件

（2）期望

期望一個切片處理4個文件

2．實現過程

（1）不做任何處理，運行1.6節的WordCount案例程序，觀察切片個數為4。

（2）在WordcountDriver中增加如下代碼，運行程序，並觀察運行的切片個數為3。

（a）驅動類中添加代碼如下：

<code>// 如果不設置InputFormat，它默認用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虛擬存儲切片最大值設置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);/<code>

（b）運行如果為3個切片。

（3）在WordcountDriver中增加如下代碼，運行程序，並觀察運行的切片個數為1。

（a）驅動中添加代碼如下：

<code>// 如果不設置InputFormat，它默認用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虛擬存儲切片最大值設置20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);/<code>

（b）運行如果為1個切片。

FileInputFormat實現類

思考：在運行MapReduce程序時，輸入文件格式包括：基於行的日誌文件，二進制格式文件，數據庫表等。那麼，針對不同的數據類型，MapReduce是如何讀取這些數據的呢？

FileInputFormat常見的接口實現類包括：TextInputFormat，KeyValueInputFormat，NLineInputFormat，CombineTextInputFormat和自定義InputFormat等。

1.TextInputFormat

TextInputFormat是默認的FileInputFormat實現類。按行讀取每條記錄。鍵是存儲該行在整個文件中的起始字節偏移量，LongWritable類型。值是這樣的內容，不包括任何行終止符（換行符和回車符），Text類型。

以下是一個示例，比如，一個分片包含了如下4條文本記錄。

每條記錄表為以下鍵/值對：

2.KeyValueTextInputFormat

每一行均為一條記錄，被分隔符分割為key，value。可以通過在驅動類中設置

conf.set(Key ValueLineRecordReader.KEY_VALUE_SEPERATOR,"/t");來設定分隔符。

默認分隔符是tab(\t)。

以下是一個示例，輸入是一個包含4條記錄的分片。其中--->表示一個(水平方向的)製表符。

每條記錄表示為以下鍵/值對：

此時的鍵是每行排在製表符之前的Text序列。

3.NLineInputFormat

如果使用NlineInputFormat，代表每個map進程處理的InputSplit不再按Block塊去劃分，而是按NlineInputFormat指定的行數N來劃分。即輸入文件的總行數/N=切片數，如果不整除，切片數=商+1。

以下是一個示例，仍然以上面的4行輸入為例。

例如，如果N是2，則每個輸入分片包含兩行。開啟2個MapTask。

這裡的鍵和值與TextInputFormat生成的一樣。

KeyValueTextInputFormat使用案例

1．需求

統計輸入文件中每一行的第一個單詞相同的行數。

（1）輸入數據

<code>banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang/<code>

（2）期望結果數據

<code>banzhang	2
xihuan	2/<code>

2．需求分析

3．代碼實現

（1）編寫Mapper類

<code>import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class KVTextMapper extends Mapper{
	
// 1 設置value
   LongWritable v = new LongWritable(1);  
    
	@Override
	protected void map(Text key, Text value, Context context)
			throws IOException, InterruptedException {

// banzhang ni hao
        
        // 2 寫出
        context.write(key, v);  
	}
}/<code>

（2）編寫Reducer類

<code>import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class KVTextReducer extends Reducer{
	
    LongWritable v = new LongWritable();  
    
	@Override
	protected void reduce(Text key, Iterable values,	Context context) throws IOException, InterruptedException {
		
		 long sum = 0L;  

		 // 1 彙總統計
        for (LongWritable value : values) {  
            sum += value.get();  
        }
         
        v.set(sum);  
         
        // 2 輸出
        context.write(key, v);  
	}
}/<code>

（3）編寫Driver類

<code>import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class KVTextDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		
		Configuration conf = new Configuration();
		// 設置切割符
	conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, " ");
		// 1 獲取job對象
		Job job = Job.getInstance(conf);
		
		// 2 設置jar包位置，關聯mapper和reducer
		job.setJarByClass(KVTextDriver.class);
		job.setMapperClass(KVTextMapper.class);
    job.setReducerClass(KVTextReducer.class);
				
		// 3 設置map輸出kv類型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);

		// 4 設置最終輸出kv類型
		job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(LongWritable.class);
		
		// 5 設置輸入輸出數據路徑
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		// 設置輸入格式
	  job.setInputFormatClass(KeyValueTextInputFormat.class);
		
		// 6 設置輸出數據路徑
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7 提交job
		job.waitForCompletion(true);
	}
}/<code>

NLineInputFormat使用案例

1．需求

對每個單詞進行個數統計，要求根據每個輸入文件的行數來規定輸出多少個切片。此案例要求每三行放入一個切片中。

（1）輸入數據

<code>banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang banzhang ni hao
xihuan hadoop banzhang/<code>

（2）期望輸出數據

<code>Number of splits:4/<code>

2．需求分析

3．代碼實現

（1）編寫Mapper類

<code>import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class NLineMapper extends Mapper{
	
	private Text k = new Text();
	private LongWritable v = new LongWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {
		
		 // 1 獲取一行
        String line = value.toString();
        
        // 2 切割
        String[] splited = line.split(" ");
        
        // 3 循環寫出
        for (int i = 0; i < splited.length; i++) {
        	
        	k.set(splited[i]);
        	
           context.write(k, v);
        }
	}
}/<code>

（2）編寫Reducer類

<code>import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class NLineReducer extends Reducer{
	
	LongWritable v = new LongWritable();
	
	@Override
	protected void reduce(Text key, Iterable values,	Context context) throws IOException, InterruptedException {
		
        long sum = 0l;

        // 1 彙總
        for (LongWritable value : values) {
            sum += value.get();
        }  
        
        v.set(sum);
        
        // 2 輸出
        context.write(key, v);
	}
}/<code>

（3）編寫Driver類

<code>import java.io.IOException;
import java.net.URISyntaxException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class NLineDriver {
	
	public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
		
// 輸入輸出路徑需要根據自己電腦上實際的輸入輸出路徑設置
args = new String[] { "e:/input/inputword", "e:/output1" };

		 // 1 獲取job對象
		 Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);
        
        // 7設置每個切片InputSplit中劃分三條記錄
        NLineInputFormat.setNumLinesPerSplit(job, 3);
          
        // 8使用NLineInputFormat處理記錄數  
        job.setInputFormatClass(NLineInputFormat.class);  
          
        // 2設置jar包位置，關聯mapper和reducer
        job.setJarByClass(NLineDriver.class);  
        job.setMapperClass(NLineMapper.class);  
        job.setReducerClass(NLineReducer.class);  
        
        // 3設置map輸出kv類型
        job.setMapOutputKeyClass(Text.class);  
        job.setMapOutputValueClass(LongWritable.class);  
        
        // 4設置最終輸出kv類型
        job.setOutputKeyClass(Text.class);  
        job.setOutputValueClass(LongWritable.class);  
          
        // 5設置輸入輸出數據路徑
        FileInputFormat.setInputPaths(job, new Path(args[0]));  
        FileOutputFormat.setOutputPath(job, new Path(args[1]));  
          
        // 6提交job
        job.waitForCompletion(true);  
	}
}/<code>

4．測試

（1）輸入數據

<code>banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang
banzhang ni hao
xihuan hadoop banzhang banzhang ni hao
xihuan hadoop banzhang/<code>

（2）輸出結果的切片數

自定義InputFormat

在企業開發中，Hadoop框架自帶的InputFormat類型不能滿足所有應用場景，需要自定義InputFormat來解決實際問題。

自定義InputFormat步驟如下：

（1）自定義一個類繼承FileInputFormat

（2）改寫RecordReader，實現一個讀取一個完整文件封裝為KV

（3）在輸出時使用SequenceFileOutPutFormat輸出合併文件。

自定義InputFormat案例實操

無論HDFS還是MapReduce，在處理小文件時效率都非常低，但又難免面臨處理大量小文件的場景，此時，就需要有相應解決方案。可以自定義InputFormat實現小文件的合併。

1．需求

將多個小文件合併成一個SequenceFile文件（SequenceFile文件是Hadoop用來存儲二進制形式的key-value對的文件格式），SequenceFile裡面存儲著多個文件，存儲的形式為文件路徑+名稱為key，文件內容為value。

（1）輸入數據

（2）期望輸出文件格式

2．需求分析

1.自定義一個類繼承FileInputFormat

（1）重寫isSplitable()方法，返回false不可切割

（2）重寫createRecordReader(),創建自定義的RecordReader對象，並初始化

2.改寫RecordReader，實現一次讀取一個完整文件封裝為KV

（1）採用IO流一次讀取一個文件輸出到value中，因為設置了不可切片，最終把所有文件封裝了value中。

（2）獲取文件路徑信息+名稱，並設置key

3.設置Driver

3．程序實現

（1）自定義InputFromat

<code>import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

// 定義類繼承FileInputFormat
public class WholeFileInputformat extends FileInputFormat{
	
	@Override
	protected boolean isSplitable(JobContext context, Path filename) {
		return false;
	}

	@Override
	public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context)	throws IOException, InterruptedException {
		
		WholeRecordReader recordReader = new WholeRecordReader();
		recordReader.initialize(split, context);
		
		return recordReader;
	}
}/<code>

（2）自定義RecordReader類

<code>import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class WholeRecordReader extends RecordReader{

	private Configuration configuration;
	private FileSplit split;
	
	private boolean isProgress= true;
	private BytesWritable value = new BytesWritable();
	private Text k = new Text();

	@Override
	public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
		
		this.split = (FileSplit)split;
		configuration = context.getConfiguration();
	}

	@Override
	public boolean nextKeyValue() throws IOException, InterruptedException {
		
		if (isProgress) {

			// 1 定義緩存區
			byte[] contents = new byte[(int)split.getLength()];
			
			FileSystem fs = null;
			FSDataInputStream fis = null;
			
			try {
				// 2 獲取文件系統
				Path path = split.getPath();
				fs = path.getFileSystem(configuration);
				
				// 3 讀取數據
				fis = fs.open(path);
				
				// 4 讀取文件內容
				IOUtils.readFully(fis, contents, 0, contents.length);
				
				// 5 輸出文件內容
				value.set(contents, 0, contents.length);

       // 6 獲取文件路徑及名稱
       String name = split.getPath().toString();

       // 7 設置輸出的key值
       k.set(name);

			} catch (Exception e) {
				
			}finally {
				IOUtils.closeStream(fis);
			}
			
			isProgress = false;
			
			return true;
		}
		
		return false;
	}

	@Override
	public Text getCurrentKey() throws IOException, InterruptedException {
		return k;
	}

	@Override
	public BytesWritable getCurrentValue() throws IOException, InterruptedException {
		return value;
	}

	@Override
	public float getProgress() throws IOException, InterruptedException {
		return 0;
	}

	@Override
	public void close() throws IOException {
	}
}/<code>

（3）編寫SequenceFileMapper類處理流程

<code>import java.io.IOException;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class SequenceFileMapper extends Mapper{
	
	@Override
	protected void map(Text key, BytesWritable value,			Context context)		throws IOException, InterruptedException {

		context.write(key, value);
	}
}/<code>

（4）編寫SequenceFileReducer類處理流程

<code>import java.io.IOException;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class SequenceFileReducer extends Reducer {

	@Override
	protected void reduce(Text key, Iterable values, Context context)		throws IOException, InterruptedException {

		context.write(key, values.iterator().next());
	}
}/<code>

（5）編寫SequenceFileDriver類處理流程

<code>package com.atguigu.mapreduce.inputformat;
import java.io.IOException;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class SequenceFileReducer extends Reducer {

	@Override
	protected void reduce(Text key, Iterable values, Context context)		throws IOException, InterruptedException {

		context.write(key, values.iterator().next());
	}
}
（5）編寫SequenceFileDriver類處理流程
package com.atguigu.mapreduce.inputformat;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

public class SequenceFileDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		
       // 輸入輸出路徑需要根據自己電腦上實際的輸入輸出路徑設置
		args = new String[] { "e:/input/inputinputformat", "e:/output1" };

       // 1 獲取job對象
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);

       // 2 設置jar包存儲位置、關聯自定義的mapper和reducer
		job.setJarByClass(SequenceFileDriver.class);
		job.setMapperClass(SequenceFileMapper.class);
		job.setReducerClass(SequenceFileReducer.class);

       // 7設置輸入的inputFormat
		job.setInputFormatClass(WholeFileInputformat.class);

       // 8設置輸出的outputFormat
	 job.setOutputFormatClass(SequenceFileOutputFormat.class);
       
// 3 設置map輸出端的kv類型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(BytesWritable.class);
		
       // 4 設置最終輸出端的kv類型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(BytesWritable.class);

       // 5 設置輸入輸出路徑
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

       // 6 提交job
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}
3.2 MapReduce工作流程/<code>

MapReduce工作流程

1．流程示意圖

2．流程詳解

上面的流程是整個MapReduce最全工作流程，但是Shuffle過程只是從第7步開始到第16步結束，具體Shuffle過程詳解，如下：

1）MapTask收集我們的map()方法輸出的kv對，放到內存緩衝區中

2）從內存緩衝區不斷溢出本地磁盤文件，可能會溢出多個文件

3）多個溢出文件會被合併成大的溢出文件

4）在溢出過程及合併的過程中，都要調用Partitioner進行分區和針對key進行排序

5）ReduceTask根據自己的分區號，去各個MapTask機器上取相應的結果分區數據

6）ReduceTask會取到同一個分區的來自不同MapTask的結果文件，ReduceTask會將這些文件再進行合併（歸併排序）

7）合併成大文件後，Shuffle的過程也就結束了，後面進入ReduceTask的邏輯運算過程（從文件中取出一個一個的鍵值對Group，調用用戶自定義的reduce()方法）

3．注意

Shuffle中的緩衝區大小會影響到MapReduce程序的執行效率，原則上說，緩衝區越大，磁盤io的次數越少，執行速度就越快。

緩衝區的大小可以通過參數調整，參數：io.sort.mb默認100M。

4．源碼解析流程

<code>context.write(k, NullWritable.get());
output.write(key, value);
collector.collect(key, value,partitioner.getPartition(key, value, partitions));
	HashPartitioner();
collect()
	close()
	collect.flush()
sortAndSpill()
	sort()   QuickSort
mergeParts();
	//file.out
 //file.out.index
collector.close();/<code>

Shuffle機制

Map方法之後，Reduce方法之前的數據處理過程稱之為Shuffle。

MapTask工作機制

1）Read階段：MapTask通過用戶編寫的RecordReader，從輸入InputSplit中解析出一個個key/value。

（2）Map階段：該節點主要是將解析出的key/value交給用戶編寫map()函數處理，併產生一系列新的key/value。

（3）Collect收集階段：在用戶編寫map()函數中，當數據處理完成後，一般會調用OutputCollector.collect()輸出結果。在該函數內部，它會將生成的key/value分區（調用Partitioner），並寫入一個環形內存緩衝區中。

（4）Spill階段：即“溢寫”，當環形緩衝區滿後，MapReduce會將數據寫到本地磁盤上，生成一個臨時文件。需要注意的是，將數據寫入本地磁盤之前，先要對數據進行一次本地排序，並在必要時對數據進行合併、壓縮等操作。

溢寫階段詳情：

步驟1：利用快速排序算法對緩存區內的數據進行排序，排序方式是，先按照分區編號Partition進行排序，然後按照key進行排序。這樣，經過排序後，數據以分區為單位聚集在一起，且同一分區內所有數據按照key有序。

步驟2：按照分區編號由小到大依次將每個分區中的數據寫入任務工作目錄下的臨時文件output/spillN.out（N表示當前溢寫次數）中。如果用戶設置了Combiner，則寫入文件之前，對每個分區中的數據進行一次聚集操作。

步驟3：將分區數據的元信息寫到內存索引數據結構SpillRecord中，其中每個分區的元信息包括在臨時文件中的偏移量、壓縮前數據大小和壓縮後數據大小。如果當前內存索引大小超過1MB，則將內存索引寫到文件output/spillN.out.index中。

（5）Combine階段：當所有數據處理完成後，MapTask對所有臨時文件進行一次合併，以確保最終只會生成一個數據文件。

當所有數據處理完後，MapTask會將所有臨時文件合併成一個大文件，並保存到文件output/file.out中，同時生成相應的索引文件output/file.out.index。

在進行文件合併過程中，MapTask以分區為單位進行合併。對於某個分區，它將採用多輪遞歸合併的方式。每輪合併io.sort.factor（默認10）個文件，並將產生的文件重新加入待合併列表中，對文件排序後，重複以上過程，直到最終得到一個大文件。

讓每個MapTask最終只生成一個數據文件，可避免同時打開大量文件和同時讀取大量小文件產生的隨機讀取帶來的開銷。

ReduceTask工作機制

1．ReduceTask工作機制

（1）Copy階段：ReduceTask從各個MapTask上遠程拷貝一片數據，並針對某一片數據，如果其大小超過一定閾值，則寫到磁盤上，否則直接放到內存中。

（2）Merge階段：在遠程拷貝數據的同時，ReduceTask啟動了兩個後臺線程對內存和磁盤上的文件進行合併，以防止內存使用過多或磁盤上文件過多。

（3）Sort階段：按照MapReduce語義，用戶編寫reduce()函數輸入數據是按key進行聚集的一組數據。為了將key相同的數據聚在一起，Hadoop採用了基於排序的策略。由於各個MapTask已經實現對自己的處理結果進行了局部排序，因此，ReduceTask只需對所有數據進行一次歸併排序即可。

（4）Reduce階段：reduce()函數將計算結果寫到HDFS上。

2．設置ReduceTask並行度（個數）

ReduceTask的並行度同樣影響整個Job的執行併發度和執行效率，但與MapTask的併發數由切片數決定不同，ReduceTask數量的決定是可以直接手動設置：

3．實驗：測試ReduceTask多少合適

1）實驗環境：1個Master節點，16個Slave節點：CPU:8GHZ，內存: 2G

（2）實驗結論：

4．注意事項

（1）如果ReduceTask=0，表示沒有Reduce階段，輸出文件個數和Map個數一致。

（2）ReduceTask默認值就是1，所以輸出文件個數為一個。

（3）如果數據分佈不均勻，就有可能在Reduce階段產生數據傾斜。

（4）ReduceTask數量並不是任意設置，還要考慮業務邏輯需求，有些情況下，需要計算全局彙總結果，就只能有1個ReduceTask。

（5）具體多少個ReduceTask，需要根據集群性能而定。

（6）如果分區數不是1，但是ReduceTask為1，是否執行分區過程。答案是：不執行分區過程。因為在MapTask的源碼中，執行分區的前提是先判斷ReduceNum個數是否大於1。大於1肯定不執行。

分享到:

關鍵字: 分佈式 apache 切片

開源老兵教你如何評估一項技術是否值得長期投入？

整理：設備管理工作中的設備點檢內容

供聚會聯：大數據的結構跟特點

整理：在線少兒編程課程總彙！

國網福建中標公示：42家電纜企業中標，合計92666萬元

漫畫：什麼是數據倉庫？

分佈式計算框架

大數據大牛，終於用37部分講完了Hadoop體系之離線計算，共17.97G

300㎡房間的收納術！想要清爽整潔，先學會這些竅門

大數據分析人才，真如馬雲說的月薪高達30K嗎？

Clear up -- 整理； Clear out -- 清理

整理！全國500+家景點！

Hadoop Spark：全面比拼（架構、性能、成本、安全）

Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式

hadoop的安裝和三種模式的配置

《人民日報》整理：一讀就錯的116個漢字，高考生值得注意

《如何閱讀一本書》整理

三分鐘入門大數據之Hive與HBase之間的區別與聯繫是什麼？

三分鐘入門大數據之大數據基本的組件環境是什麼？

HBase批量加載

Yi Organizer電臺 | 與其改造家人，不如改變自己

分佈式計算框架spark

細述hbase協處理器

“996”式中國上班制與國外對比

第一章：MapReduce概述

代賬“奇才”整理：各行業賬務處理大全送你，助你成為完美代賬

運營技能地圖整理 (十)：平臺內容運營

運營技能地圖整理 (二）：活動策劃

運營技能地圖整理 (一）：社群運營

運營技能地圖整理 (九)：用戶增長

spark簡介

零基礎學習Hadoop應該如何學習

不用請整理師，也能輕鬆整理衣櫃

【檔案鉤沉】悅來路上的愛惠醫院往事

陝西2012年——2019年近8年中考英語真題大放送（獨家整理）

hadoop vs 其它系統

帶你瞭解分佈式框架hadoop

19年IT大佬整理了最新編程600集教程，今天免費分享！

「週五」福利，IT編程600集資料，免費送，7天學會，速來領取！

HBase批量加載架構

一篇舊文的覆盤和思考

19年IT界大佬整理出最新500編程教學視頻，現在免費分享！

混剪大量素材是怎樣蒐集整理的？有何先進的項目管理經驗？

30分鐘理解Spark的基本原理

簡素生活 | 整理，解憂

開源圖計算框架GraphLab介紹

整理！鍾南山新聞發佈會回答問題，兩次提醒下水道通暢極為重要

觸手可得的書櫃，如何整理？給你分享一些靈感

#現貨# 黃金：今天週五，黃金行情有點意思上午價格21-26整理，下午26-31整理，同等5美金行情！小時圖布林帶收口走平，4小時開口向上，加之行情抗跌，行情橫盤久了能否出現大行情？當前趨勢更傾向走高，前高1747是否能再次出觸及？以及行情是都是轉折，只能交給時間，下面是15分鐘，60分鐘以及24

戰“疫”終會勝利幸福終會來臨一年一度的情人節又來啦，少了往年熱鬧的晒禮物，晒紅包，晒恩愛，晒優秀老公…..特殊時期下的“2020愛你愛你”情人節顯得也格外與眾不同。在家可以做什麼？在家可以做的事情很多！既來之則安之，我們為宅在家的小姐妹準備了一些好主意，讓你足不出戶，也能輕鬆get到新技能

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

記者從河北省公安廳獲悉，日前公安部通緝的13名A級通緝犯中的2號通緝犯魯某某近日向河北邯鄲警方投案自首，這是公安部A級通緝令後又一通緝犯主動投案。

當我們在談 SaaS 的時候，在談什麼？

當我們在談SaaS 的時候，在談什麼？什麼是 SaaSSaaS 優缺點SaaS 銷售模式SaaS 產品指標SaaS 業務指標SaaS 收入計算一、什麼是 SaaS這個模式讓軟件變得和水電氣很相似，只需要每月繳納固定的費用即可享受服務。

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

現階段，隨著國家供給側結構性改革的不斷深入，人們在市場中的互易行為日益頻繁，合同在經濟活動發揮的作用也日漸凸顯。

5月西安招聘會時間安排來了！找工作的別錯過

乘車路線:西安市內乘坐12路、14路、14路區間、26路、215路、215路區間、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育專線、K605路、K616路、遊6路、遊8路61

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

基於以太坊區塊鏈的主要穩定幣包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“幫助當地居民解決用水難題”-今日頭條-手機光明網

晨曦初露，9歲的米格爾和弟弟妹妹們抱著水罐，穿過一片田野，到達安哥拉首都羅安達郊區的指定取水點。葛洲壩安哥拉有限公司市場部負責人劉世軒介紹說，公司每天派出送水車兩次，一次3車，將潔淨水從羅安達水廠直接運往指定取水點。

灌籃高手無水印壁紙，每一張都是回憶

那些年，我們追過的灌籃高手，你更喜歡誰呢？流川楓櫻木花道赤木剛憲宮城良田三井壽你喜歡哪個球員呢？歡迎評論區留言。

通遼藍天救援隊成功解救遼河公園水上被困群眾

2020年5月1日，通遼藍天救援隊假期例行在遼河公園水域進行安全巡邏任務，下午15時10分，巡邏隊員發現遼河水面有被困群眾向巡邏船隻求救，接到求救信號後，巡邏隊員緊急前往事故現場展開研判、救援準備工作。

5月6日·武漢要聞及抗擊肺炎快報

今天零時起高速公路恢復收費了，這些車輛還能免費5月6日零時起全國高速公路恢復收費在武漢北收費站ETC和人工車道全部可通行零時左右通過收費站的車輛並不多以大貨車為主有工作人員在一旁引導貨車進入高速收費站前要通過入口稱重檢測車道進入沒有超重超限便可順利通過現場沒有出現排隊的現象全省聯

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

2020年4月29日下午，肖副省長等省市領導來到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作，肖副省長等省市領導在學校領導陪同下，重點對校門口出入、保健室、教室、學生心理輔導室、洗手池等進行了非常細緻的檢查，對孝感市楚澴中學的復學和疫情防控工作給予充分的肯定。

相聲界的顏值擔當張雲雷稱號大揭祕

這個播放量就連師傅身為相聲演員的張雲雷卻有著堪比娛樂圈小鮮肉的顏值，一個相聲演員長成這樣，張雲雷不火誰能火。

美國百年薅羊毛攻略

當德國向法軍陣地傾洩400多萬發炮彈，揚言要讓凡爾登成為「碾碎法軍的絞肉機」時，遠在大西洋的美國人。

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

近日，由楊洋、江疏影主演的劇版《全職高手》在騰訊視頻正式開播了，該劇改編自蝴蝶藍同名小說，先前還被改編成動畫版。

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

前言：IG這隻老牌戰隊在我們LPL賽區以來都擁有著非常高的人氣，特別是在2018年之後，他們幫助我們LPL賽區奪得了第一個寶貴的S賽世界冠軍，而IG戰隊的打法一直以來也是非常有觀賞性的。

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

Doinb表示："可以的話我不想參加，首先這場比賽沒有任何意義，獲得勝利既不會有獎金也不會有榮譽，但萬一輸掉比賽FPX就會成為大家吐槽的焦點"。

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

大家都知道天后王菲和前夫李亞鵬他們育有一個女兒，名叫李嫣。於是李嫣因為偷偷的開了直播從而也導致了她被大家所發現，但李嫣的樂觀和開朗卻也讓李亞鵬放下心來，決定放飛女兒，讓她自由的去探索她想要的世界。

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

天王郭富城近日參加活動，首度承認妻子方媛懷有二胎的消息。從去年2017年兩人結婚，低調的愛情讓媒體都捕捉不到邊際，天王嫂31歲兩人相差了20歲的愛戀，始終不少人不看好啊。

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

演員在我們眼中一直都是光鮮亮麗、收入頗高的職業，並且現在有很多靠流量躋身一線，卻毫無演技以及實力的演員。

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

曾經賈乃亮是“陽光”的代名詞，大家看到他都覺得很暖，只不過後來就不是了。今天早上，他發了一條微博“人生的美好就是每天醒來都能看到上帝賜予我的那一米陽光”，這句話當中，賈乃亮用到了“一米陽光”這個詞。

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

當一名理髮師也不容易這是一隻有航天夢想的老鼠寶寶！什麼？這麼貴！把我賣了得了。小朋友，你贏了，我甘拜下風！

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

程瀟可謂是才女，她是中韓宇宙少女的成員之一，今年她只有20歲。不要看程瀟年紀比較小，但是她身材還是挺好的，身材也是典型S型曲線，魅力不小。

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

張柏芝是許多80後90後心目中的女神，除了顏值高有演技外，她和謝霆鋒的婚姻和戀情也曾是吃瓜群眾津津樂道的事。

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

前言：目前各大賽區的春季賽都已經結束了，T1戰隊在重組之後再度拿下了lck賽區的冠軍，這讓很多的玩家非常意外，這也從側面反映出來了，核心選手和主教練的個人能力，同時faker的實力再度被玩家們認可，最近一段時間他也是一直在直播，很多的人都在詢問，今年李哥的目標是什麼？

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

上線之後迅速引發了大量玩家的好評，就在最近，官方也是迎來了10.9版本，可是在目前的版本中再度出現了太多的畸形玩法了，應該是有史以來最不平衡的版本，因為一費卡的爆率大大提升，導致遊戲成為了三星的天下，全員搶一費卡，運氣成為吃雞的關鍵。

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

在本期節目中會評選出一位最美麗LPL女解說，其中瞳夕、Rita、餘霜等都在名單之中，最有趣的是管澤元居然也出現在了“女解說”名單中，全因餘霜一張P過的照片，論梗的話，管澤元第一，若是輪顏值，估計這也排不上名次。

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

不過要是像唐嫣和羅晉那樣用公費談戀愛的故事不多，大多數還是和不是心愛的人拍得多，但要是遇上岳雲鵬和佟麗婭拍親熱戲的話，那個畫面或許大家想象不出來吧。

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

LPL賽區的春季賽結束也有一段時間了，作為冠軍戰隊JDG，並沒有因為拿到冠軍而出現“人氣”的高漲，依舊平平淡淡，熟悉LPL賽區的玩家都知道，在LPL賽區中，一直以來都是由RNG、IG、EDG三家從“遠古”時期就開始統治LPL賽區，期間也有OMG和LGD、WE幾個戰隊打破了這個規律

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

學習結束，回到家後，在武大短暫學習的那段時光時常讓我懷念，並曾立下誓言，抽個暑假一定要帶著老婆孩子一起去“逛”武大。機會就這麼悄然而至！2019年第28屆世界腦力錦標賽全球總決賽的舉辦地就是武漢，比賽的日期是12月6日到8日，三天的時間。其實，我也沒有想到第一次參加這樣比賽的女兒

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

這不今天就有網友在論壇中聊起了這個話題，有網友表示“LPL隊伍其實都不想參加中韓友誼賽，LPL隊伍才剛結束春季賽，18天之後就要打夏季賽了，像IG可能會有人員變動FPX TES 應該也會利用這段時間來檢討分析，也許只有JDG 比較願意參加，doinb只是第一表態的選手，可能還有很

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽，於2020年04月28日上線，由信陽本地聯盟上傳。西瓜視頻為您提供高清視頻，畫面清晰、播放流暢，看豐富、高質量視頻就上西瓜視頻。

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

TOP20 - 「優雅的家」這部由林秀香、李章宇、裴宗玉等人所主演的《優雅的家》，當時一播出就引起不少話題，雖然劇情有點浮誇，但卻莫名好看，而當時該劇還刷新了MBN電視臺的記錄呢~《優雅的家》主要講述一位擁有完美外貌和身材的MC集團獨生女毛碩熙，為了查明15年母親去世的真相，因此

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

我這暴脾氣，等你剝完我能吃五個你帶著你家貓去做演員吧！這貓太有前途了！這是我見過最牛的啦啦隊！自從有了弟弟，老大就和家務結緣了狼狗：要不是主人在，我非吃了你兩個小子！

備考消防的幾大錯覺，你有這個情況嗎？

講真，很多時候我們會把事情想當然，並因為這些錯覺而採取錯誤的舉動，一消備考是一場毅力和心智的戰鬥，大家難免會產生一些錯覺，從而影響自己的備考效率，甚至導致備考失敗。

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

豆瓣開分8.3，漸漸跌到7.7分，熱門短評寫道：“同樣是金編，差距怎麼這麼大”、“看了四集節奏真的是一團糟，比起隔壁《夫妻的世界》真的差一大截”。

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患

隨著“五一”期間氣溫大幅回升全國大部分地區已經進入初夏在享受小長假春日美景的同時森林火險等級也隨之明顯提升新疆森林消防提示您春季氣溫回升快野外草木乾燥你的一個失當用火行為就有可能引發森林大火勿念蔥林繁似海一星燃盡只塵埃

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

弟弟：姐姐你能利索點嗎家裡有個熊孩子，說實話心很累同學感覺你好可伶，一個人跳舞多尷尬啊！看我病好了怎麼收拾你們！真的是以迅雷不及掩耳之勢啊。姑涼，你……掉毛啊！小姐姐你是想找男朋友嗎用這樣的方式，結局很意外此處注意安全！

工程發承包、工程造價條款，或迎來大調整

第二章建設規劃與設計第一節建設規劃第八條建設規劃的體系第九條建設規劃的編制與審批第十條建設規劃的內容第十一條建設規劃的實施與評估第二節城市設計第十二條城市設計的基本要求第十三條城市設計的編制和審批第十四條城市設計的實施和管理第三節建築設計第十五條建築設計的基

新增四省！關於2019年一級建造師考試證書、複核發佈公告

快來看看吧~青海關於恢復專業技術人員職業資格證書的發放、補辦工作的通知各位考生：隨著疫情防控進入常態化，青海省新冠疫情得到有效控制，專業技術人員職業資格證書的印製、發放工作正在逐步恢復，為方便廣大考生辦理證書業務，4月28日起青海省人力資源和社會保障服務中心一樓大廳65、66號辦

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

“煙籠寒水月籠沙，不止東湖與櫻花，門前風景雨來佳，蓮藕魚糕玉露茶，鳳爪藕帶熱乾麵，米酒香菇小龍蝦，守住金蓮不自誇，趕緊下單買回家，買它買它就買它，熱乾麵和小龍蝦。”

幸福的人，總會忘記舊愛

幸福從來不可能是有個人幫你搞定所有的一切，而你只需要坐享其成。她喜歡喝銀耳蓮子羹而且必須是上好的銀耳，用小火慢慢燉到砧稠那一日，他去看她，她冷冷地從屋裡走出來，丟給他一本書.對他說:"廚房裡小鍋燉著東西，你幫我去看看。”他真真地守了一個多小時，端到她面前。

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

俗話說的好“愛美之心人人都有”而讓自己快速變美的方法無疑就是“整容”如今的社會整容看起來似乎很平常。

驚了！這件事沒有做，一消證書等於白考！

不要慌，同學們，遇到問題不要怕，拿到證書不去註冊，相當於證書無效，今天就為大家一一解答註冊證書的相關問題。

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

從九十年代末開始，在我國農村地區就興起了一股“進城潮”，記得那個時候，農村的經濟發展相對滯後，村民生活條件艱苦，鄉親們為了擺脫貧困，只能告別親人，遠離家鄉去外面打拼賺錢。

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

25歲有上百億身家文/娛樂深扒爆姐圖/網絡張藝謀是一位非常有實力的導演，同時非常出名，而且他拍攝的作品中有不少獲獎無數的經典影片，同時也捧紅過不少藝人。

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

有人為了生計不顧自身安危，有人躲在家中安然度日，還有人僅僅因為一個手機，就要放棄自己的生命...這個女孩，今年上初三，因為疫情的原因，全國各地都展開了網課線上教育，女孩的學校也不例外。

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

這部劇是2016年年底播出的，熱度一直持續到了2017年，相關的周邊和景點都相當熱門，像是池恩卓跟鬼怪大叔相遇的海邊、劇中出現的鬼怪玩偶、還有鬼怪大叔的拔劍特效等等。

高考延期：七月的高考，最熱的天，做最難的題！

後來，由於7月份氣候較差，極端天氣頻發，尤其是南方地區，要麼極端高溫，要麼就是颱風，對於高考來說非常不友好，不僅考生的考試質量會下降，而且閱卷老師、高考工作者也不方便，因此，從2003年開始，高考日期都固定在了每年的6月7日、8日。

MapReduce知識整理

MapReduce概述

Hadoop序列化

MapReduce框架原理

相關文章:

開源老兵教你如何評估一項技術是否值得長期投入？

整理：設備管理工作中的設備點檢內容

供聚會聯：大數據的結構跟特點

整理：在線少兒編程課程總彙！

國網福建中標公示：42家電纜企業中標，合計92666萬元

漫畫：什麼是數據倉庫？

分佈式計算框架

大數據大牛，終於用37部分講完了Hadoop體系之離線計算，共17.97G

300㎡房間的收納術！想要清爽整潔，先學會這些竅門

大數據分析人才，真如馬雲說的月薪高達30K嗎？

Clear up -- 整理； Clear out -- 清理

整理！全國500+家景點！

Hadoop Spark：全面比拼（架構、性能、成本、安全）

Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式

hadoop的安裝和三種模式的配置

《人民日報》整理：一讀就錯的116個漢字，高考生值得注意

《如何閱讀一本書》整理

三分鐘入門大數據之Hive與HBase之間的區別與聯繫是什麼？

三分鐘入門大數據之大數據基本的組件環境是什麼？

HBase批量加載

Yi Organizer電臺 | 與其改造家人，不如改變自己

分佈式計算框架spark

細述hbase協處理器

“996”式中國上班制與國外對比

第一章：MapReduce概述

代賬“奇才”整理：各行業賬務處理大全送你，助你成為完美代賬

運營技能地圖 整理 (十)：平臺內容運營

運營技能地圖 整理 (二）：活動策劃

運營技能地圖 整理 (一）：社群運營

運營技能地圖 整理 (九)：用戶增長

spark簡介

零基礎學習Hadoop應該如何學習

不用請整理師，也能輕鬆整理衣櫃

【檔案鉤沉】悅來路上的愛惠醫院往事

陝西2012年——2019年近8年中考英語真題大放送（獨家整理）

hadoop vs 其它系統

帶你瞭解分佈式框架hadoop

19年IT大佬整理了最新編程600集教程，今天免費分享！

「週五」福利，IT編程600集資料，免費送，7天學會，速來領取！

HBase批量加載架構

一篇舊文的覆盤和思考

19年IT界大佬整理出最新500編程教學視頻，現在免費分享！

混剪大量素材是怎樣蒐集整理的？有何先進的項目管理經驗？

30分鐘理解Spark的基本原理

簡素生活 | 整理，解憂

開源圖計算框架GraphLab介紹

整理！鍾南山新聞發佈會回答問題，兩次提醒下水道通暢極為重要

觸手可得的書櫃，如何整理？給你分享一些靈感

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

運營技能地圖整理 (十)：平臺內容運營

運營技能地圖整理 (二）：活動策劃

運營技能地圖整理 (一）：社群運營

運營技能地圖整理 (九)：用戶增長

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患