老師,IDEA如何在本地運行和調試Hadoop程序?

# 前言

Hadoop可以運行在三種模式下:

1.單機模式

2.偽分佈模式

3.完全分佈式模式

相信初學者入門Hadoop的第一堂課就是偽分佈模式Hadoop系統的安裝,相信一定是血淚史各種翻教程各種重裝。而實際上,基於Hadoop的MapReduce程序在單機上運行,並不一定需要安裝偽分佈模式Hadoop系統,甚至,並不一定需要安裝Hadoop。

運行和調試MapReduce程序只需要有相應的Hadoop依賴包就行,可以完全當成一個普通的JAVA程序。本文就將介紹這種簡單方便的方法。

# 簡介

正如上文所說,在單機模式下,可以將MapReduce程序當成一個普通的JAVA程序;對比偽分佈模式,其主要不足就在於沒有Hadoop的整個管理控制系統,如JobTracker面板,而只是用來運行和調試程序;而其優點就在於開發調試方便,編寫的程序通常不需要修改即可在真實的分佈式Hadoop集群下運行。

Maven

Maven是一個項目管理工具,我們這裡主要用到的是它的依賴管理系統。通常我們在開發Hadoop MapReduce程序時,首先要下載對應版本的鏡像,然後加載鏡像中的JAR依賴包,開始編寫代碼。這個步驟說起來容易但經常會碰到錯綜複雜的依賴關係,而利用Maven就能輕鬆解決這個問題。只需要在Maven配置文件中指定Hadoop依賴包名字和版本號,Maven就能自動搞定這些依賴,你只需要專心寫代碼就好了。

Intellij IDEA

為什麼不用Eclipse呢?這裡沒有貶低Eclipse的意思,只是我認為Eclipse用戶體驗太差,而且各種操作過於繁瑣。Intellij用起來更順手,內置了Maven的支持,而且看起來似乎更有前景,就使用Intellij了。

環境要求

1.JDK 1.7(1.8似乎也可以,但Hadoop官方推薦1.7)

2.Intellij

不需要安裝任何模式的Hadoop。

WordCount

這裡以Hadoop的官方示例程序WordCount為例,演示如何一步步編寫程序直到運行。

新建項目

在Intellij中點擊File->New->Project,在彈出的對話框中選擇Maven,JDK選擇1.7,點擊Next。

老師,IDEA如何在本地運行和調試Hadoop程序?

接下來填寫Maven的GroupId和ArtifactId,隨便填,點擊Next。

老師,IDEA如何在本地運行和調試Hadoop程序?

然後是Project name,這裡填寫WordCount,點擊Finish。

老師,IDEA如何在本地運行和調試Hadoop程序?

這樣就新建好了一個空的項目,彆著急,還有一個地方可能需要修改。打開Intellij的Preference偏好設置,定位到Build, Execution, Deployment->Compiler->Java Compiler,將WordCount的Target bytecode version修改為1.7。

老師,IDEA如何在本地運行和調試Hadoop程序?

配置依賴

新建項目後,在Intellij左上方會有項目文件結構,雙擊以編輯pom.xml,這就是Maven的配置了。

添加源

pom.xml初始內容如下XML


<projectxmlns>xmlns:xsi="http://www.w3.org/2001/XMLSchemainstance
"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelversion>4.0.0/<modelversion>

<groupid>com.polarxiong/<groupid>
<artifactid>hadoop/<artifactid>
<version>1.0-SNAPSHOT/<version>


/<projectxmlns>

在project內尾部添加

XML

<repositories>
<repository>
apache
http://maven.apache.org
/<repository>
/<repositories>

添加apache源。

添加依賴

這裡只需要用到基礎依賴hadoop-core和hadoop-common;如果需要讀寫HDFS,則還需要依賴hadoop-hdfs和hadoop-client;如果需要讀寫HBase,則還需要依賴hbase-client。

在project內尾部添加

XML

<dependencies>
<dependency>
<groupid>org.apache.hadoop/<groupid>
<artifactid>hadoop-core/<artifactid>
<version>1.2.1/<version>
/<dependency>
<dependency>
<groupid>org.apache.hadoop/<groupid>
<artifactid>hadoop-common/<artifactid>
<version>2.7.2/<version>
/<dependency>
/<dependencies>

這裡hadoop-core的version一般為1.2.1,hadoop-common的version可以依照你的實際需要來。

修改pom.xml完成後,Intellij右上角會提示Maven projects need to be Imported,點擊Import Changes以更新依賴

附上完整的pom.xml

XML


<projectxmlns>xmlns:xsi="http://www.w3.org/2001/XMLSchemainstance"
xsi:schemaLocation="http://m.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelversion>4.0.0/<modelversion>


<groupid>com.polarxiong/<groupid>
<artifactid>hadoop/<artifactid>
<version>1.0-SNAPSHOT/<version>

<repositories>

<repository>
apache
http://maven.apache.org
/<repository>
/<repositories>

<dependencies>
<dependency>
<groupid>org.apache.hadoop/<groupid>
<artifactid>hadoop-core/<artifactid>
<version>1.2.1/<version>
/<dependency>
<dependency>
<groupid>org.apache.hadoop/<groupid>
<artifactid>hadoop-common/<artifactid>
<version>2.7.2/<version>
/<dependency>
/<dependencies>

/<projectxmlns>

WordCount

在src->main->java下新建一個WordCount類,添加內容Java

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static class TokenizerMapper
extends Mapper<object> {
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());

while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer
extends Reducer<text> {
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<intwritable> values, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) { sum += val.get();
} result.set(sum);
context.write(key, result);}}
public static void main(String[] args) throws Exception { Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1);}}
/<intwritable>/<text>/<object>

此代碼來自Hadoop官方教程,出處見參考。

配置輸入文件

WordCount對輸入文件字符進行計數,輸出計數的結果。首先需要配置輸入路徑,這裡在WordCount下(src同級目錄)新建一個文件夾input,並添加一個或多個文本文件到input中,作為示例。

老師,IDEA如何在本地運行和調試Hadoop程序?

這裡還有一件事情,點擊File->Project Structure,在彈出來的對話框中選擇Modules項,點擊Sources選項卡,將Language level調整為7。(如果你用到版本控制的話,可以在這裡將input文件夾標記為Excluded。

老師,IDEA如何在本地運行和調試Hadoop程序?

配置運行參數

這裡我們需要配置此程序運行時的Main class,以及WordCount需要的輸入輸出路徑。

在Intellij菜單欄中選擇Run->Edit Configurations,在彈出來的對話框中點擊+,新建一個Application配置。配置Main class為WordCount(可以點擊右邊的...選擇),Program arguments為input/ output/,即輸入路徑為剛才創建的input文件夾,輸出為output。

老師,IDEA如何在本地運行和調試Hadoop程序?

# 運行和調試

運行

上述配置完成後,點擊菜單欄Run->Run 'WordCount'即開始運行此MapReduce程序,Intellij下方會顯示Hadoop的運行輸出。待程序運行完畢後,Intellij左上方會出現新的文件夾output,其中的part-r-00000就是運行的結果了!

老師,IDEA如何在本地運行和調試Hadoop程序?

由於Hadoop的設定,下次運行時務必刪除output文件夾!

調試

斷點調試也很容易,在需要設置的代碼前單擊加上斷點,點擊菜單欄Run->Debug 'WordCount'即開始調試,程序會在斷點處停下。

老師,IDEA如何在本地運行和調試Hadoop程序?

# Windows下的權限問題

Windows下運行可能會出錯,提示

<code>ERROR security.UserGroupInformation: PriviledgedActionException as .../<code>

這是因為當前用戶沒有權限來設置路徑權限(Linux無此問題),一個解決方法是給hadoop打補丁,參考Failed to set permissions of path: \\tmp,因為這裡使用的Maven,此方法不太適合。另一個方法是將當前用戶設置為超級管理員(“計算機管理”,“本地用戶和組”中設置),或以超級管理員登錄運行此程序。

不過我覺得最好的解決方法是在Linux或macOS上跑hadoop。

# 小結

上面描述的步驟有些多,但邏輯上都是很清晰的,有過一次經驗以後就之後就容易多了,主要就是在pom.xml的配置和運行參數的配置上。刪除WordCount程序的運行不需要任何的Hadoop開發環境,並且依賴問題全部交給Maven解決了,怎麼樣?是不是非常簡單?

來源:http://1t.click/aH32


搜索微信號(ID:

Java面試那些事兒),可以獲得各類Java面試題、源碼解析、原理講解、IDEA學習指欄。


分享到:


相關文章: