09.14 hadoop研究：mapreduce研究前的准备工作技术頭條網

今天的内容是mapreduce，经过这么长时间的学习，我对hadoop的相关技术理解更加深入了，这回我会尽全力讲解好mapreduce。

研究hadoop的准备工作

要研究好hadoop，一定得有个完善的开发环境（对任何编程技术都是这样的，因为it技术是一个实践技术，光看书是很难对it技术有深入的理解）。我现在为自己建立的开发环境包括：

在公司

更多干货文章尽在微信公众号：大数据小世界，欢迎来到，你的大数据我的小世界

用4台服务器搭建了一个hadoop集群，里面装好了hdfs，mapreduce，hive和hbase，工作机上为eclipse安装了mapreduce插件，可以在本地开发mapreduce程序，执行时候可以远程调用搭建好的hadoop集群（缺憾是远程调试没有部署好，但是我觉得大部分开发使用本地调试就足够）。Hadoop集群的安装，博客园里虾皮的博客写的十分全面，这里我就不在累述了，贴出虾皮博文的地址：

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

至于eclipse插件的问题，我在后面会做详细论述。

在我自己笔记本里

在window7系统下安装了一个hadoop伪分布式的集群，不过这个集群不太好，非常慢，可能是我电脑配置太低了，伪分布式的安装我就不做描述了，实际意义不大，因为我觉得要是真想研究hadoop还是使用linux安装真实集群比较好，不过根据我个人实践伪分布式安装我碰到的问题最多，如果有些童鞋想在windows下安装个伪分布式系统玩玩，碰到啥问题不知道怎么解决，可以加入我建立的QQ群，我有空会在群里解答。在我自己电脑里我也安装了eclipse插件，连接本地伪分布式集群。

Hadoop的eclipse插件的制作

这里我要重点讲讲hadoop的eclipse插件的制作。我最早安装hadoop的eclipse插件时候是从网上下载的，当时我搭建集群上使用的hadoop版本是1.0.4，下载到的插件式1.0版本以下，安装到eclipse里面后没办法正常使用，因此我研究了下hadoop的eclipse插件生成的技术，下面我就阐述如何制作hadoop的eclipse插件。

Hadoop的eclipse插件包含在hadoop的安装包（这个安装包是指包含源程序的安装包，不是指二进制的安装包），如下图所示：

大家解压程序后，找到下面的文件夹，我的笔记本里路径是：

E:\\hadooptest\\hadoop-1.1.2\\src\\contrib\\eclipse-plugin

这下面放的就是eclipse插件的相关程序。

制作eclipse插件前我们要确认自己电脑是不是安装了jdk，jdk的版本一定要1.6以上，还要安装ant，这两个都安装好后就可以开始制作eclipse插件了。

首先要改下相关的配置文件：

第一个配置文件：

E:\\hadooptest\\hadoop-1.1.2\\src\\contrib\\eclipse-plugin\\build.xml

在<target>下面加入：

 <copy>
 <copy>
 <copy>
 <copy>
 <copy>

在build.xml文件里我们发现，它还依赖：E:\\hadooptest\\hadoop-1.1.2\\src\\contrib\\ build-contrib.xml文件，在该文件里我们也要做相应的修改，这个修改很简单，修改这个配置即可：

<property>

Location指向你本地安装的hadoop路径。

还有个文件要做相应的修改，文件路径是：

E:\\hadooptest\\hadoop-1.1.2\\src\\contrib\\eclipse-plugin\\META-INF\\MANIFEST.MF，

修改的选项是Bundle-ClassPath:下面的内容，我的修改是：

Bundle-ClassPath: classes/,lib/hadoop-core-1.1.2.jar,lib/commons-cli-1.2.jar,commons-configuration-1.6.jar,commons-lang-2.4.jar,jackson-core-asl-1.8.8.jar,jackson-mapper-asl-1.8.8.jar,commons-httpclient-3.0.1.jar

这样所有的配置都配好了，下面我们使用ant命令来生成eclipse插件，首先我们要打开命令行的操作界面，使用cmd开启，如果将路径定位到E:\\hadooptest\\hadoop-1.1.2\\src\\contrib\\eclipse-plugin\\，输入如下命令：

ant –Declipse-home= E:\\work\\eclipse-jee-juno-win32\\eclipse -Dversion=1.1.2

运行成功后，就会在 E:\\hadooptest\\hadoop-1.1.2\\src\\contrib\\eclipse-plugin目录下生成eclipse插件的jar包，我们将生成的jar包复制到E:\\work\\eclipse-jee-juno-win32\\eclipse\\plugins文件夹下，重新启动eclipse，插件就安装成功了，该插件的目的是本地编写的mapreduce程序可以远程调用集群上的hadoop应用，下面是我安装好的eclipse插件的界面：

图片一：

图片二：

生成时候要注意的问题：

hadoop的不同版本需要针对不同版本的eclipse插件，一般版本不对应，eclipse插件可能不能正常的使用，如果有些童鞋不想自己生成，那么就得在网路上下载对应的版本的eclipse插件，要是想自己制作，就得在自己使用的hadoop版本下生成eclipse插件。
制作eclipse插件时候，我们也会指定eclipse.home的路径，这就会导致插件制作时候对eclipse版本相关，我制作插件时候，在我自己的笔记本上使用的是Juno版本，那么它在Juno版本下安装插件没有任何问题，在公司电脑里使用的eclipse版本是helio版本，我发现生成的插件不能在Juno下正常安装，当然这个问题是否真的按我所述，我也不能完全确定，但至少我实践中觉得版本还是很重要。

Eclipse开发环境读取源码的方式

It行业的竞争越来越激烈，it公司对程序员的要求也越来越高，很多公司重要岗位都要求程序员研究过某某程序的源码，但是我们专门去读源码其实是一件很困难的事情，除非你对这个框架使用极其熟悉，要不一定是越看越迷糊，越看越没信心，如果我们可以把学习某个框架编程同时也能读读源码的程序，这样操作一定会对你的学习事半功倍。

下面我将我的一个经验贴出来，这个方式很简单，很多人都使用到，但是可能都没留意，具体如下：

首先我建一个工程JavaJar，如图所示：

代码如下：

package cn.com.jar;
import java.util.StringTokenizer;
public class StringJar {
 
 public String line;
 public StringJar(String line) {
 super(); 

 this.line = line;
 }
 
 public String testftn(){
 String strs = null;
 
 StringTokenizer st = new StringTokenizer(line);
 
 while(st.hasMoreElements()){
 strs += st.nextToken() + "@!@";
 }
 
 return strs;
 }
 
 public static void main(String[] args) {
 StringJar jar = new StringJar("I am XXX hello world");
 System.out.println(jar.testftn());
 }
}

然后我将工程编译成一个jar包，如图所示：

下面，我再建一个工程：testprj，导入该jar包，如图所示：

我们编写测试程序，如下所示：

package cn.com.test;
import cn.com.jar.StringJar;
public class TestMain {
 /**
 * @param args
 */
 public static void main(String[] args) {
 StringJar jar = new StringJar("I am XXX hello world");
 System.out.println(jar.testftn());
 }
}

下面我将StringJar类移入到testprj工程，如图所示：