Hadoop入门笔记(安装和配置)

Hadoop入门笔记(安装和配置)

Google提出了三大革命性技术

MapReduce BigTable GFS, 特点:

1. 降低成本,能用PC,不用高端机器。

2. 软件容错,硬件故障常态,保证软件高可靠性。

3. 简化并行分布式计算,不关注节点同步和存储。

Hadoop的功能与优势

Hadoop=分布式存储+分布式计算平台

HDFS:海量数据存储

MapReduce:并行处理框架,控制调度。

可以用来做大型数据仓库。

Hadoop的一些开源工具:

HIVE:SQL语句转Hadoop任务

HBASE:放弃事务,高扩展,提供数据随机和实时读写。

zookeeper:监控Hadoop的节点状态和维护。

Hadoop的安装

  1. 准备Linux环境
  2. 安装JDK
  3. 配置Hadoop

下载 hadoop 然后解压缩:

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz

tar -zxvf hadoop-1.2.1.tar.gz

conf文件夹下的hadoop-env.sh

这个文件主要是给hd提供相关环境配置,也可以理解为hd的自由环境配置文件,所以这里也要配置java_home的环境

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

core-site.xml

hd会有两个这种配置文档,一个是core-default.xml,如果这个core-site文档里为空,则会去寻找core-default中的内容,所以两个是类似的。具体参数配置可以参考:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml

hadoop.tmp.dir

/hadoop

dfs.name.dir

/hadoop/name

fs.default.name

hdfs://ubuntu:9000

hdfs-site.xml

这个文件同理配置

dfs.data.dir

/hadoop/data

mapred-site.xml

同样,这是任务调度器的相关,hd就这三个配置文件比较重要。

mapred.job.tracker

ubuntu:9001

然后配置系统环境 /etc/profile

export HADOOP_HOME=/opt/hadoop-1.2.1

export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:$PATH

配置完后source生效下

然后格式化hadoop

hadoop namenode -format

格式化完,运行:进入bin目录输入:start-all.sh,可以通过jps和命令行查看hadoop是否工作正常

Hadoop入门笔记(安装和配置)


分享到:


相關文章: