Google提出了三大革命性技术:
MapReduce BigTable GFS, 特点:
1. 降低成本,能用PC,不用高端机器。
2. 软件容错,硬件故障常态,保证软件高可靠性。
3. 简化并行分布式计算,不关注节点同步和存储。
Hadoop的功能与优势
Hadoop=分布式存储+分布式计算平台
HDFS:海量数据存储
MapReduce:并行处理框架,控制调度。
可以用来做大型数据仓库。
Hadoop的一些开源工具:
HIVE:SQL语句转Hadoop任务
HBASE:放弃事务,高扩展,提供数据随机和实时读写。
zookeeper:监控Hadoop的节点状态和维护。
Hadoop的安装
- 准备Linux环境
- 安装JDK
- 配置Hadoop
下载 hadoop 然后解压缩:
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
tar -zxvf hadoop-1.2.1.tar.gz
conf文件夹下的hadoop-env.sh
这个文件主要是给hd提供相关环境配置,也可以理解为hd的自由环境配置文件,所以这里也要配置java_home的环境
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
core-site.xml
hd会有两个这种配置文档,一个是core-default.xml,如果这个core-site文档里为空,则会去寻找core-default中的内容,所以两个是类似的。具体参数配置可以参考:
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml
hadoop.tmp.dir
/hadoop
dfs.name.dir
/hadoop/name
fs.default.name
hdfs://ubuntu:9000
hdfs-site.xml
这个文件同理配置
dfs.data.dir
/hadoop/data
mapred-site.xml
同样,这是任务调度器的相关,hd就这三个配置文件比较重要。
mapred.job.tracker
ubuntu:9001
然后配置系统环境 /etc/profile
export HADOOP_HOME=/opt/hadoop-1.2.1
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:$PATH
配置完后source生效下
然后格式化hadoop
hadoop namenode -format
格式化完,运行:进入bin目录输入:start-all.sh,可以通过jps和命令行查看hadoop是否工作正常
閱讀更多 我的內容我做主 的文章