頭條網

大數據學習筆記之Hadoop安裝步驟詳解

微笑數據工程師

2020-01-03 09:14:48

一般大數據集群都是由Hadoop組成的，本文的最終目標是安裝和配置兩臺Ubuntu服務器，讓他們組成Hadoop的集群

。

首先要安裝vmware workstation虛擬軟件，這個安裝方法和一般的軟件一樣，這裡附一個安裝版本，供大家下載。

鏈接:https://pan.baidu.com/s/1qY9LBGC 密碼:21w9

1、用vmware workstation建立虛擬機，開始先不選擇安裝包

內存選擇：如果本機是4G內存，則分配虛擬機1G內存

2、按默認要求來，完成虛擬機的初步配置

3、開始ubuntu的安裝

選擇鏡像文件（我用的版本也在上面的網盤裡下載），然後一步步的安裝

4、選擇電腦名稱為hd1，密碼為123456。注意Your name設置為ubuntu

5、打開Ubuntu虛擬機，打開終端編輯器

6、安裝並進入VMware Tools。安裝通過點擊虛擬機->安裝VMware Tools進行安裝。

7、複製VMware Tools的壓縮包到另一個文件目錄下。這裡放到了tmp目錄下。

8、解壓VMWare Tools

9、解壓後進入vmware-tools-distrib

10、繼續編寫命令進行安裝 sudo./vmware-install.pl

11、安裝VMware Tools成功

12、利用 sudo aptinstall vim安裝vim。安裝完成後如下圖。

13、輸入reboot重啟，同時重啟後輸入init 0關閉虛擬機

14、複製hd1文件夾，命名為hd2，放在存虛擬機的文件夾下

15、用記事本打開hd2文件夾下的hd1.vmx。修改其中的displayName為hd2.

再用VMware WorkStation打開hd1.vmx

16、分別啟動兩臺虛擬機

17、根據電腦的ip配置/etc/hosts文件，給IP地址一個別名，方便後面操作。注意ip地址為你兩臺虛擬機的ip地址。用ifconfig命令可以查看本機IP。一般是191.168.開頭的一串IP地址。我配置如下。

sudo vim /etc/hosts

192.168.241.132 hd1

192.168.241.130 hd2

18、安裝openssh-server

19、啟動ssh

20、保證每次開機時自動啟動ssh

21、多機互信，兩臺虛擬機都要執行ssh-keygen-t rsa命令。

22、進行密鑰的互信，兩臺虛擬機都要執行cat id_rsa.pub >> authorized_keys命令。

23、將hd1的文件拷到hd2上，同時把hd2的文件拷到hd1上

24、驗證已經實現雙機互信

25、在hd1上進行hadoop的安裝

26、在hd1和hd2上進行java的安裝。

兩臺主機都要執行sudo apt install default-jre命令。

27、在hd1和hd2上分別進行相關目錄的創建

接下來需要配置hadoop集群文件

配置文件有7個：

/home/ubuntu/hadoop/hadoop/etc/hadoop/hadoop-env.sh

/home/ubuntu/hadoop/hadoop/etc/hadoop/yarn-env.sh

/home/ubuntu/hadoop/hadoop/etc/hadoop/slaves

/home/ubuntu/hadoop/hadoop/etc/hadoop/core-site.xml

/home/ubuntu/hadoop/hadoop/etc/hadoop/hdfs-site.xml

/home/ubuntu/hadoop/hadoop/etc/hadoop/mapred-site.xml

/home/ubuntu/hadoop/hadoop/etc/hadoop/yarn-site.xml

28、配置env文件。28-34步只在hd1上完成

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

export HADOOP_HOME=/home/hadoop/hadoop

29、配置yarn-env文件

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

30、配置slave文件

hd1

hd2

31、配置core-site文件

<property>

<name>fs.defaultFS/<name>

<value>hdfs://hd1:9000/<value>

<property> /<property>

<name>io.file.buffer.size/<name>

<value>131072/<value>

<property>

<name>hadoop.tmp.dir/<name>

<value>file:/home/ubuntu/hadoop/tmp/<value>

<property>

<name>hadoop.proxyuser.hduser.hosts/<name>

<value>*/<value>

<property>

<name>hadoop.proxyuser.hduser.groups/<name>

<value>*/<value>

32、配置hdfs-site文件

<configuration>

<property>

<name>dfs.namenode.http-address/<name>

<value>hd1:50070/<value>

<property>

<name>dfs.namenode.secondary.http-address/<name>

<value>hd1:9001/<value>

<property>

<name>dfs.namenode.name.dir/<name>

<value>file:/home/ubuntu/hadoop/namenode/<value>

<property>

<name>dfs.datanode.data.dir/<name>

<value>file:/home/ubuntu/hadoop/hdfs/<value>

<property>

<name>dfs.replication/<name>

<value>1/<value>

<property>

<name>dfs.webhdfs.enabled/<name>

<value>true/<value>

<property>

<name>dfs.support.append/<name>

<value>true/<value>

<property>

<name>dfs.support.broken.append/<name>

<value>true/<value>

<property>

<name>dfs.permissions.enabled/<name>

<value>false/<value>

33、配置mapred-site文件

注意先將mapred-site.xml.template文件拷出，然後再使用vim命令

<property>

<name>mapreduce.framework.name/<name>

<value>yarn/<value>

<property>

<name>mapreduce.jobhistory.address/<name>

<value>hd1:10020/<value>

<property>

<name>mapreduce.jobhistory.webapp.address/<name>

<value>hd1:19888/<value>

34、配置yarn-site文件

<property>

<name>yarn.nodemanager.aux-services/<name>

<value>mapreduce_shuffle/<value>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class/<name>

<value>org.apache.hadoop.mapred.ShuffleHandler/<value>

<property>

<name>yarn.resourcemanager.address/<name>

<value>hd1:8032/<value>

<property>

<name>yarn.resourcemanager.scheduler.address/<name>

<value>hd1:8030/<value>

<property>

<name>yarn.resourcemanager.resource-tracker.address/<name>

<value>hd1:8031/<value>

<property>

<name>yarn.resourcemanager.admin.address/<name>

<value>hd1:8033/<value>

<property>

<name>yarn.resourcemanager.webapp.address/<name>

<value>hd1:8088/<value>

35、在hd1和hd2上配置路徑文件。執行下面兩條命令

sudo vim /etc/profile

export PATH=$PATH:/home/ubuntu/hadoop/hadoop/bin:/home/ubuntu/hadoop/hadoop/sbin

36、在hd1上加入hadoop路徑到path路徑下

37、在hd1上格式化namenode，執行hadoop namenode -format命令

38、在hd1上進行文件的分發，注意命令行當前所在的位置。

39、驗證是否安裝成功

在hd1上建一個a.txt文件

拷到hdfs文件裡面去

打印顯示

自此安裝成功

大數據開發高薪必備全套資源【免費獲取】

Oracle高級技術總監多年精心創作一套完整課程體系【大數據、人工智能開發必看】，全面助力大數據開發零基礎+入門+提升+項目=高薪！

「大數據零基礎入門」

「大數據架構系統組件」

「大數據全套系統工具安裝包」

Java必備工具

大數據必備工具

「大數據行業必備知資訊」

「大數據精品實戰案例」

「大數據就業指導方案」

最後說一下的，也就是以上教程的獲取方式！

領取方法：

還是那個萬年不變的老規矩

1.評論文章，沒字數限制，一個字都行！

3.私信小編：“大數據開發教程”即可！

謝謝大家，祝大家學習愉快！（拿到教程後一定要好好學習，多練習哦!)

相關文章:

Hadoop：MapReduce多路徑輸入與多文件輸出詳解

Hadoop 偽分佈式搭建指南

Hadoop 數據科學

Hadoop DataBase學習筆記

一步一步學習大數據：Hadoop 生態系統與場景

Hadoop 安裝教程

php 操作 Hadoop

第四章 Hadoop 集群搭建

第七章 Hadoop 常用的 shell 命令

第二章 Hadoop 發展背景

不看就虧系列！這裡有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！

大數據開發學習，Hadoop-HDFS詳細介紹

03.04 大數據開發學習，Hadoop-HDFS詳細介紹

03.02 看完就能獨自把集群搭起來！Hadoop HDFS完全分佈式環境搭建詳解

03.01 Hadoop HDFS詳細操作

Hbase教程菜鳥教程：Hadoop Hbase入門簡介

Hadoop 3的主要優缺點

FastDFS、Hadoop、TiDB共同點與各自特點

Hadoop YARN：調度性能優化實踐

SQL ON HADOOP 技術框架彙總

Hadoop 數據管理平臺 Apache Falcon

深入淺出 Hadoop YARN

Hadoop、Spark等5種大數據框架對比，你的項目該用哪種？

Hadoop 企業級大數據管理平台CDH 安裝Hadoop組件

Hadoop 基本 Shell命令

揭祕Apache Hadoop YARN，第一部分：集群和YARN基礎

08.28 Hadoop 學習一:jdk配置

最全騰訊等BAT大數據面試99題：hadoop、java、spark、機器算法等

ELK hadoop hbase

系統學習大數據兩大框架 hadoop 和spark

如何系統的學習大數據框架 hadoop 和spark？

大數據計算常用的分布式計算組件——Hadoop、Storm以及Spark

Nutch-Hadoop-MongoDB搭建分佈式爬蟲

好程式設計師：hadoop job 日誌的查看

Hadoop 的主節點如何啓動java程序？

hadoop上運行python——hadoop streaming：搭建數據分析體系79篇

Hadoop 面試，來看這篇就夠了

Hadoop MapReduce v1 系統剖析

Hadoop 之上的數據建模-Data Vault 2.

Hadoop 回收站Trash知識點

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)