一步一步學習大數據：Hadoop 生態系統與場景

2018-09-27 20:40:05 首席數據師

Hadoop概要

到底是業務推動了技術的發展，還是技術推動了業務的發展，這個話題放在什麼時候都會惹來一些爭議。

隨著互聯網以及物聯網的蓬勃發展，我們進入了大數據時代。IDC預測，到2020年,全球會有44ZB的數據量。傳統存儲和技術架構無法滿足需求。在2013年出版的《大數據時代》一書中，定義了大數據的5V特點：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價值密度）、Veracity（真實性）。

當我們把時間往回看10年，來到了2003年，這一年Google發表《Google File System》，其中提出一個GFS集群中由多個節點組成，其中主要分為兩類：一個Master node，很多Chunkservers。之後於2004年Google發表論文並引入MapReduce。2006年2月，Doug Cutting等人在Nutch項目上應用GFS和 MapReduce思想,並演化為Hadoop項目。

Doug Cutting曾經說過他非常喜歡自己的程序被千萬人使用的感覺，很明顯，他做到了；下圖就是本尊照片，帥氣的一塌糊塗

2008年1月, Hadoop成為Apache的開源項目。

Hadoop的出現解決了互聯網時代的海量數據存儲和處理，其是一種支持分佈式計算和存儲的框架體系。假如把Hadoop集群抽象成一臺機器的話，理論上我們的硬件資源（CPU、Memoery等）是可以無限擴展的。

Hadoop通過其各個組件來擴展其應用場景，例如離線分析、實時處理等。

Hadoop相關組件介紹

本文主要是依據Hadoop2.7版本，後面沒有特殊說明也是按照此版本

HDFS

HDFS,Hadoop Distributed File System （Hadoop分佈式文件系統）被設計成適合運行在通用硬件(commodity hardware)上的分佈式文件系統。它和現有的分佈式文件系統有很多共同點，例如典型的Master/Slave架構（這裡不準備展開介紹）；然而HDFS是一個高度容錯性的系統，適合部署在廉價的機器上。

關於HDFS主要想說兩點。

HDFS中的默認副本數是3，這裡涉及到一個問題為什麼是3而不是2或者4。

機架感知（Rack Awareness）。

只有深刻理解了這兩點才能理解為什麼Hadoop有著高度的容錯性，高度容錯性是Hadoop可以在通用硬件上運行的基礎。

Yarn

Yarn,Yet Another Resource Negotiator(又一個資源協調者)，是繼Common、HDFS、MapReduce之後Hadoop 的又一個子項目。Yarn的出現是因為在Hadoop1.x中存在如下幾個問題：

擴展性差。JobTracker兼備資源管理和作業控制兩個功能。

可靠性差。在Master/Slave架構中,存在Master單點故障。

資源利用率低。MapSlot（1.x中資源分配的單位）和Reduce Slot分開,兩者之間無法共享。

無法支持多種計算框架。MapReduce計算框架是基於磁盤的離線計算模型,新應用要求支持內存計算、流式計算、迭代式計算等多種計算框架。

Yarn通過拆分原有的JobTracker為：

全局的 ResourceManager(RM)。

每個Application有一個ApplicationMaster(AM)。

由Yarn專門負責資源管理,JobTracker可以專門負責作業控制,Yarn接替 TaskScheduler的資源管理功能,這種松耦合的架構方式實現了Hadoop整體框架的靈活性。

Hive

Hive的是基於Hadoop上的數據倉庫基礎構架，利用簡單的SQL語句（簡稱HQL）來查詢、分析存儲在HDFS的數據。並且把SQL語句轉換成MapReduce程序來數據的處理。

Hive與傳統的關係數據庫主要區別在以下幾點：

存儲的位置 Hive的數據存儲在HDFS或者Hbase中，而後者一般存儲在裸設備或者本地的文件系統中。

數據庫更新 Hive是不支持更新的，一般是一次寫入多次讀寫。

執行SQL的延遲 Hive的延遲相對較高，因為每次執行HQL需要解析成MapReduce。

數據的規模上 Hive一般是TB級別，而後者相對較小。

可擴展性上 Hive支持UDF/UDAF/UDTF，後者相對來說較差。

HBase

HBase，是Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統。它底層的文件系統使用HDFS，使用Zookeeper來管理集群的HMaster和各Region server之間的通信，監控各Region server的狀態，存儲各Region的入口地址等。

HBase是Key-Value形式的數據庫（類比Java中的Map）。那麼既然是數據庫那肯定就有表，HBase中的表大概有以下幾個特點：

大：一個表可以有上億行，上百萬列（列多時，插入變慢）。

面向列：面向列(族)的存儲和權限控制，列(族)獨立檢索。

稀疏：對於為空(null)的列，並不佔用存儲空間，因此，表可以設計的非常稀疏。

每個cell中的數據可以有多個版本，默認情況下版本號自動分配，是單元格插入時的時間戳。

HBase中的數據都是字節，沒有類型（因為系統需要適應不同種類的數據格式和數據源，不能預先嚴格定義模式）。

Spark

Spark是由伯克利大學開發的分佈式計算引擎，解決了海量數據流式分析的問題。Spark首先將數據導入Spark集群，然後再通過基於內存的管理方式對數據進行快速掃描，通過迭代算法實現全局I/O操作的最小化，達到提升整體處理性能的目的，這與Hadoop從“計算”找“數據”的實現思路是類似的。

Other Tools

Phoneix

基於Hbase的SQL接口，安裝完Phoneix之後可以適用SQL語句來操作Hbase數據庫。

Sqoop

Sqoop的主要作用是方便不同的關係數據庫將數據遷移到Hadoop，支持多種數據庫例如Postgres，Mysql等。

Hadoop集群硬件和拓撲規劃

規劃這件事情並沒有最優解，只是在預算、數據規模、應用場景下之間的平衡。

硬件配置

Raid

首先Raid是否需要，在回答這個問題之前，我們首先了解什麼是Raid0以及Raid1。

Raid0是提高存儲性能的原理是把連續的數據分散到多個磁盤上存取，這樣，系統有數據請求就可以被多個磁盤並行的執行，每個磁盤執行屬於它自己的那部分數據請求。這種數據上的並行操作可以充分利用總線的帶寬，顯著提高磁盤整體存取性能。（來源百度百科）

當Raid0與Hadoop結合在一起會產生什麼影響呢？

優勢：

提高IO。

加快讀寫。

消除單塊磁盤的讀寫過熱的情況。

然而在Hadoop系統中，當Raid0中的一塊磁盤數據出現問題（或者讀寫變得很慢的時候）時，你需要重新格式化整個Raid，並且數據需要重新恢復到DataNode中。整個週期會隨著數據的增加而逐步增加。

其次Raid0的瓶頸是Raid中最慢的那一塊盤，當你需要替換其中最慢的那一塊盤的時候就會重新格式化整個Raid然後恢復數據。

RAID 1通過磁盤數據鏡像實現數據冗餘，在成對的獨立磁盤上產生互為備份的數據。當原始數據繁忙時，可直接從鏡像拷貝中讀取數據，因此RAID 1可以提高讀取性能。RAID 1是磁盤陣列中單位成本最高的，但提供了很高的數據安全性和可用性。當一個磁盤失效時，系統可以自動切換到鏡像磁盤上讀寫，而不需要重組失效的數據。（來源百度百科）

所以Raid1的本質是提高數據的冗餘，而Hadoop本身默認就是3個副本，所以當存在Raid1時候，副本數將會變成6，將會提高系統對於硬件資源的需求。

所以在Hadoop系統中不建議適用Raid的，其實更加推薦JBOD，當一塊磁盤出現問題時，直接unmount然後替換磁盤（很多時候直接換機器的）。

集群規模及資源

這裡主要依據數據總量來推算集群規模，不考慮CPU以以及內存配置。

一般情況來說，我們是根據磁盤的的需求來計算需要機器的個數。

首先我們需要調研整個系統的當量以及增量數據。

舉個例子來說，假如現在系統中存在8T的數據，默認副本數為3，那麼所需要的存儲＝8T*3/80% = 30T左右。

每臺機器存儲為6T，則數據節點個數為5。

加上Master節點，不考慮HA的情況下，大概是6臺左右機器。

軟件配置

根據業務需求是否需要配置HA方案進行劃分,由於實際場景複雜多變，下面方案僅供參考。

1.非HA方案

一般考慮將所有的管理節點放在一臺機器上，同時在數據節點上啟動若干個Zookeeper服務（奇數）。

管理節點：NameNode+ResourceManager+HMaster

數據節點：SecondaryNameNode

數據節點：DataNode +RegionServer+Zookeeper

2.HA方案

在HA方案中，需要將Primary Node 與Standby Node 放在不同的機器上，一般在實際場景中，考慮到節省機器，可能會將不同的組件的Master節點進行交叉互備，如A機器上有Primary NameNonde 以及 Standby HMaster ，B機器上有Standby NameNode 以及 Primary Master。

管理節點：NameNode(Primary)+HMaster(Standby)

管理節點：NameNode(Standby)+HMaster(Primary)

管理節點：ResourceManager

數據節點：DataNode +RegionServer+Zookeeper

Hadoop的設計目標和適用場景

其實在上面的Hadoop概要上我們就可以看到Hadoop當初的設計目標是什麼。Hadoop在很多場合下都是大數據的代名詞。其主要是用來處理半結構以及非結構數據（例如MapReduce）。

其本質也是通過Mapreduce程序來將半結構化或者非結構化的數據結構化繼而來進行後續的處理。

其次由於Hadoop是分佈式的架構，其針對的是大規模的數據處理，所以相對較少的數據量並不能體現Hadoop的優勢。例如處理GB級別的數據量，利用傳統的關係型數據庫的速度可能相對較快。

基於上述來看Hadoop的適用場景如下：

離線日誌的處理（包括ETL過程，其實本質就是基於Hadoop的數據倉庫）。

大規模並行計算。

Hadoop的架構解析

Hadoop由主要由兩部分組成：

分佈式文件系統（HDFS），主要用於大規模的數據存儲。

分佈式計算框架MapReduce，其主要用來對HDFS上的數據進行運算處理。

HDFS主要由NameNode（Master）以及DataNode（Slave）組成。前者主要是對命名空間管理：如對HDFS中的目錄、文件和塊做類似文件系統的創建、修改、刪除、列表文件和目錄等基本操作。後者存儲實際的數據塊，並與NameNode保持一定的心跳。

MapReduce2.0的計算框架本質是有Yarn來完成的，Yarn是關注點分離的思路，由Yarn專門負責資源管理，JobTracker可以專門負責作業控制，Yarn接替 TaskScheduler的資源管理功能，這種松耦合的架構方式實現了Hadoop整體框架的靈活性。

MapReduce工作原理和案例說明

MapReduce可謂Hadoop的精華所在，是用於數據處理的編程模型。MapReduce從名稱上面可以看到Map以及Reduce兩個部分。其思想類似於先分後合，Map對與數據進行抽取轉換，Reduce對數據進行彙總。其中需要注意的是Map任務將輸出結果存儲在本地磁盤,而不是HDFS。

在我們執行MapReduce的過程中，根據Map與數據庫的關係大體上可以分為三類：

數據本地

機架本地

跨機架

從上述幾種可以看出來，假設一個MapReduce過程中存在大量的數據移動對於執行效率來說是災難性。

MapReduce數據流

從數據流來看MapReduce的關係大體可以分為以下幾類：

單Reduce

- 多Reduce

- 無Reduce

然而無論什麼MapReduce關係如何，MapReduce的執行流程都如下圖所示：

其中在執行每個Map Task時，無論Map方法中執行什麼邏輯，最終都是要把輸出寫到磁盤上。如果沒有Reduce階段，則直接輸出到HDFS上。如果有Reduce作業，則每個Map方法的輸出在寫磁盤前線在內存中緩存。每個Map Task都有一個環狀的內存緩衝區，存儲著Map的輸出結果，默認100m，在每次當緩衝區快滿的時候由一個獨立的線程將緩衝區的數據以一個溢出文件的方式存放到磁盤，當整個Map Task結束後再對磁盤中這個Map Task產生的所有溢出文件做合併，被合併成已分區且已排序的輸出文件。然後等待Reduce Task來拉數據。

上述這個過程其實也MapReduce中赫赫有名的Shuffle過程。

MapReduce實際案例

Raw Data

原始的數據文件是普通的文本文件，每一行記錄中存在一個年份以及改年份中每一天的溫度。

Map

Map過程中，將每一行記錄都生成一個key，key一般是改行在文件中的行數（Offset），例如下圖中的0，106代表第一行、第107行。其中粗體的地方代表年份以及溫度。

Shuffle

該過程中獲取所要的記錄組成鍵值對{年份，溫度}。

Sort

將上一步過程中的相同key的value組成一個list，即{年份，List}，傳到Reduce端。

Reduce

Reduce端對list進行處理，獲取最大值，然後輸出到HDFS中。

上述過程進行總結下來流程如下：

大家多多關注，你的關注是我最大的動力，需要資料的可以私信我

分享到:

閱讀更多 首席數據師 的文章

關鍵字: HDFS 雲計算 MapReduce

Hadoop：MapReduce多路徑輸入與多文件輸出詳解

Hadoop 偽分佈式搭建指南

Hadoop 數據科學

Hadoop DataBase學習筆記

一步一步學習大數據：Hadoop 生態系統與場景

Hadoop 安裝教程

php 操作 Hadoop

第四章 Hadoop 集群搭建

第七章 Hadoop 常用的 shell 命令

第二章 Hadoop 發展背景

不看就虧系列！這裡有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！

大數據開發學習，Hadoop-HDFS詳細介紹

03.04 大數據開發學習，Hadoop-HDFS詳細介紹

03.02 看完就能獨自把集群搭起來！Hadoop HDFS完全分佈式環境搭建詳解

03.01 Hadoop HDFS詳細操作

Hbase教程菜鳥教程：Hadoop Hbase入門簡介

Hadoop 3的主要優缺點

FastDFS、Hadoop、TiDB共同點與各自特點

Hadoop YARN：調度性能優化實踐

SQL ON HADOOP 技術框架彙總

Hadoop 數據管理平臺 Apache Falcon

深入淺出 Hadoop YARN

Hadoop、Spark等5種大數據框架對比，你的項目該用哪種？

Hadoop 企業級大數據管理平台CDH 安裝Hadoop組件

Hadoop 基本 Shell命令

揭祕Apache Hadoop YARN，第二部分：全局配置基礎

揭祕Apache Hadoop YARN，第一部分：集群和YARN基礎

08.28 Hadoop 學習一:jdk配置

最全騰訊等BAT大數據面試99題：hadoop、java、spark、機器算法等

ELK hadoop hbase

系統學習大數據兩大框架 hadoop 和spark

如何系統的學習大數據框架 hadoop 和spark？

大數據計算常用的分布式計算組件——Hadoop、Storm以及Spark

Nutch-Hadoop-MongoDB搭建分佈式爬蟲

好程式設計師：hadoop job 日誌的查看

Hadoop 的主節點如何啓動java程序？

hadoop上運行python——hadoop streaming：搭建數據分析體系79篇

Hadoop 面試，來看這篇就夠了

Hadoop MapReduce v1 系統剖析

Hadoop 之上的數據建模-Data Vault 2.

Hadoop 回收站Trash知識點

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

一步一步學習大數據：Hadoop 生態系統與場景

相關文章:

Hadoop：MapReduce多路徑輸入與多文件輸出詳解

Hadoop 偽分佈式搭建指南

Hadoop 數據科學

Hadoop DataBase學習筆記

一步一步學習大數據：Hadoop 生態系統與場景

Hadoop 安裝教程

php 操作 Hadoop

第四章 Hadoop 集群搭建

第七章 Hadoop 常用的 shell 命令

第二章 Hadoop 發展背景

不看就虧系列！這裡有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！

大數據開發學習，Hadoop-HDFS詳細介紹

03.04 大數據開發學習，Hadoop-HDFS詳細介紹

03.02 看完就能獨自把集群搭起來！Hadoop HDFS完全分佈式環境搭建詳解

03.01 Hadoop HDFS詳細操作

Hbase教程菜鳥教程：Hadoop Hbase入門簡介

Hadoop 3的主要優缺點

FastDFS、Hadoop、TiDB共同點與各自特點

Hadoop YARN：調度性能優化實踐

SQL ON HADOOP 技術框架彙總

Hadoop 數據管理平臺 Apache Falcon

深入淺出 Hadoop YARN

Hadoop、Spark等5種大數據框架對比，你的項目該用哪種？

Hadoop 企業級大數據管理平台CDH 安裝Hadoop組件

Hadoop 基本 Shell命令

揭祕Apache Hadoop YARN，第二部分：全局配置基礎

揭祕Apache Hadoop YARN，第一部分：集群和YARN基礎

08.28 Hadoop 學習一:jdk配置

最全騰訊等BAT大數據面試99題：hadoop、java、spark、機器算法等

ELK hadoop hbase

系統學習大數據兩大框架 hadoop 和spark

如何系統的學習大數據框架 hadoop 和spark？

大數據計算常用的分布式計算組件——Hadoop、Storm以及Spark

Nutch-Hadoop-MongoDB搭建分佈式爬蟲

好程式設計師：hadoop job 日誌的查看

Hadoop 的主節點如何啓動java程序？

hadoop上運行python——hadoop streaming：搭建數據分析體系79篇

Hadoop 面試，來看這篇就夠了

Hadoop MapReduce v1 系統剖析

Hadoop 之上的數據建模-Data Vault 2.

Hadoop 回收站Trash知識點

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪