Hadoop DataBase學習筆記

2020-03-24 23:45:53 水叮噹

一、簡介

Hbase：全名Hadoop DataBase，是一種開源的，可伸縮的，嚴格一致性（並非最終一致性）的分佈式存儲系統。具有最理想化的寫和極好的讀性能。它支持可插拔的壓縮算法（用戶可以根據其列族中的數據特性合理選擇其壓縮算法），充分利用了磁盤空間。

類似於Google的BigTable，其分佈式計算採用MapReduce，通過MapReduce完成大塊的數據加載和全表掃描操作等。文件存儲系統採用HDFS，通過Zookeeper來完成狀態管理協同服務。不過BigTable只支持一級索引，Hbase不僅支持一級索引，還支持二級索引。

需要指出的是：很多人都認為Hbase是面向列的數據庫，其實不是。從典型的關係型數據庫概念上來說Hbase並不是面向列的數據庫。但是充分利用了磁盤上列式存儲格式的特性。Hbase跟傳統的Columnar databases還是有區別的。Columnar databases擅長的是實時數據的分析訪問，而Hbase在基於key的單值訪問和範圍掃描上比較突出。不過我們經常談及到的Hbase是面向列的存儲系統，其實是因為Hbase是以列族的模式進行存儲的。

二、Hbase基本結構

1）架構圖

從上圖中可以看出，Hbase內部的核心結構由以下幾大塊組成：HMaster，HRegionServer，HLog，HRegion等。而Hbase依賴的外部系統有Zookeeper，HDFS等。

1）HMaster（類似於HDFS中NameNode,MapReduce中的JobTrackers）是用來管理HRegionServer的。它負責監控集群中HRegionServer的狀態信息變化。主要功能點如下：

1、管理HRegionServer的負載均衡，調整Region分佈。這個通過HMaster的後臺線程LoadBalancer來完成。LoadBalancer會定期將Region進行移動，以使各個HRegionServer達到Load均衡。

2、在Region Split後，負載新Region的分配。

3、HRegionServer的FailOver處理，當某一個HRegionServer出問題後，HMaster負責將其Region進行轉移。

4、CatalogJanitor。 CatalogJanitor會定期檢查和清理.Meta.表。

在一個HBase集群中會存在多個HMaster，不過zookeeper的Master Election機制會保證只有一個HMaster在運行。當運行的HMaster出問題後，其他的HMaster就會立刻補上。

2）從圖中可以看出，Hbase客戶端是隻與zookeeper和HRegion Server打交道。並不會跟HMaster交互。所以如果HMaster出問題了，Hbase集群在短時間內還是可以對外提供可靠服務的。但是，因為HMaster掌控了HRegionServer的一些功能，如：HRegion Server的FailOver操作，Region切分等，HMaster長時間不可用還是會出問題的。

3）上面所提及的Catelog表有兩個：-Root-和.Meta.表。-Root-表中存儲了.Meta.表的位置。即.Meta.表的Region key。.Meta.表存儲了所有Region的位置及每個Region所包含的RowKey的範圍。-Root-表的存儲位置記錄在zookeeper中，.Meta.表的存儲位置記錄在-Root-表中。

4）當客戶端發起一個查詢數據的請求後，首先，客戶端會先連接上zookeeper集群，獲取-Root-表的存放在哪一個HRegionServer上。接著找到對應的HRegionServer後，就能夠獲取到-Root-表中對應的.Meta.表的位置。最後客戶端根據.Meta.表存儲的HRegion的位置到相應的HRegionServer中取對應的Hregion中的數據信息。經過一次查詢後，訪問Catalog表的過程就會被緩存起來，下次客戶端就可以直接到相應的HRegion上獲取數據。

5）Hbase已經無縫集成了HDFS，其中所有的數據最終都會通過DFS客戶端API持久化到HDFS中。

6）一個Hbase集群中有許多個HRegionServer（類似於HDFS中的DataNode，MapReduce中的TaskTrackers），由一個HMaster進行管理。每個HRegionServer擁有一個WAL（write Ahead Log，日誌文件，用作數據恢復）和多個HRegion（可以簡單認為是用來存儲一個表中的某些行）。一個HRegion擁有多個Store（存儲一個ColumnFamily）。一個Store又由一個MemStore（持有對該Store的所有修改於內存中）和0至多個StoreFiles（HFile，數據存儲的地方）組成。詳細圖如下：

2）基本元素

1、Row Key

行標示，類似於傳統數據庫表中的行號。Rowkeys具有不變性。除非該行別刪除或者被重新插入了新的數據。Hbase中支持基於RowKey的單行查詢和範圍掃描。在Hbase的Auto-Sharding中，也是基於RowKey進行自動切分的。

2、Column Family

在Hbase中最基本的單元就是列。而列族是由一個或者列組成。一般在使用時，儘量將經常訪問的列作為一個列族。因為Hbase是面向列族的存儲，也就是說一個列族中的所有列是存儲在一起的。即上圖中的一個Store存儲一個列族。

不過有一點需要注意的是在一個表中列族被限定不能超過十個。

3、TimeStamp

Hbase中支持時間戳的概念。即允許Cell存儲多個版本值。版本之間通過時間戳來區分。也就是說可能存在某一列的某一行有多個值。一般默認是3，且最近版本在最上面。Hbase中有一個TTL（Time To Live）的配置，這個是基於列族維度的。一旦過期，列族就會自動刪除所有行。

4、HRegion Server

HRegionServer是負責服務和管理Region的。類似於我們所說的主從服務器，HMaster就是主服務器，HRegionServer就是從服務器。當用戶執行CRUD等操作時，都需要通過HRegionServer定位到相應的Region上進行操作。

5、WAL

WAL全名是Write Ahead Log，類似於mysql中的Binary Log，WAL記錄了該HRegionServer上所有數據的變更。一旦這個HRegionServer死翹翹了，導致數據丟失後，WAL就是救命稻草。可以通過WAL進行數據恢復。所以在平時WAL是沒什麼用的，只是為了不可預知的災難做準備。當然，WAL起作用的前提是保證變更日誌已經記錄到了WAL中。

WAL的實現類是HLog。因為在一個HRegionServer中持有一個WAL，所以對於該HRegionServer上的所有Region來說，WAL是全局，共享的。當HRegion實例創建的時候，在HRegionServer實例中的HLog就會被當做HRegion構造函數的參數傳遞到HRegion。當HRegion接收到一個變更操作時，HRegion就能直接通過HLog將變更日誌追加（append()方法）到共享WAL中。當然基於性能考慮，HBase還提供了一個setWriteToWAL(false)方法。一旦用戶調用了此方法。變更日誌就不會追加到WAL中。默認是需要寫入的，除非用戶自己保證數據不會丟失。

HLog還有一個重要的特性就是：跟蹤變更。在HLog類中有一個原子類型的變量，HLog會讀取StoreFiles中最大的sequence number（HLog中每一條變更日誌都有一個number號，因為對於一個HRegionServer中的所有HRegion是共享HLog的，所以會將變更日誌順序寫入WAL，StoreFiles中也持有該number），並存放到變量中。這樣HLog就知道已經已經存儲到哪一個位置了。

WAL還有兩個比較重要的類，一個是LogSyncer，另一個是LogRoller。

1、在創建表時，有一個參數設置：Deferred Log Flush，默認是false，表示log一旦更新就立即同步到filesystem。如果設置為true，則HRegionServer會緩存那些變更，並由後臺任務LogSyncer定時將變更信息同步到filesystem。

2、WAL是有容量限制的，LogRoller是一個後臺線程，會定時滾動logfile，用戶可以設定這個間隔時間（hbase.regionserver.logroll.period,默認是一小時）。當檢查到某個logfile文件中的所有sequence number均小於那個最大的sequence number時，就會將此logfile移到.oldLog目錄。

如下是WAL的文件結構，目前WAL採用的是Hadoop的SequenceFile，其存儲記錄格式是key/value鍵值對的形式。其中Key保存了HLogkey的實例，HLogKey包含數據所屬的表名及RegionName，timeStamp，sequenceNumber等信息。Value保存了WALEdit實例，WALEdit包含客戶端每一次發來的變更信息。

6、Region

在Hbase中實現可擴展性和負載均衡的基本單元是Region。Region存儲著連續的RowKey的數據。剛開始時，一個表就只有一個Region，當一個表隨著數據增多而不斷變大時，如果達到指定的大小後就會根據Rowkey自動一分為二成兩個Region。每個Region中保存著一個【startkey,endkey】。隨著表的繼續增大，每個Region又會自動split成更多的Region。每個Region只會由一個HRegionServer服務。這就是所謂的Hbase的AutoSharding特性。當然，Region除了會spilt外，也可能進行合併以減少Region數目（這就是Hbase的compaction特性，後面會談到）。

既然Region是表的基本元素。那麼，用戶如何獲取到對應的Region呢？？前面已經提及—通過Catalog表。

7、Store

Store是核心存儲單元。在一個HRegion中可能存在多個ColumnFamily，那麼Store中被指定只能存儲一個ColumnFamily。不同的ColumnFamily存儲在不同的Store中（所以在創建ColumnFamily時，儘量將經常需要一起訪問的列放到一個ColumnFamily中，這樣可以減少訪問Store的數目）。一個Store由一個MemStore和0至多個StoreFile組成。

8、MemStore

Hbase在將數據寫入StoreFile之前，會先寫入MemStore。MemStore是一個有序的內存緩衝器。當MemStore中的數據量達到設定的大小時（Flush Size），HRegionServer就會執行Flush操作，將MemStore中的數據flush到StoreFile中。

當HRegionServer正在將MemStore中的數據Flush到StoreFile時，MemStore還可以對外進行讀寫服務。這個是通過MemStore的滾動機制實現的。通過滾動MemStore,新的空的塊就可以接收變更，而老的滿的塊就會執行flush操作。

9、StoreFile/HFile

StoreFile是HFile的實現，對HFile做了一層包裝。HFile是數據真正存儲的地方。HFile是基於BigTable的SSTable File和Hadoop的TFile。HFile是以keyvalue的格式存儲數據的。(Hbase之前使用過Hadoop得MapFile，因為其性能上相當糟糕而放棄。)下圖是HFile中版本1的格式，版本2稍有改變（詳見Hbase wiki）：

從上圖中看出，HFile是由多個數據塊組成。大部分數據塊是不定長的，唯一固定長度的只有兩個數據塊：File Info和Trailer。DataIndex和MetaIndex分別記錄了Data塊和Meta塊的起始位置。每個data塊由一些kevalue鍵值對和Magic header組成。Data塊的大小可以再創建表時通過HColumnDescriptor設定。Magic記錄了一串隨機的數字，防治數據丟失和損壞。

如果用戶想繞過Hbase直接訪問HFile時，比如檢查HFile的健康狀態，dump HFile的內容，可以通過HFile.main()方法完成。

如下圖是KeyValue的格式：

KeyValue是一個數組，對byte數組做了一層包裝。Key Length和Value Length都是固定長度的數值。Key包含的內容有行RowKey的長度及值,列族的長度及值，列，時間戳，key類型（Put, Delete, DeleteColumn, DeleteFamily）。

從上圖可以看出，每一個keyValue只包含一列，即使對於同一行的不同列數據，會創建多個KeyValue實例。此外KeyValue不能被Split，即使此KeyValue值超過Block的大小，比如：

Block大小為16Kb，而KeyValue值有8Mb,那麼KeyValue會通過相連的多個Block進行存儲。

3）總結

以上對Hbase的基本元素做了一個大體的介紹。下圖是Hbase的存儲結構圖。記錄了客戶端發起變更或者新增操作時，Hbase內部的存儲流程。

下面來分析下整個存儲流程：

1）當客戶端提交變更操作（如插入put，刪除delete，計數新增incr），首先客戶端會連接上Zookeeper找到-Root-表的存儲位置，然後根據-Root-表所提供的.Meta.表的位置找到對應的Region所在的HRegionServer。數據變更信息會先通過HRegionServer寫入一個commit log，也就是WAL。當寫入WAL成功後，數據變更信息會存到MemStore中。當MemStore達到設定的maximum value（hbase.hregion.memstore.flush.size，默認64MB）後，MemStore就會開始進行Flush操作，將其內容持久化到一個新的HFile中。在Flush操作過程中，MemStore通過滾動機制繼續對用戶提供讀寫服務。隨著Flush操作的不斷進行，HFile文件越來越多。當HFile文件超過設定的數量後，Hbase的HouseKeeping機制就會通過Compaction特性將HFile小文件合併成一個更大的HFile文件。在Compaction的過程中，會進行版本的合併以及數據的刪除。由於storeFiles是不變的，用戶執行刪除操作時，並不能簡單地通過刪除其鍵值對來刪除數據內容。Hbase提供了一個delete marker機制（也稱為tombstone marker），會告訴HRegionServer那個指定的key已經被刪除了。這樣其它用戶檢索這個key的內容時，因為已經被標記為刪除，所以也不會檢索出來。在進行Compaction操作中就會丟棄這些已經打標的記錄。經過多次Compaction後，HFile文件會越來越大，當達到設定的值時，會觸發Split操作。將當前的Region根據RowKey對等切分成兩個子Region，當期的那個Region被廢棄，兩個子Region會被分配到其他HRegionServer上。所以剛開始時一個表只有一個Region，隨著不斷的split，會產生越來越多的Region，通過HMaster

的LoadBalancer調整，Region會均勻遍佈到所有的HRegionServer中。

2）當HLog滿時，HRegionServer就會啟動LogRoller,通過執行rollWriter方法將那些所有sequence number均小於最大的那個sequence number的logfile移動到.oldLog目錄中等待被刪除。如果用戶設置了Deferred Log Flush為true，HRegionServer會緩存有關此表的所有變更，並通過LogSyncer調用sync（）方法定時將變更信息同步到filesystem。默認為false的話，一旦有變更就會立刻同步到filesystem。

3）在一個HRegionServer中只有一個WAL，所有Region共享此WAL。HLog會根據Region提交變更信息的先後順序依次順序寫入WAL中。如果用戶設置了setWriteToWAL(false)方法，則有關此表的所有Region變更日誌都不會寫入WAL中。這也是上圖中Region將變更日誌寫入WAL的那個垂直向下的箭頭為什麼是虛線的原因。

三、Hbase基本操作

Hbase中主要的客戶端接口是HTable類，HTable提供了對數據的所有CRUD操作。需要注意的是由於創建HTabe實例比較耗時，所以在實際使用中最好創建單例模式的HTable實例，不過如果需要多個HTable實例的話，可以考慮使用HBase的HTablePool特性（下面後講到）。Hbase不提供直接的update操作。由於Hbase中數據存儲有版本支持。所以如果需要update一條記錄，一般是通過put操作，這樣歷史版本會在Compaction操作中被合併掉，這樣就間接實現了更新。（在MemStore中有一個變量MemstoreTS，該變量是隨put操作而遞增的。比如首先往列A，timeStamp為T1上put一條數據data1，假設此時MemstoreTS為1；之後如果想更新這條數據，只需要往列A，timeStamp為T1上put一條數據data2，此時MemstoreTS為2，Hbase會自動會將MemstoreTS大的排在前面。MemstoreTS小的在Compaction過程中就被過濾掉了。）

1）put操作

Put操作就是講數據插入到Hbase中。有兩種模式，一種是對單行的操作（single put）；還有一種是對多行的操作（List of put）。針對單行操作的方式如下：

1、創建put實例有如下構造函數：需要用戶指定某行，用戶也可以設定時間戳作為版本標示。此外，用戶還可以加入自定義的行鎖，以防其它用戶或者其它線程在變更期間訪問此行的數據。

Put(byte[] row)

Put(byte[] row, RowLock rowLock)

Put(byte[] row, long ts)

Put(byte[] row, long ts, RowLock rowLock)

在Hbase中參數的傳遞大多是byte數組類型。Hbase提供了許多靜態方法將java類型轉換成byte數組類型。如下:

static byte[] toBytes(ByteBuffer bb)

static byte[] toBytes(String s)

static byte[] toBytes(boolean b)

static byte[] toBytes(long val)

static byte[] toBytes(float f)

static byte[] toBytes(int val)

2、一旦創建好put實例後，就可以通過put類提供的方法插入數據了。插入數據的操作需要指定列族，所在列等。如下:

Put add(byte[] family, byte[] qualifier, byte[] value)

Put add(byte[] family, byte[] qualifier, long ts, byte[] value)

Put add(KeyValue kv) throws IOException

3、put組裝完成後，就可以通過HTable提供的void put(Put put)throws IOException完成數據的插入操作。

如果需要對多行進行put操作，可以組裝一系列的put實例，然後調用HTable提供的void put(List puts) throws IOException來完成多行插入操作。不過需要指出的是：如果在這多個Put實例中存在一個put實例有誤（比如：往一個不存在的列族中插入數據），那麼該put實例會報錯，但是不影響其他的put實例。跟後面的get操作有點區別。

此外，Hbase還提供了一個原子型的put操作：Atomic compare-and-set ，方法如下:boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier,byte[] value, Put put) throws IOException。只有校驗成功後才會完成put操作.

需要注意的是，因為每次的put操作相當於一個RPC，將數據從客戶端傳遞到服務端並返回。如果你的應用中RPC非常頻繁，比如一秒內成千上萬次，可能會有隱患。解決的辦法就是儘量降低RPC次數，Hbase提供了一個嵌入的客戶端寫緩存器（Client-side Write Buffer）。它會緩存所有的put操作，然後再一次性提交。默認情況下Client-side Write Buffer是沒有激活的。用戶可以在創建HTable的時候通過調用table.setAutoFlush(false)方法來激活它。並且可以通過isAutoFlush()來檢查是否已經激活。默認是true，表示一旦有put操作會立即發送到服務器端。當你想將所有put操作提交到服務器端時，可以調用flushCommits()操作。它會將緩存器中所有變更提交到遠程服務器。Client-side Write Buffer還會自動對buffer中的所有變更進行分組，同一個HRegionServer的分到同一個組。這樣每個HRegionServer通過一個RPC傳送.

2）get操作

Get操作就是從服務器端獲取數據。跟put操作一樣，get操作也分為兩種模式，一種是對單行的get操作（single get），另一種是對多行進行檢索操作（List of gets）。

1、HTable提供的get方法如下：其返回值為Result類，該類包含了列族，列，keyvalue，

RowKey等信息。該類提供的豐富的方法供用戶獲取返回的各種信息。

Result get(Get get) throws IOException

2、Get類的構造函數如下，需要用戶傳入指定的行及行鎖等參數。

Get(byte[] row)

Get(byte[] row, RowLock rowLock)

3、一旦創建的get實例後，用戶可以調用Get類提供的如下方法來框定你需要檢索的數據。如下：用戶可以指定列族，列，時間戳，最大版本號等。如果不設置版本號，默認是1，表示最大的版本。

Get addFamily(byte[] family)

Get addColumn(byte[] family, byte[] qualifier)

Get setTimeRange(long minStamp, long maxStamp) throws IOException

Get setTimeStamp(long timestamp)

Get setMaxVersions()

Get setMaxVersions(int maxVersions) throws IOException

跟List of put 類似，對於多行的檢索操作，HTable也提供了類似的如下方法：用戶只要創建多個get實例，就可以通過如下方法獲取需要的數據。不過需要注意的是：跟List of put不同的是，如果Get實例列表中只要存在一個Get實例有誤（比如get一個不存在的列族的值），那麼整體就會拋出一個異常.

Result[] get(List gets) throws IOException

3）delete操作

Delete操作也類似，HTable提供了兩種方法，支持單個delete實例和多個delete實例的操作。如下:

void delete(Delete delete) throws IOException

void delete(List deletes) throws IOException

1、相應的delete實例構造函數有:

Delete(byte[] row)

Delete(byte[] row, long timestamp, RowLock rowLock)

2、如果你需要添加一些限制條件，可以使用delete類提供的相關方法，支持指定列族，列，時間戳等。如果你指定了一個時間戳，則表示小於等於該時間戳的時間將被刪除。如果指定了列和行號，但沒有指定時間戳，則默認會刪掉版本號最大的那個值。

Delete deleteFamily(byte[] family)

Delete deleteFamily(byte[] family, long timestamp)

Delete deleteColumns(byte[] family, byte[] qualifier)

Delete deleteColumns(byte[] family, byte[] qualifier, long timestamp)

Delete deleteColumn(byte[] family, byte[] qualifier)

Delete deleteColumn(byte[] family, byte[] qualifier, long timestamp)

void setTimestamp(long timestamp)

3、當使用List of delete時，如果有一個delete實例出錯，那麼會拋出異常。而且delete的實例列表中只會存在那個出問題的delete實例。Delete也支持原子型的Compare-and- Delete，如下:

boolean checkAndDelete(byte[] row, byte[] family, byte[] qualifier,byte[] value, Delete delete) throws IOException

4）Batch操作

Hbase還支持批量操作。其實上面所談到的List of puts,gets,deletes都是基於Batch操作來的。不過List of puts,gets,deletes逐漸會被廢棄。推薦使用Batch操作。HTable提供的batch操作方法如下：參數中Row類是Put，Delete，Get類的父類。表示用戶可以同時傳入put，get及delete實例操作。不過在一個batch中，最好不要同時傳入針對同一行的put和delete實例。

(1) void batch(List actions, Object[] results) throws IOException, InterruptedException

(2) Object[] batch(List actions) throws IOException, InterruptedException上面這兩個batch方法比較類似，但有比較大的區別。第一個batch方法需要用戶傳遞一個數組，該數組用來填充batch操作中所有成功的操作的結果集。如果沒有指定這個數組，比如第二個方法。一旦batch操作中某一個實例出現問題，那麼Hbase只會拋出一個異常。那些成功的操作的結果並不會返回。而第一個方法則會將那些成功的操作的結果集返回給用戶。

此外Batch操作不支持Client-side write buffer，Batch方法是同步的，會直接將其包含的操作發往服務器。這點需要注意！

Batch操作返回的結果可能的結果有如下幾種：

1、null：表示那個操作操作連接遠程服務器失敗。

2、Empty Result：put和delete操作的返回結果，表示操作成功。

3、Result：get操作的返回結果集

4、Throwable：異常結果

5）Scan操作

Scan操作類似於傳統的RDBMS中的遊標的概念。其目的跟get一樣，也是檢索服務器端數據。Hbase也提供了一個Scan類。由於Scans類似於迭代器，所以你需要通過getScanner()方法獲取。HTable提供瞭如下方法：如果你看了源碼就會知道，後面那兩個方法其實是先創建一個scan實例，並加入傳入的參數，然後再調用第一個方法。

ResultScanner getScanner(Scan scan) throws IOException

ResultScanner getScanner(byte[] family) throws IOException

ResultScanner getScanner(byte[] family, byte[] qualifier) throws IOException

1、Scan類提供了多個構造函數，如下：startRow和stopRow是左閉右開的。從構造函數中可以看出，用戶只需要指定rowKey的範圍，或者添加相應的過濾器，Hbase能夠自動檢索你指定的RowKey的範圍的數據。如果沒有指定startRow，默認從第一行開始.

Scan()

Scan(byte[] startRow, Filter filter)

Scan(byte[] startRow)

Scan(byte[] startRow, byte[] stopRow)

2、當創建好Scan實例後，如果想添加更多的限制條件，可以通過調用Scan提供的如下方法：允許添加列族，列，時間戳等.

Scan addFamily(byte [] family)

Scan addColumn(byte[] family, byte[] qualifier)

Scan setTimeRange(long minStamp, long maxStamp) throws IOException

Scan setTimeStamp(long timestamp)

Scan setMaxVersions()

Scan setMaxVersions(int maxVersions)

GetScanner()方法返回的是一個ResultScanner實例。需要注意的是：如果結果集存在多行，Scans並不會一次性將所有行在一個RPC裡面傳送給客戶端，而是基於一行一行傳送。這樣做主要是因為多行需要耗費大量時間。

ResultScanner類包裝了Result類將其每行結果以迭代的方式輸出，使得Scan操作類似於get操作。此外ResultScanner類提供瞭如下方法供用戶進行迭代使用：用戶可以選擇一次返回一行或者多行。不過不要認為是服務器端一次性返回多行。其實是客戶端循環調用nbRows 次next()方法而已。服務器端在一個RPC裡面還是隻傳送一行數據。這個確實有點影響心情，但Hbase就喜歡噁心下你，不過它也提供的相應的解決辦法：Scanner Caching，默認是關閉的。

Result next() throws IOException

Result[] next(int nbRows) throws IOException

void close()

close()方法表示釋放ResultScanner實例。因為ResultScanner實例持有了一定的資源,如果不及時釋放，可能隨著時間推移會佔用很大的內存空間。此外，close()操作最好放在finally模塊，原因你懂得！

四、Hbase特性

HBase提供了許多賞心悅目的特性。如Filters，Counters，Coprocessors，Compaction，HTablePool等。

1）Filters

當你通過Scan或者Get操作檢索數據時，會發現Scan和Get只支持基於RowKey，列族，列，時間戳等粗粒度的檢索。如果用戶想基於Key或者Value或者正則表達式等作為查詢條件進行查詢的話，Scan和Get是沒辦法做到的。而Filter就是幹這事的。Hbase提供了一系列的Filters，用戶只要實現Filter，也可以自定義Filters。

需要說明的是Hbase提供的這些Filters都是配置在客戶端，但應用在服務器端，也叫做Predicate push-down。(比如用戶在進行Scan操作時可以傳入Filter，序列化後傳送到服務器端，HRegionServer就會將其反序列化，並應用到內部Scanner)。這樣可以有效減少數據傳輸帶來的網絡開銷。

需要注意的是：Filters的通用約定是過濾掉你不需要的數據，而不是用來指定你需要的數據。不過凡是繼承CompareFilter過濾器的Filter，其作用剛好相反，用來指定你需要的數據。

Hbase提供的Filters有：

Ⅰ. Comparison Filters

Compartison Filters是基於比較的過濾器。定義如下：

CompareFilter(CompareOp valueCompareOp,WritableByteArrayComparable valueComparator)

該構造器有兩個特定的參數，一個是比較運算符，另一個是比較器。

A、常見的比較運算符有：

LESS，LESS_OR_EQUAL，EQUAL，NOT_EQUAL，GREATER_OR_EQUAL，GREATER，NO_OP。前面幾個運算符根據名字定義就能判斷其意思，最後一個是NO_OP，表示排除任何數據。

B、常見的比較器有：其中NullComparator是判斷給定的值是否為空或者非空。最後三個比較器只能搭配使用EQUAL，NOT_EQUAL比較運算符，返回0表示匹配，1表示不匹配。

BinaryComparator

BinaryPrefixComparator

NullComparator

BitComparator

RegexStringComparator

SubstringComparator

C、基於Comparison Filter的過濾器有好多種，比如:

1、RowFilter

2、FamilyFilter

3、QualifierFilter

4、ValueFilter

5、DependentColumnFilter

(1) RowFilter過濾器顧名思義就是根據RowKey來過濾數據。所以RowFilter中的比較運算符和比較器參數都是基於RowKey來比較的。比如如下Filter表示RowKey包含-4的數據。

Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new SubstringComparator("-4"))。

(2) FamilyFilter過濾器跟RowFilter類似，不過FamilyFilter是基於ColumnFamily的比較。

QualifierFilter和ValueFilter過濾器也類似，分別是基於列和數值的比較。

(3) DependentColumnFilter過濾器稍微複雜一點。它可以說是timeStamp Filter和ValueFilter的結合。因為DependentColumnFilter需要指定一個參考列，然後獲取跟改參考列有相同時間戳的所有列，再在此基礎上獲取滿足ValueFilter的列值。構造函數如下：用戶可以根據自己喜好省略valueFilter或者通過設置dropDependentColumn為true省略timestamp Filter。不過需要注意的是：此過濾器不能跟Scan中的Batch操作結合使用。

A、DependentColumnFilter(byte[] family, byte[] qualifier)

B、DependentColumnFilter(byte[] family, byte[] qualifier,boolean dropDependentColumn)

C、DependentColumnFilter(byte[] family, byte[] qualifier,boolean dropDependentColumn, CompareOp valueCompareOp,WritableByteArrayComparable valueComparator)

Ⅱ. Dedicated Filters

專有的一些過濾器，Hbase提供了許多個性化的專有過濾器。常見的Dedicated Filters有：

A、SingleColumnValueFilter

B、SingleColumnValueExcludeFilter

C、PrefixFilter

D、PageFilter

E、KeyOnlyFilter

F、FirstKeyOnlyFilter

G、InclusiveStopFilter

H、TimestampsFilter

I、ColumnCountGetFilter

J、ColumnPaginationFilter

K、ColumnPrefixFilter

L、RandomRowFilter

(1) 如果你想分頁獲取數據，可以通過PageFilter來完成。ColumnPaginationFilter跟PageFilter類似，只不過PageFilter是基於行的分頁，而ColumnPaginationFilter是基於列的分頁。如：

ColumnPaginationFilter(int limit, int offset)，表示獲取從offset列開始的連續limit列的數據。

(2) 如果只想獲取每一行的第一列的值，那麼FirstKeyOnlyFilter是不錯的選擇。此外，因為前面提到的Scan操作需要用戶指定一個startRow和EndRow，其中這兩個參數時左閉右開區間的。如果想EndRow也包含，可以通過InclusiveStopFilter來解決。如下：獲取從Row5至Row10的數據

。不過因為Hbase是字典排序的，所以得到的結果中可能會包含Row51,Row52等這些行的數據。

Filter filter = new InclusiveStopFilter(Bytes.toBytes("row-9"));

Scan scan = new Scan();

scan.setStartRow(Bytes.toBytes("row-5"));

scan.setFilter(filter);

ResultScanner scanner = table.getScanner(scan);

(3) 如果想獲取某個版本的所有數據。可以通過TimestampsFilter來設置，用戶需要傳入版本號。如下：

TimestampsFilter(List timestamps)

(4) PrefixFilter和ColumnPrefixFilter都是基於前綴的過濾器，不過PrefixFilter是基於行的前綴過濾，而後者是基於列的前綴過濾。

(5) RandomRowFilter是基於隨機行的過濾器，用戶需要指定一個在0到1之間的隨機數，構造函數如下：如果chance大於1，則會返回所有行。如果小於0，則過濾掉所有行。

RandomRowFilter(float chance)

Ⅲ. Decorating Filters

Decorating Filters稱為裝飾型的過濾器。它的作用是為其他過濾器返回的結果提供一些附加的校驗操作。常見的Decorating Filters有：

A、SkipFilter

B、WhileMatchFilter

(1) SkipFilter包裝了其它的過濾器，只要被包裝的過濾器返回的結果中有一行的某一列或者某個KeyValue被過濾掉了，那麼SkipFilter會將該列或者KeyValue所處的整行全部過濾。被包裝的過濾器必須實現filterKeyValue()方法。因為SkipFilter會依靠filterKeyValue()返回的結果進行附加的處理。比如：

Filter filter = new ValueFilter(CompareFilter.CompareOp.NOT_EQUAL,new BinaryComparator(Bytes.toBytes("val-1")));

上面這樣一個filter，表示返回的結果中值不能等於val-1，這樣值為val-1的那個列就不會展示，但該行的其他列只要滿足值不等於val-1都會返回。

不過一旦使用了SkipFilter，如：Filter filter2 = new SkipFilter(filter);只要存在某一行中的某個列的值等於val-1，那麼該行的所有數據都不會返回。

(2) WhileMatchFilter跟SkipFilter類似，不過區別之處在於WhileMatchFilter一旦找到某一行中的某些列值或者KeyValue不滿足條件，那麼整個Scan操作就會被終止。SkipFilter只是會將此行過濾，不作為返回值，但Scan操作會繼續。

Ⅳ. Custom Filters

如果想實現自定義的Filter，可以實現Filter接口或者擴展FilterBase類。FilterBase類提供了基本的Filter實現。

如果用戶想在一次檢索數據的過程中使用多個Filter，那麼可以使用FilterList特性。其構造函數如下：

FilterList(List rowFilters)

FilterList(Operator operator)

FilterList(Operator operator, List rowFilters)

其參數operator其枚舉值有兩個：MUST_PASS_ALL(表示返回的結果集數據必須通過所有過濾器的過濾)，MUST_PASS_ONE(表示返回的結果集數據只要通過了其中一個過濾器就行)。

2）Counters

Hbase提供了計數器Counters機制。它將列當做Counters，通過對列的操作來完成計數。在命令行下用戶可以通過如下命令增加計數。

incr ‘

’,’’,’’,[]

如果想獲取當前計數器的值，可以通過get命令或者get_counter或者incr命令。如下：

get ‘

’,’’;

get_counter ‘

’,’’;

incr ‘

’,’’,’’,0;

第一個和第二個的區別就是第一個返回的值是字節數組類型，用戶很難立刻知道到底代表什麼值。第二個返回的是可讀的值。第三個命令採用比較投機取巧的辦法，通過incr計數加0來返回當前值。如果將減少計數，可以通過incr命令來增加一個負數的值。

HTable提供了單個計數器(Single Counters)和多個計數器(Multiple Counters)。對於單個的Counters，需要指定準確的列名，跟命令行的incr一樣，可以通過增加正數和負數或者零來達到增加計數，減少計數以及訪問當期計數的目的。構造函數如下：

long incrementColumnValue(byte[] row, byte[] family, byte[] qualifier,long amount) throws IOException

long incrementColumnValue(byte[] row, byte[] family, byte[] qualifier,long amount, boolean writeToWAL) throws IOException

對於多重計數器，HTable提供的方法如下：

Result increment(Increment increment) throws IOException

1、用戶需要創建一個Increment實例，可以採用如下構造函數：

Increment() {}

Increment(byte[] row)

Increment(byte[] row, RowLock rowLock)

2、如果想為這個Increment實例添加必要的條件，如列名，或者時間戳範圍，可以通過如下方法來完成。可以在一個Increment實例中通過增加多列來實現多重計數器。

Increment addColumn(byte[] family, byte[] qualifier, long amount)

Increment setTimeRange(long minStamp, long maxStamp) throws IOException

3）Coprocessors

Coprocessors是Hbase提供的另一大特性。可以認為是簡化的MapReduce組件。Coprocessors是一組內嵌於RegionServer和HMaster進程的框架（BigTable的coprocessors擁有獨立進程和地址空間），支持用戶請求在每個Region上並行運行，類似於傳統數據庫中觸發器的功能。

1、Hbase提供的Coprocessors有兩種類型：observer和endpoint。其中observer類似於RDBMS中的觸發器，即鉤子函數，其代碼部署在服務器端運行，在真實的方法前添加pre(),實現後加入

post(),以實現對真實方法的輔助操作。而endpoint類似於存儲過程。

2、Coprocessors框架有三個模塊組成：Coprocessors，CoprocessorEnvironment，

CoprocessorHost。CoprocessorEnvironment提供Coprocessors實例運行的環境以及持有

Coprocessors實例的生命週期狀態。CoprocessorHost是用來維護Coprocessors實例和

Coprocessors運行環境的。

三元體類圖如下（Hbase94版本）：用戶可以通過繼承BaseRegionObserver， WALObserver，

BaseMasterObserver或者BaseEndpointCoprocessor來實現自定義的Coprocessors。

A、coprocessors Load

Coprocessors有兩種加載方式：通過配置文件方式的靜態加載和動態加載方式。

a、配置文件加載

靜態加載方式就是通過hbase-site.xml配置文件配置指定的coprocessors來加載。配置方式如下，其執行順序就是按照配置文件指定的順序：

hbase.coprocessor.region.classes

coprocessor.RegionObserverExample,coprocessor.otherCoprocessor

hbase.coprocessor.master.classes

coprocessor.MasterObserverExample

hbase.coprocessor.wal.classes

coprocessor.WALObserverExample, bar.foo.MyWALObserver

需要注意的是：通過這種方式加載的RegionObserver是針對所有Region和表的。用戶無法指定某一具體的Region或者table。

b、通過table description加載

通過這種方式的加載是細化到具體的表的維度。只有跟該表有關的Region操作才會加載。所以這種方式的加載只能針對RegionCoprocessor。加載方法是：

HTableDescriptor.setValue(),其中key是Coprocessor，value是||

B、observer

observer又有三種實現類型：

a、RegionObserver

RegionObserver一般用來進行數據操作的coprocessor，比如數據訪問前的權限身份驗證，Filter，二級索引等。如：

void preFlush(...) / void postFlush(...) MemStore中內容flush到Storefile前後添加輔助型操作。

void preGet(...) / void postGet(...) 獲取數據的前後添加輔助操作

b、MasterObserver

MasterObserver是面向整個集群的事件，比如基於管理員的操作和DDL類型的操作的監控。如：

void preCreateTable(...) / void postCreateTable(...) 創建表前後做些輔助操作

void preAddColumn(...) / void postAddColumn(...) 創建列前後做些輔助操作

void preMove(...) / void postMove(...) 移動Region的前後添加輔助操作

c、WALObserver

WALObserver則是提供鉤子函數對Write Ahead Log的的操作。

C、Endpoint

Endpoint動態擴展了RPC協議。只支持Region的操作，不支持Master和WAL的操作。用戶可以通過Endpoint完成一些聚集函數的功能，如AVG，Count，SUM等。其原理是通過包裝客戶端的實現，類似於MapReduce，比如getSum()操作，Map端endpoint通過並行的scan完成對每個Region的操作，每個Region的scan結果彙總到endpoint包裝的客戶端，將每個Region反饋的結果進行彙總即可得到getSum()的結果。

D、小結

a、Coprocessors有兩種類型：observer和endpoint。observer類似於傳統的關係型數據庫中的觸發器，通過鉤子函數來完成對被鉤的方法的輔助功能，endpoint類似於關係型數據庫中的存儲過程，用來實現聚合函數的相關功能。

b、Coprocessors支持動態加載，擁有多種加載方式。

c、Coprocessors可以將多個Coprocessor鏈接在一起使用，類似於Servlet中的filters過濾器。

d、Coprocessors中有優先級的概念，SYSTEM級別的Coprocessor優先處理，USER級別的Coprocessor優先級更低。

4）Split And Comcaption

A、Region Split

當創建一個表時，此時該表只對應一個Region。隨著不斷了往表中插入記錄，表數據越來越多，當超過設定的值hbase.hregion.max.filesize時，該Region就會Split成兩個子Region。原來的那個Region就會被刪除。具體操作如下：

a、HRegionServer創建一個splits目錄，並且關閉其父Region以防接收其它請求。

b、HRegionServer會在splits目錄準備好兩個子Region，父Region的RowKey對半切。然後將其移動到表目錄下，並且更細.Meta.表的數據，指示該父Region正在被執行Split操作。

c、讀取父Region的數據到子Region中。更新.Meta.表。

d、清理父Region，通知HMaster將新的子Region遷移到其它RegionServer中。

Split過程核心代碼如下：如果想了解有關Split的詳細流程，可以參考：

http://punishzhou.iteye.com/blog/1233802

B、Compaction

當Hbase將MemStore中的內容flush到StoreFile中後，由於每次flush都會產生一個新的HFile文件。隨著一次次的flush，HFile文件越來越多，當達到設定的閥值時，Hbase提供了Compaction特性，會通過此機制將HFile文件進行壓縮。

Compaction機制分為兩種方式：minor compactions和major compactions 。minor compactions是將相鄰的一些小的HFile合併成一個稍大的HFile，表演一個多路合併的過程，其文件的數目由（hbase.hstore.compaction.min）指定；而major compactions會將一個Store中的所有HFile合併成一個HFile，並且在壓縮的過程中會進行版本合併和刪除過濾操作。比如對於那些同一個Cell中且同一個時間戳的數據，只保留最新的那個值，其他的值將被廢棄。此外標記了刪除樣式的數據以及過期的數據也將被過濾。

其實Compaction就是將多個有序的HFile文件合併成一個有序的HFile文件的一個過程。它會創建一個StoreFileScanner來包裝每一個StoreFile,然後再通過一個StoreFileScanner實例來組裝StoreFile對應的StoreFileScanner列表。通過StoreFileScanner實例提供的next()和seek()方法獲取每個storeFile中的數據，最後再將此數據append到一個新的HFile中。

5）HTablePool

如果用戶每次發起一個請求時都創建一個HTable實例，如下創建方式：

Configuration conf = HBaseConfiguration.create();

HTable table = new HTable(conf, "testtable");

這種方式雖然可以滿足要求，但對於請求數比較多的情況或者要求響應時間比較快的情況，如上創建HTable實例就比較落伍了。因為創建Htable是一個比較耗時的過程，此外，HTable並不能保證線程安全，在多線程處理下就可能產生莫名其妙的問題。

HBase提供了HTable池特性可以解決此問題。用戶可以直接從HTable池中獲取HTable實例。

1、可以通過如下構造函數來創建HTablePool實例，如下：

HTablePool()

HTablePool(Configuration config, int maxSize)

HTablePool(Configuration config, int maxSize,HTableInterfaceFactory tableFactory)

上面的第一個構造函數會默認獲取classpath下的配置，並且創建無窮大的HTable個數。用戶可以提供定製的創建的HTable實例的工廠來，這樣創建的HTablePool中的HTable就是用戶定製的

HTable實例。maxSize參數是指定HTable池中最大持有多少個HTable實例。比如如果此size為5，

而用戶通過getTable獲取了10次引用，那麼當用戶通過putTable方法將實例放回HTable池中時，只能放回5個實例，另外的5次將被忽略掉了。

2、創建HTablePool實例後，就可以通過getTable方法獲取對應的表的HTable實例了。如下：

HTableInterface getTable(String tableName)

HTableInterface getTable(byte[] tableName)

3、當使用完HTable實例後，需要將HTable實例關閉，可以採用如下方法：

void closeTablePool(String tableName)

void closeTablePool(byte[] tableName)

void putTable(HTableInterface table)

closeTablePool(tableName)相當於直接將此Table實例關閉。建議使用此方法。PutTable(FilterBase)表示將此實例放回HTable池中供下次使用。建議不要使用此方法，目前此方法也在逐漸廢棄。需要注意的是以上操作最好放到finally模塊進行處理。

五、總結

A、總的來說Hbase因為其面向列族的key-value存儲特性使得其擁有列式數據庫的優勢。分佈式的Hbase應用是由客戶端和服務端進程組成，通過HDFS作為其持久層，採用Zookeeper來完成集群的管理和狀態監控協調服務。對於全表掃描和大數據的加載通過MapReduce來完成。Hbase無縫集成了Apache的這幾大組件來實現可伸縮，面向列族的分佈式存儲系統。

B、Hbase是嚴格一致性的分佈式存儲系統，從兩個方面來保證嚴格一致性問題：它提供行鎖，但不提供多行鎖和事務，保證了讀寫的原子性。此外Hbase數據存儲支持多版本和時間戳的特性。

C、Hbase可以認為是BigTable的開源實現，但跟BigTable還是有很多區別。比如：Hbase的Coprocessors跟BigTable不同。Hbase支持服務器端的Filter以減少網絡傳輸開銷。此外Hbase支持可插拔的文件系統，目前文件系統是HDFS，BigTable是GFS。

D、Hbase通過實現服務器端的鉤子（Coprocessors）來完成二級索引。這也是BigTable沒有實現的。

分享到:

閱讀更多 水叮噹 的文章

關鍵字: MapReduce 學習 HBase

Hadoop：MapReduce多路徑輸入與多文件輸出詳解

Hadoop 偽分佈式搭建指南

Hadoop 數據科學

一步一步學習大數據：Hadoop 生態系統與場景

Hadoop 安裝教程

php 操作 Hadoop

第四章 Hadoop 集群搭建

第七章 Hadoop 常用的 shell 命令

第二章 Hadoop 發展背景

不看就虧系列！這裡有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！

大數據開發學習，Hadoop-HDFS詳細介紹

03.04 大數據開發學習，Hadoop-HDFS詳細介紹

03.02 看完就能獨自把集群搭起來！Hadoop HDFS完全分佈式環境搭建詳解

03.01 Hadoop HDFS詳細操作

Hbase教程菜鳥教程：Hadoop Hbase入門簡介

Hadoop 3的主要優缺點

FastDFS、Hadoop、TiDB共同點與各自特點

Hadoop YARN：調度性能優化實踐

SQL ON HADOOP 技術框架彙總

Hadoop 數據管理平臺 Apache Falcon

深入淺出 Hadoop YARN

Hadoop、Spark等5種大數據框架對比，你的項目該用哪種？

Hadoop 企業級大數據管理平台CDH 安裝Hadoop組件

Hadoop 基本 Shell命令

揭祕Apache Hadoop YARN，第二部分：全局配置基礎

揭祕Apache Hadoop YARN，第一部分：集群和YARN基礎

08.28 Hadoop 學習一:jdk配置

最全騰訊等BAT大數據面試99題：hadoop、java、spark、機器算法等

ELK hadoop hbase

系統學習大數據兩大框架 hadoop 和spark

如何系統的學習大數據框架 hadoop 和spark？

大數據計算常用的分布式計算組件——Hadoop、Storm以及Spark

Nutch-Hadoop-MongoDB搭建分佈式爬蟲

好程式設計師：hadoop job 日誌的查看

Hadoop 的主節點如何啓動java程序？

hadoop上運行python——hadoop streaming：搭建數據分析體系79篇

Hadoop 面試，來看這篇就夠了

Hadoop MapReduce v1 系統剖析

Hadoop 之上的數據建模-Data Vault 2.

Hadoop 回收站Trash知識點

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"