「DB」一分鐘掌握資料庫垂直拆分,快速建立易擴展的數據結構

一、緣起

當數據庫的數據量非常大時,水平切分垂直拆分是兩種常見的降低數據庫大小,提升性能的方法。假設有用戶表:

user(

uid bigint,

name varchar(16),

pass varchar(16),

age int,

sex tinyint,

flag tinyint,

sign varchar(64),

intro varchar(256)

…);

水平切分是指,以某個字段為依據(例如uid),按照一定規則(例如取模),將一個庫(表)上的數據拆分到多個庫(表)上,以降低單庫(表)大小,達到提升性能的目的的方法,水平切分後,各個庫(表)的特點是:

(1)每個庫(表)的結構都一樣

(2)每個庫(表)的數據都不一樣,沒有交集

(3)所有庫(表)的並集是全量數據

二、什麼是垂直拆分

垂直拆分是指,將一個屬性較多,一行數據較大的表,將不同的屬性拆分到不同的表中,以降低單庫(表)大小,達到提升性能的目的的方法,垂直切分後,各個庫(表)的特點是:

(1)每個庫(表)的結構都不一樣

(2)一般來說,每個庫(表)的屬性至少有一列交集,一般是主鍵

(3)所有庫(表)的並集是全量數據

還是以上文提到的用戶表為例,如果要垂直拆分,可能拆分結果會是這樣的:

user_base(

uid bigint,

name varchar(16),

pass varchar(16),

age int,

sex tinyint,

flag tinyint,

…);

user_ext(

uid bigint,

sign varchar(64),

intro varchar(256)

…);

三、垂直切分的依據是什麼

當一個表屬性很多時,如何來進行垂直拆分呢?如果沒有特殊情況,拆分依據主要有幾點:

(1)將長度較短,訪問頻率較高的屬性儘量放在一個表裡,這個表暫且稱為主表

(2)將字段較長,訪問頻率較低的屬性儘量放在一個表裡,這個表暫且稱為擴展表

如果1和2都滿足,還可以考慮第三點:

(3)經常一起訪問的屬性,也可以放在一個表裡

優先考慮1和2,第3點不是必須。另,如果實在屬性過多,主表和擴展表都可以有多個。

一般來說,數據量併發量比較大時,數據庫的上層都會有一個服務層。需要注意的是,當應用方需要同時訪問主表和擴展表中的屬性時,服務層不要使用join來連表訪問,而應該分兩次進行查詢:

「DB」一分鐘掌握數據庫垂直拆分,快速建立易擴展的數據結構


原因是,大數據高併發互聯網場景下,一般來說,吞吐量和擴展性是主要矛盾:

(1)join更消損耗數據庫性能

(2)join會讓base表和ext表耦合在一起(必須在一個數據庫實例上),不利於數據量大時拆分到不同的數據庫實例上(機器上)。畢竟減少數據量,提升性能才是垂直拆分的初衷。

四、為什麼要這麼這麼拆分

為何要將字段短,訪問頻率高的屬性放到一個表內?為何這麼垂直拆分可以提升性能?因為:

(1)數據庫有自己的內存buffer,會將磁盤上的數據load到內存buffer裡(暫且理解為進程內緩存吧)

(2)內存buffer緩存數據是以row為單位

(3)在內存有限的情況下,在數據庫內存buffer裡緩存短row,就能緩存更多的數據

(4)在數據庫內存buffer裡緩存訪問頻率高的row,就能提升緩存命中率,減少磁盤的訪問

舉個例子就很好理解了:

假設數據庫內存buffer為1G,未拆分的user表1行數據大小為1k,那麼只能緩存100w行數據。

如果垂直拆分成user_base和user_ext,其中:

(1)user_base訪問頻率高(例如uid, name, passwd, 以及一些flag等),一行大小為0.1k

(2)user_ext訪問頻率低(例如簽名, 個人介紹等),一行大小為0.9k

那邊內存buffer就就能緩存近乎1000w行user_base的記錄,訪問磁盤的概率會大大降低,數據庫訪問的時延會大大降低,吞吐量會大大增加。

五、總結

(1)水平拆分

垂直拆分都是降低數據量大小,提升數據庫性能的常見手段

(2)流量大,數據量大時,數據訪問要有service層,並且service層不要通過join來獲取主表和擴展表的屬性

(3)垂直拆分的依據,儘量把長度較短,訪問頻率較高的屬性放在主表裡


希望沒有浪費你這一分鐘,幫轉哈。


分享到:


相關文章: