本文,將介紹數據庫架構設計中的一些基本概念,常見問題以及對應解決方案,為了便於讀者理解,將以“用戶中心”數據庫為例,講解數據庫架構設計的常見玩法。
一、用戶中心
用戶中心是一個常見業務,主要提供用戶註冊、登錄、信息查詢與修改的服務,其核心元數據為:
User(uid, uname, passwd, sex, age,nickname, …)
其中:
uid為用戶ID,主鍵uname, passwd, sex, age, nickname, …等為用戶的屬性數據庫設計上,一般來說在業務初期,單庫單表就能夠搞定這個需求。
二、圖示說明
為了方便大家理解,後文圖片說明較多,其中:
“灰色”方框,表示service,服務“紫色”圓框,標識master,主庫“粉色”圓框,表示slave,從庫三、單庫架構
最常見的架構設計如上:
user-service:用戶中心服務,對調用者提供友好的RPC接口user-db:一個庫進行數據存儲
四、分組架構
什麼是分組?
答:分組架構是最常見的一主多從,主從同步,讀寫分離數據庫架構:
user-service:依舊是用戶中心服務user-db-M(master):主庫,提供數據庫寫服務user-db-S(slave):從庫,提供數據庫讀服務主和從構成的數據庫集群稱為“組”。
分組有什麼特點?
答:同一個組裡的數據庫集群:
主從之間通過binlog進行數據同步多個實例數據庫結構完全相同多個實例存儲的數據也完全相同,本質上是將數據進行復制分組架構究竟解決什麼問題?
答:大部分互聯網業務讀多寫少,數據庫的讀往往最先成為性能瓶頸
此時可以使用分組架構,需要注意的是,分組架構中,數據庫的主庫依然是寫單點。
一句話總結,分組解決的是“數據庫讀寫高併發量高”問題,所實施的架構設計。
五、分片架構
什麼是分片?
答:分片架構是大夥常說的水平切分(sharding)數據庫架構:
user-service:依舊是用戶中心服務user-db1:水平切分成2份中的第一份user-db2:水平切分成2份中的第二份分片後,多個數據庫實例也會構成一個數據庫集群。
水平切分,到底是分庫還是分表?
答:強烈建議分庫,而不是分表,因為:
分表依然公用一個數據庫文件,仍然有磁盤IO的競爭分庫能夠很容易的將數據遷移到不同數據庫實例,甚至數據庫機器上,擴展性更好水平切分,用什麼算法?
答:常見的水平切分算法有“範圍法”和“哈希法”:
範圍法如上圖:以用戶中心的業務主鍵uid為劃分依據,將數據水平切分到兩個數據庫實例上去:
user-db1:存儲0到1千萬的uid數據user-db2:存儲0到2千萬的uid數據哈希法如上圖:也是以用戶中心的業務主鍵uid為劃分依據,將數據水平切分到兩個數據庫實例上去:
user-db1:存儲uid取模得1的uid數據user-db2:存儲uid取模得0的uid數據這兩種方法在互聯網都有使用,其中哈希法使用較為廣泛。
分片有什麼特點?
答:同一個分片裡的數據庫集群:
多個實例之間本身不直接產生聯繫,不像主從間有binlog同步多個實例數據庫結構,也完全相同多個實例存儲的數據之間沒有交集,所有實例間數據並集構成全局數據分片架構究竟解決什麼問題?
答:大部分互聯網業務數據量很大,單庫容量容易成為瓶頸,此時通過分片可以:
線性提升數據庫寫性能,需要注意的是,分組架構是不能線性提升數據庫寫性能的降低單庫數據容量一句話總結,分片解決的是“數據庫數據量大”問題,所實施的架構設計。
六、分組+分片架構
如果業務讀寫併發量很高,數據量也很大,通常需要實施分組+分片的數據庫架構:
通過分片來降低單庫的數據量,線性提升數據庫的寫性能通過分組來線性提升數據庫的讀性能,保證讀庫的高可用七、垂直切分
除了水平切分,垂直切分也是一類常見的數據庫架構設計,垂直切分一般和業務結合比較緊密。
還是以用戶中心為例,可以這麼進行垂直切分:
User(uid, uname, passwd, sex, age, …)
User_EX(uid, intro, sign, …)
垂直切分開的表,主鍵都是uid登錄名,密碼,性別,年齡等屬性放在一個垂直表(庫)裡自我介紹,個人簽名等屬性放在另一個垂直表(庫)裡如何進行垂直切分?
答:根據業務對數據進行垂直切分時,一般要考慮屬性的“長度”和“訪問頻度”兩個因素:
長度較短,訪問頻率較高的放在一起長度較長,訪問頻度較低的放在一起這是因為,數據庫會以行(row)為單位,將數load到內存(buffer)裡,在內存容量有限的情況下,長度短且訪問頻度高的屬性,內存能夠load更多的數據,命中率會更高,磁盤IO會減少,數據庫的性能會提升。
垂直切分有什麼特點?
答:垂直切分和水平切有相似的地方,又不太相同:
多個實例之間也不直接產生聯繫,即沒有binlog同步多個實例數據庫結構,都不一樣多個實例存儲的數據之間至少有一列交集,一般來說是業務主鍵,所有實例間數據並集構成全局數據垂直切分解決什麼問題?
答:垂直切分即可以降低單庫的數據量,還可以降低磁盤IO從而提升吞吐量,但它與業務結合比較緊密,並不是所有業務都能夠進行垂直切分的。
八、總結
文章較長,希望至少記住這麼幾點:
業務初期用單庫讀壓力大,讀高可用,用分組數據量大,寫線性擴容,用分片屬性短,訪問頻度高的屬性,垂直拆分到一起希望大夥有收穫。