100億數據平滑數據遷移，不影響服務

2018-10-10 10:50:00 程序員界的彭于晏

一、問題的提出

互聯網有很多“數據量較大，併發量較大，業務複雜度較高”的業務場景，其典型系統分層架構如下：

（1）上游是業務層biz，實現個性化的業務邏輯

（2）中游是服務層service，封裝數據訪問

（3）下游是數據層db，存儲固化的業務數據

服務化分層架構的好處是，服務層屏蔽下游數據層的複雜性，例如緩存、分庫分表、存儲引擎等存儲細節不需要向調用方暴露，而只向上遊提供方便的RPC訪問接口，當有一些數據層變化的時候，所有的調用方也不需要升級，只需要服務層升級即可。

互聯網架構，很多時候面臨著這樣一些需求：

需求1->底層表結構變更：數據量非常大的情況下，數據表增加了一些屬性，刪除了一些屬性，修改了一些屬性。

需求2->分庫個數變換：由於數據量的持續增加，底層分庫個數非成倍增加。

需求3->底層存儲介質變換：底層存儲引擎由一個數據庫換為另一個數據庫。

種種需求，都需要進行數據遷移，如何平滑遷移數據，遷移過程不停機，保證系統持續服務，是文本將要討論的問題。

二、停機方案

在討論平滑遷移數據方案之前，先看下不平滑的停機數據遷移方案，主要分三個步驟。

步驟一：掛一個類似“為了給廣大用戶提供更好的服務，服務器會在凌晨0:00-0:400進行停機維護”的公告，並在對應時段進行停機，這個時段系統沒有流量進入。

步驟二：停機後，研發一個離線的數據遷移工具，進行數據遷移。針對第一節的三類需求，會分別開發不同的數據遷移工具。

（1）底層表結構變更需求：開發舊錶導新表的工具

（2）分庫個數變換需求：開發2庫導3庫的工具

（3）底層存儲介質變換需求：開發Mongo導Mysql工具

步驟三：恢復服務，並將流量切到新庫，不同的需求，可能會涉及不同服務升級。

（1）底層表結構變更需求：服務要升級到訪問新表

（2）分庫個數變換需求：服務不需要升級，只需要改尋庫路由配置

（3）底層存儲介質變換需求：服務升級到訪問新的存儲介質

總的來說，停機方案是相對直觀和簡單的，但對服務的可用性有影響，許多遊戲公司的服務器升級，遊戲分區與合區，可能會採用類似的方案。

除了影響服務的可用性，這個方案還有一個缺點，就是必須在指定時間完成升級，這個對研發、測試、運維同學來說，壓力會非常大，一旦出現問題例如數據不一致，必須在規定時間內解決，否則只能回滾。根據經驗，

人壓力越大越容易出錯，這個缺點一定程度上是致命的。

無論如何，停機方案並不是今天要討論的重點，接下來看一下常見的平滑數據遷移方案。

三、平滑遷移-追日誌法

平滑遷移方案一，追日誌法，這個方案主要分為五個步驟。

數據遷移前，上游業務應用通過舊的服務訪問舊的數據。

步驟一：服務進行升級，記錄“對舊庫上的數據修改”的日誌（這裡的修改，為數據的insert, delete, update），這個日誌不需要記錄詳細數據，主要記錄：

（1）被修改的庫

（2）被修改的表

（3）被修改的唯一主鍵

具體新增了什麼行，修改後的數據格式是什麼，不需要詳細記錄。這樣的好處是，不管業務細節如何變化，日誌的格式是固定的，這樣能保證方案的通用性。

這個服務升級風險較小：

（1）寫接口是少數接口，改動點較少

（2）升級只是增加了一些日誌，對業務功能沒有任何影響

步驟二：研發一個數據遷移工具，進行數據遷移。這個數據遷移工具和離線遷移工具一樣，把舊庫中的數據轉移到新庫中來。

這個小工具的風險較小：

（1）整個過程依然是舊庫對線上提供服務

（2）小工具的複雜度較低

（3）任何時間發現問題，都可以把新庫中的數據幹掉重來

（4）可以限速慢慢遷移，技術同學沒有時間壓力

數據遷移完成之後，就能夠切到新庫提供服務了麼？

答案是否定的，在數據遷移的過程中，舊庫依然對線上提供著服務，庫中的數據隨時可能變化，這個變化並沒有反映到新庫中來，於是舊庫和新庫的數據並不一致，所以不能直接切庫，需要將數據追平。

哪些數據發生了變化呢？

步驟一中日誌裡記錄的不就是麼？

步驟三：研發一個讀取日誌並遷移數據的小工具，要把步驟二遷移數據過程中產生的差異數據追平。這個小工具需要做的是：

（1）讀取日誌，得到哪個庫、哪個表、哪個主鍵發生了變化

（2）把舊庫中對應主鍵的記錄讀取出來

（3）把新庫中對應主鍵的記錄替換掉

無論如何，原則是數據以舊庫為準。

這個小工具的風險也很小：

（1）整個過程依然是舊庫對線上提供服務

（2）小工具的複雜度較低

（3）任何時間發現問題，大不了從步驟二開始重來

（4）可以限速慢慢重放日誌，技術同學沒有時間壓力

日誌重放之後，就能夠切到新庫提供服務了麼？

答案依然是否定的，在日誌重放的過程中，舊庫中又可能有數據發生了變化，導致數據不一致，所以還是不能切庫，需要進一步讀取日誌，追平記錄。可以看到，重放日誌追平數據的程序是一個while(1)的程序，新庫與舊庫中的數據追平也會是一個“無限逼近”的過程。

什麼時候數據會完全一致呢？

步驟四：在持續重放日誌，追平數據的過程中，研發一個數據校驗的小工具，將舊庫和新庫中的數據進行比對，直到數據完全一致。

這個小工具的風險依舊很小：

（1）整個過程依然是舊庫對線上提供服務

（2）小工具的複雜度較低

（3）任何時間發現問題，大不了從步驟二開始重來

（4）可以限速慢慢比對數據，技術同學沒有時間壓力

步驟五：在數據比對完全一致之後，將流量遷移到新庫，新庫提供服務，完成遷移。

如果步驟四數據一直是99.9%的一致，不能完全一致，也是正常的，可以做一個秒級的舊庫readonly，等日誌重放程序完全追上數據後，再進行切庫切流量。

至此，升級完畢，整個過程能夠持續對線上提供服務，不影響服務的可用性。

四、平滑遷移-雙寫法

平滑遷移方案二，雙寫法，這個方案主要分為四個步驟。

數據遷移前，上游業務應用通過舊的服務訪問舊的數據。

步驟一：服務進行升級，對“對舊庫上的數據修改”（這裡的修改，為數據的insert, delete, update），在新庫上進行相同的修改操作，這就是所謂的“雙寫”，主要修改操作包括：

（1）舊庫與新庫的同時insert

（2）舊庫與新庫的同時delete

（3）舊庫與新庫的同時update

由於新庫中此時是沒有數據的，所以雙寫舊庫與新庫中的affect rows可能不一樣，不過這完全不影響業務功能，只要不切庫，依然是舊庫提供業務服務。

這個服務升級風險較小：

（1）寫接口是少數接口，改動點較少

（2）新庫的寫操作執行成功與否，對業務功能沒有任何影響

步驟二：研發一個數據遷移工具，進行數據遷移。這個數據遷移工具在本文中已經出現第三次了，把舊庫中的數據轉移到新庫中來。

這個小工具的風險較小：

（1）整個過程依然是舊庫對線上提供服務

（2）小工具的複雜度較低

（3）任何時間發現問題，都可以把新庫中的數據幹掉重來

（4）可以限速慢慢遷移，技術同學沒有時間壓力

數據遷移完成之後，就能夠切到新庫提供服務了麼？

答案是肯定的，因為前置步驟進行了雙寫，所以理論上數據遷移完之後，新庫與舊庫的數據應該完全一致。

由於遷移數據的過程中，舊庫新庫雙寫操作在同時進行，怎麼證明數據遷移完成之後數據就完全一致了呢？

如上圖所示：

（1）左側是舊庫中的數據，右側是新庫中的數據

（2）按照primary key從min到max的順序，分段，限速進行數據的遷移，假設已經遷移到now這個數據段

數據遷移過程中的修改操作分別討論：

（1）假設遷移過程中進行了一個雙insert操作，舊庫新庫都插入了數據，數據一致性沒有被破壞

（2）假設遷移過程中進行了一個雙delete操作，這又分為兩種情況

（2.1）假設這delete的數據屬於[min,now]範圍，即已經完成遷移，則舊庫新庫都刪除了數據，數據一致性沒有被破壞

（2.2）假設這delete的數據屬於[now,max]範圍，即未完成遷移，則舊庫中刪除操作的affect rows為1，新庫中刪除操作的affect rows為0，但是數據遷移工具在後續數據遷移中，並不會將這條舊庫中被刪除的數據遷移到新庫中，所以數據一致性仍沒有被破壞

（3）假設遷移過程中進行了一個雙update操作，可以認為update操作是一個delete加一個insert操作的複合操作，所以數據仍然是一致的

除非除非除非，在一種非常非常非常極限的情況下：

（1）date-migrate-tool剛好從舊庫中將某一條數據X取出

（2）在X插入到新庫中之前，舊庫與新庫中剛好對X進行了雙delete操作

（3）date-migrate-tool再將X插入到新庫中

這樣，會出現新庫比舊庫多出一條數據X。

但無論如何，為了保證數據的一致性，切庫之前，還是需要進行數據校驗的。

步驟三：在數據遷移完成之後，需要使用數據校驗的小工具，將舊庫和新庫中的數據進行比對，完全一致則符合預期，如果出現步驟二中的極限不一致情況，則以舊庫中的數據為準。

這個小工具的風險依舊很小：

（1）整個過程依然是舊庫對線上提供服務

（2）小工具的複雜度較低

（3）任何時間發現問題，大不了從步驟二開始重來

（4）可以限速慢慢比對數據，技術同學沒有時間壓力

步驟四：數據完全一致之後，將流量切到新庫，完成平滑數據遷移。

至此，升級完畢，整個過程能夠持續對線上提供服務，不影響服務的可用性。

五、總結

針對互聯網很多“數據量較大，併發量較大，業務複雜度較高”的業務場景，在

（1）底層表結構變更

（2）分庫個數變換

（3）底層存儲介質變換

的眾多需求下，需要進行數據遷移，完成“平滑遷移數據，遷移過程不停機，保證系統持續服務”有兩種常見的解決方案。

追日誌法，五個步驟：

（1）服務進行升級，記錄“對舊庫上的數據修改”的日誌

（2）研發一個數據遷移小工具，進行數據遷移

（3）研發一個讀取日誌小工具，追平數據差異

（4）研發一個數據比對小工具，校驗數據一致性

（5）流量切到新庫，完成平滑遷移

雙寫法，四個步驟：

（1）服務進行升級，記錄“對舊庫上的數據修改”進行新庫的雙寫

（2）研發一個數據遷移小工具

，進行數據遷移

（3）研發一個數據比對小工具，校驗數據一致性

（4）流量切到新庫，完成平滑遷移

分享到:

閱讀更多 程序員界的彭于晏 的文章

關鍵字: 哪個日誌數據

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

100億數據平滑數據遷移，不影響服務

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪