數據交給雲服務商就萬事大吉?備份與容災一個也不能少

“也許很多企業很幸運,從來沒有經歷過數據丟失。但是,一旦發生企業關鍵數據的丟失,就會很大程度上影響業務發展,同時造成嚴重經濟損失。”

數據交給雲服務商就萬事大吉?備份與容災一個也不能少

現在很多企業的數據都選擇上雲。然而,即便是將業務數據存放在國內外知名的雲平臺,也免不了掉鏈子。

2018年8月,騰訊雲“數據丟失事件”在業界引起極大的關注,因騰訊雲發生故障和人為操作失誤,直接導致創業公司“前沿數控”數據全部丟失,公司面臨業務停擺的威脅。

在騰訊雲的覆盤中發現,該故障緣起於因磁盤靜默錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不規範的操作,導致雲盤的三副本安全機制失效,並最終導致客戶數據完整性受損。

事實上,騰訊雲並不是唯一出現過故障的雲平臺。2018年6月,阿里雲因bug禁用內部IP導致鏈路不通,造成1000+公司業務癱瘓,損失過億;2017年4月,全球知名雲平臺AWS發生大規模存儲故障,導致大量全球知名業務中斷。

以上是雲平臺自身原因引起的災難性故障,其實還有外部因素導致的問題:

2017年5月,全球爆發的Wannacry勒索病毒,給網絡帶來了未有的挑戰,雲平臺也不能完全倖免;2018年1月,Intel芯片設計缺陷,給整個IT架構帶來災難性影響,雲平臺性能和安全受到極大的挑戰。

除了公有云暴露出的這些嚴重故障外,幾乎每天都能聽到發生在企業內部的私有云,因為軟件缺陷、人員、電力異常等各種原因導致的業務中斷、數據丟失,企業正常的生產受到極大的影響,損失無法估量。

這些內部、外部因素疊加在一起,實際上帶來了幾乎無法規避的現實:雲也會宕機,也會丟失數據。

數據交給雲服務商就萬事大吉?備份與容災一個也不能少

很多企業對於雲服務存在一定誤解,認為將數據放到雲平臺上就萬無一失了。從雲計算的本質來看,它為企業提供的是一個低成本的計算資源共享池,它能幫助企業提升效率,減少成本,但這不代表它是一個不會出問題的服務。

目前,雲服務商在提供服務時都會明確知會客戶,因為當前人類技術水平的限制,服務商能夠提供的服務的可用性、可靠性都做不到100%,大致能做到幾個9(如99.9999%)。

因此,為了在此基礎上繼續提高數據的安全性,一般的解決方案是,同時使用該服務商不同區域的服務器,這樣出問題的概率就會更低。此外,對於重要數據,不管是個人用戶還是企業用戶,都需要定期做好備份。如果使用雲服務,快照、災備、離線備份等多種方式都可實現數據備份。

做好災備,提高數據安全性

數據備份的任務與意義就在於,當事故發生後,通過備份的數據完整、快速、簡捷、可靠地恢復原有系統,而備份數據可用性的高低是企業災難恢復的根本。

目前來看,主要的數據備份方式如下:

定期磁帶備份:包括遠程磁帶庫、光盤庫備份和遠程關鍵數據+磁帶備份。

數據庫備份:就是在與主數據庫所在生產機相分離的備份機上建立主數據庫的一個拷貝。

網絡數據:這種方式是對生產系統的數據庫數據和所需跟蹤的重要目標文件的更新進行監控與跟蹤,並將更新日誌實時通過網絡傳送到備份系統,備份系統則根據日誌對磁盤進行更新。

遠程鏡像:通過高速光纖通道線路和磁盤控制技術將鏡像磁盤延伸到遠離生產機的地方,鏡像磁盤數據與主磁盤數據完全一致,更新方式為同步或異步。

這些措施能夠在系統發生故障後進行系統恢復,但是這些措施一般只能處理計算機單點故障,對區域性、毀滅性災難比如地震、火災等則束手無策,也不具備災難恢復能力。

所以,我們就需要建立異地容災中心,做數據的遠程備份,在災難發生之後要確保原有的數據不會丟失或者遭到破壞。建立的異地容災中心可以簡單地把它理解成一個遠程的數據備份中心。

數據交給雲服務商就萬事大吉?備份與容災一個也不能少

數據容災的恢復時間比較長,但是相比其他容災級別來講它的費用比較低,而且構建實施也相對簡單。主要的實施方法如下:

實時複製:當主中心的數據庫內容被修改時,備份中心的數據庫內容實時地被修改,此種複製方式對網絡可靠性要求高。

定時複製:當主中心的數據庫內容被修改時,備份中心的數據庫內容會按照時間間隔,週期性地按照主中心的更新情況進行刷新,時間間隔可長(幾天或幾個月)可短(幾分鐘或幾秒鐘)。

存儲轉發複製:當主中心的數據庫內容被修改時,主中心的數據庫服務器會先將修改操作Log存儲於本地,待時機成熟再轉發給備份中心。

綜上所述,業界一般提到的災備技術,就是指在一個數據中心發生故障或災難的情況下,其他數據中心可以正常運行並對關鍵業務或全部業務實現接管,達到互為備份的效果。好的災備技術可以實現用戶的“故障無感知”。

在國外,DRaaS(災難恢復即服務)已經十分盛行。Forrester的數據顯示,2014年,國外23%的中小企業已經在使用DRaaS,提供DRaaS服務的玩家也比較多。IDC預測,到2020年,中國的DRaaS市場將達到百億元的規模。

中國DRaaS市場的爆發點很難預測,因為它與公有云的成熟度密切相關。只有公有云的生態體系逐漸成熟和完善,DRaaS的價值才能真正體現出來。

除了災備系統,災備演練不可少

那麼是否做好災備系統的建設就可以大功告成了呢?大多數企業其實忽略了災備演練這個重要環節。

現在很多災備公司都不太重視災備的演練,很多一年也沒有做到一次,不能完全發現災備中心的缺陷。

容災系統的業務連續性是企業的關鍵業務在災難發生時的應對能力和恢復能力,即通過儘可能快速的、全面的企業業務恢復運作,將因災難造成的損失降低到最小程度。

災備演練是驗證災難發生時,業務系統能否有效聯動切換的極為重要的手段。沒有災備的演練計劃和手段,往往無法預知災難發生時生產中心和災備中心的數據一致性,也無法預知災備中心是否具有了業務接管的一切必要條件。災備的演練計劃有以下幾種方式:

計劃性測試/演練

災難恢復計劃要求建立業務連續性管理團隊,不僅涉及IT部門,而且關聯眾多業務部門,為減少演練對於生產的影響,可以將恢復計劃細化到很小的單位或者模塊,逐個應用進行接管驗證。當模塊都成功通過測試後,測試的範圍可以擴充到更多的模塊。

突發演練

在災備系統全面完成並且制定了全面的恢復計劃後,可以在進行了一定備份的情況下安排突發性的測試。當然,業務連續性管理小組需要確保業務不會因為突發性測試造成不可接受的損失和業務中斷。

演練對於提高團隊的恢復經驗和協作能力以及確保災難恢復計劃的可行性是至關重要的。所有的演練結果都要進行評估、記錄、並且生成到容災流程裡。

數據安全無小事,無論是在傳統IT還是雲計算時代,對於業務系統的安全性和穩定性是永遠不變的前提,而未來雲計算也一定是朝著“多雲備份,雲上容災”多重的基礎保障策略發展的。


分享到:


相關文章: