騰訊雲事故,創業公司因此1天損失1100萬!存儲的未來在哪裡?

7月20日,騰訊雲北京三區部分雲硬盤IO異常,這次事故直接導致了一家互聯網創業公司「前沿數控技術」線上生產數據完全丟失。目前尚不得知此次「用戶數據完全丟失」是否屬個例。隨後,騰訊雲回應本次「數據丟失事件」,是因物理硬盤固件版本 Bug 而導致的靜默錯誤。

騰訊雲聲稱99.9999999%的數據可靠性,搭載了雲硬盤提供三副本存儲策略,也就是說只要把數據放在騰訊雲上,只有十億分之一出現數據丟失的可能性。但是在本次事故中,騰訊雲所謂的三個備份數據也全部離奇丟失。

騰訊雲事故,創業公司因此1天損失1100萬!存儲的未來在哪裡?

近些年,雲計算已經逐步成為一種基礎設施服務,彈性計算、部署簡單、安全性相對較高,且成本相對低廉,雲存儲服務已經被越來越多的中小公司所使用。但是,我們不得不面對一個血淋漓的現實,那就是:我們信任所謂的公有云,其實只是信任一個品牌;我們所謂的信任品牌,其實只是信任廣告;我們所謂的信任廣告,其實只是一個虛假的心理安慰。當事故發生時,特別是一個創業公司的核心資產被摧毀的時候,對巨頭而言,他們也只是會送一份「大禮包」,這就是事實:

騰訊雲事故,創業公司因此1天損失1100萬!存儲的未來在哪裡?

相信很多技術人員都知道,在數據可靠性方面,騰訊的公關犯了一個基本的錯誤:三副本存儲策略是不可能保證9個9的可用性的,三副本這些也只是一些基本的技術,從硬盤損壞導致全部數據丟失這一事實看,有沒有三副本都不好說。而真正能夠保證數據的可恢復性技術,是糾刪碼技術和數據的可恢復性證明技術。目前已知的,只有AWS的S3雲存儲是提供了糾刪碼服務,而全球沒有任何中心化雲存儲提供數據的可恢復性證明。

還有一點,雲存儲服務商和創業公司的權利和責任其實是不對等的,這種不對等有點類似醫生和病人,對病人來說,他們把自己的生命交給了一個醫生或者醫療機構,而對於創業公司來說,也是把核心數據(企業生命)交給存儲服務商,如果因為這次數據丟失,這家公司不幸倒閉了呢?一方付出了「生命」的代價,而醫療機構或者存儲服務商只是賠償有限的費用,這對他們的影響可能微乎其微。從這個角度而言,中國企業和用戶(創業公司)之間的權利和責任完全是不對等的。當然,如果漫天要價,這件事也是說不通的,因為任何服務都是有成本的,需要進行權衡。

1941年,美國安全工程師海因裡希統計55萬件安全事故後發現:

在安全事故中,死亡、重傷、輕傷和無傷害事故的比例為1:29:300。

後來,這一法則被命名為海因裡希事故法則。這一法則被運用到企業的安全管理上,即一件重大事故背後,必有29件輕度事故,還有300件潛在隱患。

但是針對本次件事,我們不禁要思考,公有云存儲到底安全不安全?為什麼數據丟失了不能恢復?企業應該應用什麼技術,從基本上保證數據的安全、穩定、可恢復?

這次事件也從側面表明,中心化的雲存儲在安全性、可靠性以及服務水平層面還存在很多問題亟待解決。企業數據放在雲存儲中,他們最關心的是數據是否完整無誤,如果出現故障,是否可以實現數據的恢復,而且能夠證明這些數據與原來數據完全一致。這就是去中心存儲中,經常提到的「數據完整性驗證機制」。

去中心化存儲的核心:數據的完整性證明

其實,數據完整性驗證機制根據是否對數據文件採用了容錯預處理分為數據持有性證明PDP機制(ProvableDataPosesion,PDP)和數據可恢復證明POR機制(ProfsofRetrievability,POR)。如下圖所示:

騰訊雲事故,創業公司因此1天損失1100萬!存儲的未來在哪裡?

PDP 機制能快速判斷遠程節點上數據是否損壞,更多的注重效率,POR機制不僅能識別數據是否已損壞且能恢復已損壞的數據。兩種機制有著不同的應用需求,PDP機制主要用於檢測大數據文件的完整性,而POR機制則用於重要數據的完整性確保,如壓縮文件的壓縮表等對於這類應用,儘管只損壞很小一部分數據,但卻造成了整個數據文件失效。

針對本次騰訊雲數據丟失事故,我們在存儲層面就需要思考一種新的策略,而且這種策略也非常簡單:無論是企業還是用戶,在保障數據「可信」的層面,應該交給數學和密碼學來進行技術層面的保證,而不是交給所謂的「巨頭」來保障。當然,我們相信「巨頭」是能夠實現三副本存儲、數據的完整性證明等一系列技術解決方案的,但是我們無法要求每個「巨頭」都能夠這樣做。就像很多知名的開發商蓋房子一樣,當他們的品牌知名度起來以後,他們就會把客戶的利益放在幾乎看不到的位置上,我們必須從根本上解決這個問題。

數據的安全與隱私保護,成為全球的焦點

不可否認,本次數據丟失事件只是一個很小的投影。在今年3月份,Facebook數據洩露事件成為整個互聯網行業的焦點,500億美金市值瞬間蒸發。5月25日,人類史上最嚴隱私法,歐盟通用數據保護法案(General Data Protection Regulation,簡稱GDPR)開始全面執行,用戶隱私權,再次成為全球關注的焦點。

這些事件的背後,都說明一個根本性的問題:企業和用戶,他們對數據的權利完全的不對等。用戶的數據安全、隱私等權利,基本上沒有任何的保障

。在區塊鏈時代,去中心的存儲就成為一種更好的選擇,也是一種必然的選擇。

而去中心化存儲的核心問題,也是剛剛所提到的數據的完整性證明,沒有完整性證明的去中心化存儲沒有任何落地的可能性。在提供完整性證明的存儲項目中,早期的存儲類項目如Sia、Storj,依賴於Client進行數據完整性的驗證,模型上要求Client端存有完整的數據以生成挑戰數據,因此只能作為類似於BOX的電子化網盤,無法像AWS的S3一樣作為數據的存儲,價值相對較小。

雖然IPFS和FileCoin項目致力於提供一種分佈式的文件存儲,並進行了一些有意義的嘗試和探索,但FileCoin項目提出當時技術的侷限性,FileCoin將交易數據的有效性、一致性和數據的完整性進行了緊耦合設計,其共識算法Post依賴於存儲節點進行存儲時間和存儲空間的自證明,不僅降低了項目的安全性,而且大大提高了項目的開發難度,導致整個項目進度嚴重拖延。

在今年6月份,在去中心化存儲領域,國內殺出一個「黑馬」項目Lambda,它被稱之為「新一代的IPFS」,短短數月就完成了數千萬美金的融資,引爆了區塊鏈投資圈和媒體圈。據悉,包括真格基金、大都會資本、Dfund、泛城資本、策源數字基金、BlockVC、Bluehill、DATA基金會、星耀資本

在內的十多家頂級機構都參與了本輪投資。

Lambda:國內最先提出PDP和POR的區塊鏈數據存儲基礎設施服務商

目前,Lambda是國內唯一一家提供數據的持有性證明 (PDP,Provable Data Possession)和可恢復性證明 (POR,Proofs of Retrievability)的區塊鏈數據存儲基礎設施服務商。基於數據的存儲安全與恢復性問題,Lambda項目試圖提供一種新的解決方案,基於將不同類型的數據在不同的鏈和塊上分開存儲的設計,並通過經濟系統對不同類型資源按照隱私等級和冷熱程度分別處理。

Lambda致力於為去中心化應用提供一個基礎設施,在此基礎設施平臺之上,提供可無限擴展的存儲和快速網絡傳輸在內的一系列基礎能力服務,使分佈式應用可以輕鬆完成數據的生成、傳輸、存儲、檢索和計算,企業的數據安全,就從根本上得到了解決。

值得一提還有,Lambda 數據完整性驗證算法的計算複雜性 (Computation Complexity)、存儲複雜性 (Block Access Complexity)和通訊複雜性 (Communication Complexity)都是常量,和數據的大小無關,任意大數據的驗證都可以在極短時間內完成,這就保證了Lambda存儲未來整體的可用性。

Lambda 通過對於數據訪問行為的請求轉發和結果過濾,還保證了數據的隱私,所以Lambda能夠受到如此多頂級投資機構的青睞。

如果繼續對比創業公司與存儲服務商的關係,我們可以借鑑一些國外的模式。在國外,很多獨立自主的人(創業公司),他們會首先判斷自己處在什麼位置(企業的發展階段),自己選擇合適的醫生(存儲服務商)。這已經不是信任或者不信任的問題了,而是我們(創業公司)要為信任選擇什麼樣的代價?

Lambda認為:「針對本次事件,我們也必須認識到,騰訊雲也只是一個商業機構,不可能向所有人來保證數據的可恢復性。所以,我們應該思考怎麼樣從基本上解決這個問題。如果一家創業公司,覺得自己的數據非常重要,那麼就選擇一種特殊的服務來保障自家的數據安全,當然這種服務可能會很貴。Lambda未來的發展也會是這樣,我們會根據客戶對數據保護或者恢復的級別來提供不同的付費方式,比如提供不同等級的數據可用性證明。」

去中心化存儲:未來的發展與必然

無獨有偶,在今年6月22日的「V神做客王峰十問」中,V神提到了幾個關鍵的名詞包括Validator、Random、Sampling等等。V神希望通過這種方法,做到對於數據持有性和可恢復性的證明。只不過賬本的要求是可恢復,文件不一定要求可恢復。可以看出,V神僅在POR層面進行了論述,而Lambda則是在POR和PDP兩個維度都進行了深度的思考,不僅僅更全面,甚至在時間上比V神想的還要更早一些。

美國前總統羅納德 · 里根說過一句名言,「要我相信你,請先證明給我看(Trust but Verify)」。從這個角度思考雲存儲的未來,用戶能夠驗證雲服務商提供了絕對正確且完整的數據,即使發生事故,企業也要能夠保證數據能夠完全恢復一致。所以,去中心化的存儲,是未來的必然選擇,讓我們拭目以待吧!


分享到:


相關文章: