華為OceanStor分佈式存儲,引領智能時代大數據創新

雲+AI的智能時代已經到來,計算存儲融合的大數據架構由於存在計算存儲不能靈活擴展、不同大數據集群間資源利用率不均且數據無法共享、三副本存儲利用率低且無法和AI應用高效聯動等問題,已經無法滿足雲+AI時代的數據分析需求,計算跟存儲分離已成為大勢所趨。

华为OceanStor分布式存储,引领智能时代大数据创新

OceanStor分佈式存儲存算分離方案

在這種背景下,華為OceanStor分佈式存儲及大數據存算分離方案應運而生。華為大數據存算分離方案中,以OceanStor分佈式存儲替換Hadoop中的HDFS存儲,計算節點和存儲節點分別組成獨立的資源池,這樣就能夠實現計算資源和存儲資源的靈活擴展,計算不足擴計算,存儲不足擴存儲,把計算和存儲資源的能力都充分發揮出來,有效避免資源的浪費。存儲資源使用統一的資源池,還能夠打破之前的煙囪化架構,實現多種大數據應用間的數據高效共享,提升多種應用間的協同分析效率。

除了計算存儲分離架構帶來的方案性優勢,OceanStor分佈式存儲還有哪些獨特優勢來適配雲+AI時代的大數據存儲需求呢,下面我們就來具體看一下:

分佈式NameNode,消除系統性能瓶頸

华为OceanStor分布式存储,引领智能时代大数据创新

OceanStor分佈式存儲架構

傳統HDFS存儲只有主備兩個NameNode,所有的數據訪問均需要先訪問主

NameNode,獲取數據的元數據信息後,才能訪問對應的DataNode進行數據讀寫,這就導致主NameNode會成為性能和可靠性的瓶頸;另一方面,單個NameNode受限於服務器內存,最大僅能支持1.5億左右的文件,這就限制了單個HDFS集群的規模。

OceanStor分佈式存儲基於全對稱分佈式架構,每個存儲節點都能同時作為NameNode和DataNode使用,能夠線性擴展到最大4096個節點,NameNode不再是性能和文件數的瓶頸;基於EC算法,OceanStor分佈式存儲存儲單個故障域最大可容忍4個節點故障而不影響業務運行,很大程度上提升了系統的可靠性。正是基於這種分佈式NameNode架構,OceanStor分佈式存儲才能以高擴展的統一存儲資源池支撐多種大數據應用。

多租戶能力,助力統一存儲資源池構建

多種大數據應用共享統一存儲資源池的情況下,如何實現多種應用訪問的邏輯隔離和性能保障是一個關鍵的問題。OceanStor分佈式存儲支持創建多個namespace來對接多種大數據應用,每個namespace可使用獨立的鑑權,從而支持不同應用間的鑑權隔離。OceanStor分佈式存儲中,多個namespace之間的數據是邏輯隔離的,不同的namespace還可以設定配額和Qos(Quality of Service)策略,從而保障多種應用可使用的空間和性能都是可靈活調配,且不會互相影響的,真正將存儲資源池能力發揮出來。

彈性EC,存儲利用率大幅提升

僅僅是存儲和計算分離,能夠帶來靈活擴展和數據共享的優勢,但要說到降低TCO,還要憑藉OceanStor分佈式存儲的彈性EC能力。

华为OceanStor分布式存储,引领智能时代大数据创新

OceanStor分佈式存儲彈性EC

傳統HDFS存儲多使用三副本方式進行數據保護,存儲利用率僅33%;OceanStor分佈式存儲採用了EC算法進行數據保護,和三副本可靠性相當的+2冗餘下,最大可支持22+2的EC,存儲利用率可達91%,相比三副本方式提升了1.75倍。

相比HDFS 3.0推出的HDFS EC, OceanStor分佈式存儲EC能夠完全兼容所有HDFS語義,沒有不支持append, truncate, hflush, fsync等諸多接口的限制;OceanStor分佈式存儲EC的性能和HDFS三副本基本持平,可應用於熱、溫、冷存儲多種場景,無場景限制;OceanStor分佈式存儲高達91%的存儲利用率、節點故障場景的不降級寫、2TB/小時以上的高速數據恢復,在使用效率和系統可靠性方面也領先很多。

原生HDFS接口,無需插件,100%兼容主流大數據平臺

既然計算和存儲分離架構有諸多的好處,為什麼市面上有競爭力的存算分離產品並不多呢?最主要的原因就是很難做到HDFS效率和HDFS兼容性兼得。

原生HDFS存儲兼容性很好,但三副本的存儲效率很低,使用HDFS EC又會導致性能和兼容性存在問題;基於S3A接口的對象存儲多支持EC算法,存儲效率還可以,但S3A接口不支持append、flush、hflush等接口,還需要在計算側安裝S3A的插件,兼容性和可維護性都較差,經過協議轉換後性能也不理想。

OceanStor分佈式存儲對外可提供原生HDFS接口,100%兼容FusionInsight、Cloudra、HortonWorks等主流大數據平臺,無需在計算側安裝任何插件,無需上層應用修改任何代碼即可使用。更近一步的,OceanStor分佈式存儲可以在現網Hadoop計算融合一體方案的基礎上直接擴容,讓用戶無需數據遷移、無需中斷業務即可享受計算存儲分離方案帶來的諸多收益。

多協議互通,提升融合場景大數據分析效率

雲+AI的智能時代,大數據分析和AI訓練、推理融合的需求越來越多,傳統的大數據存儲僅能提供HDFS接口用於大數據分析,分析的結果如果要進行AI訓練,就需要把數據拷貝到其他存儲中處理,導致數據分析的整體效率低下,同時也浪費了存儲空間。

OceanStor分佈式存儲既能提供HDFS接口用於大數據分析,又能提供文件接口用於AI訓練和推理,大數據分析結果可直接通過文件接口訪問,無需拷貝和等待,很大程度上提升了融合場景的大數據分析效率。

小結:

雲+AI的智能時代已經到來,傳統的大數據架構已經很難滿足雲+AI時代的數據分析需求,計算跟存儲分離已成為大勢所趨,OceanStor分佈式存儲以彈性EC、原生HDFS接口、多租戶、協議互通等專業存儲能力,助力客戶更好的解決數據爆炸性增長帶來的成本、可靠性、分析效率、運維等問題。


分享到:


相關文章: