杉巖CTO邱尚高:對象存儲不止步於存儲

11月18日,由百易傳媒(DOIT)主辦的2020中國數據與存儲峰會在北京盛大開幕。眾專家與行業代表同臺探討新數據時代存儲技術發展趨勢,分享數字化轉型成果,共話智慧未來。杉巖數據CTO邱尚高攜“AI+數據湖時代,對象存儲新未來”的主題演講出席峰會。

杉巖CTO邱尚高:對象存儲不止步於存儲

杉巖數據參展2020中國數據與存儲峰會


邱尚高在演講中提到,以5G、大數據、人工智能為代表的新興技術深入行業應用,智能在“端、邊、雲”延伸,數據的種類和數量越來越多,企業對數據價值的訴求也更趨強烈,傳統基礎設施面臨著前所未有的挑戰。基於數據湖構建集數據匯聚、加工、分析、利用於一體的基礎架構成為企業市場的重要趨勢。

縱觀國內,不論是公有云廠商還是私有云廠商,紛紛基於對象存儲推出差異化的數據湖解決方案。對象存儲憑何優勢,能夠成為數據湖存儲底座的不二之選?在AI+數據湖時代,對象存儲又迎來哪些新的場景?針對上述問題,邱尚高作了系統地闡述與分享。

杉巖CTO邱尚高:對象存儲不止步於存儲

杉巖數據CTO邱尚高出席峰會並作主題演講


一、為什麼是對象存儲?

從2006年亞馬遜推出公有云存儲服務(Amazon S3),到2012年阿里雲存儲服務(OSS)的面世,再到2016年杉巖數據率先推出企業私有云對象存儲產品(MOS),對象存儲因互聯網而生,面對海量數據場景具備天然優勢,逐漸成為大數據時代存儲界的後起之秀。

隨著數據湖架構在企業市場中的需求越來越廣泛,存儲作為整個數據湖架構的核心要素,承載著企業近乎全部的數據資產。對象存儲究竟有何優勢,能夠贏得業界青睞,成為數據湖存儲底座的最佳之選?

1.存儲全類型數據

對象存儲採用彈性的分佈式架構,靈活對接各類應用,可匯聚不同類型、不同大小的數據資源(包括結構化、半結構化、非結構化數據,大文件、小文件)。

2.支撐海量規模

傳統文件存儲採用樹形結構,文件增多,目錄層級多,訪問性能驟降。對象存儲採用“桶-對象”的扁平化結構,通過HASH計算檢索文件,海量場景仍然保證高性能,輕鬆支撐EB級容量空間、千億級文件規模。

3.多源數據統一接口

對象存儲基於標準的S3或OSS接口,實現私有云與公有云數據自由流動,以及異構存儲資源納管。

4.雲原生支持

文件存儲限於局域網訪問且需要OS掛載,對雲場景支撐乏力。對象存儲天然支持跨互聯網訪問,無需OS掛載更輕量,更適應雲原生應用。

5.混合雲架構

為了滿足業務合規與敏捷性需求,越來越多的企業選擇將互聯網應用部署在公有云,以滿足彈性、敏捷的需求;將重要數據存放到私有云,以滿足安全、合規的需求。對象存儲通過S3或OSS接口可無縫對接公有云,快速構建混合雲基礎架構,在雲端與本地之間實現應用平滑遷移和數據自由流動。

通過以上維度對比,對象存儲的優勢顯而易見。

二、對象存儲將成為數據湖的數字底座

從國內外市場需求來看,國外的企業或組織更傾向於採用公有云基礎設施,而國內企業則是更傾向於私有云,也因此形成了公有云數據湖和私有云數據湖兩種方案,這裡選取3家代表廠商進行簡單介紹。

作為全球公有云市場的領導者,亞馬遜以對象存儲(S3)作為數字底座,儲存來自不同數據源的結構化、半結構化和非結構化數據,通過安全策略和訪問控制保障數據安全,同時支撐數據檢索查詢、用戶界面訪問以及數據分析處理等能力。

阿里雲同樣是以對象存儲(OSS)作為數字底座,將阿里雲上的日誌服務、App/Web、數據集成等產生的超過10000種數據文件類型保存在OSS上,實現海量的數據匯聚,消除數據孤島;同時為MaxCompute、EMR、機器學習等平臺提供支撐,無縫對接超過100種計算引擎,賦能業務創新。

杉巖CTO邱尚高:對象存儲不止步於存儲

阿里雲基於對象存儲OSS構建數據湖方案

作為國內對象存儲市場的領導者,杉巖數據也推出了面向私有化場景的智能數據湖解決

方案。該方案基於MOS海量對象存儲構建海量空間,實現數據庫、非結構化文件、流數據等多源數據匯聚;通過納管異構存儲實現硬件利舊;通過高性能數據湖文件網關MosFS對接Hadoop、TensorFlow等分析處理平臺,深化價值利用;一體化方案賦能業務創新,為智慧金融、智能製造、智慧教育等行業變革提供基礎架構支撐。

杉巖CTO邱尚高:對象存儲不止步於存儲

杉巖數據基於MOS對象存儲的數據湖方案

三、AI+數據湖時代,對象存儲的新場景

對於企業客戶而言,貼合實際場景、解決當前痛點、滿足未來就緒的方案才是好方案。邱尚高結合一些新興的應用場景,向與會人士介紹了MOS對象存儲以及智能數據湖方案如何為客戶創造價值。

1.大數據存算分離

傳統大數據分析平臺(如Hadoop)存在諸多弊端:HDFS多采用三副本,空間利用率低;存儲與計算捆綁擴容,拉高成本;Hadoop升級不夠靈活,無法享受新版本計算特性。杉巖方案可提供存算分離架構,MOS支持糾刪碼和冷熱數據分層,使磁盤利用率提升80%;存儲與計算獨立擴容,有效降低成本;存儲與計算獨立升級,更加靈活。

2.數據智能處理

MOS依託智能數據處理引擎,將數據處理能力下沉到存儲系統內部。基於策略觸發,MOS海量對象存儲可以自動完成圖片轉碼、視頻抽幀、OCR識別等處理任務,簡化業務流程,提升處理效率。以智能製造為例,杉巖MOS已經幫助UTAC(聯測優特半導體)提升智能質檢效率,通過生命週期管理策略設定,在MOS內部完成質檢圖片的存儲、格式轉換、冷熱分層和過期自動刪除,節省80%存儲空間,大幅降低成本並簡化了業務流程。

3.機器學習

在MOS之上通過MosFS高性能數據湖文件網關,為TensorFlow等機器學習平臺提供原生的HDFS接口、S3/OSS對象接口、POSIX文件接口,滿足AI算法的模型訓練和推理、數據歸檔的需求。以自動駕駛場景為例,車輛採集的視頻、雷達數據通過文件或對象接口導入MOS,然後通過HDFS接口對數據預處理,預處理結果再通過文件接口由計算服務器進行AI訓練和高性能仿真,從而得到新的算法和模型進行下一輪測試。整個過程中,一套存儲同時在線、近線、離線使用,數據集中歸檔無須拷貝,空間利用率更高、數據更安全。

4.IPFS(Inter Planetary File System)

IPFS場景對底層存儲的需求可歸納為幾點:龐大的算力集群要求存儲吞吐量在100Gbps以上,以保證封裝數據的寫入效率;每天48次(30分鐘一次)的全量證明需要極高的隨機讀取效率;數據持續可讀(歷史數據不刪除)使得增量巨大(每週PB級),要求存儲提供EB級以上容量;超大容量必然由超大集群支撐,高效運維也是剛需。杉巖MOS除了提供EB級海量空間和300Gbps以上的超大吞吐量,還專門針對IPFS數據讀作性能優化,將數百次隨機讀請求合併為一個請求,極大提升效率;基於糾刪碼(22+2)技術,空間利用率超過91%,硬件成本縮減60%以上;通過多故障域隔離和智能DNS分配技術,輕鬆管控超大規模存儲集群,在提升數據可靠性的同時降低運維複雜度。

5.雲原生OLAP

對海量非結構化數據的分析需求催生了雲端數據湖的應用,杉巖針對雲原生OLAP場景同樣提供瞭解決之道,通過MOS無縫對接雲原生的數據湖,幫助企業快速構建高性能的OLAP服務。對“HDFS+傳統數據倉庫”而言,海量場景下的性能、併發性和易用性成為難以避免的災難。杉巖的“MOS+雲原生數據倉庫”方案,依託彈性架構提供更強的擴展性、高可用性和併發訪問能力,在EB級海量數據面前保證優異性能,利用糾刪策略、數據分層等特性儘可能降低成本,採用存算分離架構極大提升靈活性,幫助客戶對海量數據極速分析,輕鬆把握商業趨勢,及時應對各種變化。

不難看出,杉巖數據植根場景需求,已經圍繞MOS海量對象存儲構建起了相對完善的數據湖解決方案,為企業應對數據挑戰、推進業務創新提供了新的、極具競爭力的選項。


分享到:


相關文章: