奇簡 Terark:數據壓縮存儲方面,我們幹掉了 Facebook、Google|創業

奇简 Terark:数据压缩存储方面,我们干掉了 Facebook、Google|创业

如今,人類已然進入了大數據時代。

根據 IDC 於 2012 年提供的數據,2011 年全球數據總量僅為 1.8ZB,預計到 2020 年,全球數據總量將漲至 35ZB。不過,IDC 當時的預測似乎還是太過保守了,其目前最新的報告已經將 2020 年全球數據總量預測值提升到了 44ZB(1ZB=1 萬億 GB)。

而數據量如此大幅度的增長將對 IT 行業帶來極大的壓力!

奇簡 Terark 聯合創始人郭寬介紹,在數據量越來越大的同時,用戶對網絡服務的體驗要求也在不斷提高,這就對企業的數據存儲效率、服務響應速度都提出了越來越高的要求。雖然硬盤等存儲介質在降價,但數據增長的速度更快,這將導致 IT 企業的綜合成本繼續上升。

既然找到了行業痛點,那就要嘗試解決問題。郭寬認為,行業急需“為企業節省大量存儲成本(也間接降低運維成本)”的技術,於是,2015 年底,他成立了這家專注於數據壓縮存儲和數據檢索的 奇簡 Terark。

性能秒殺 Facebook、Google 同類產品

據瞭解,奇簡研發了他們的殺手級產品——核心存儲引擎 TerarkDB。從其對外公佈的資料看,TerarkDB 的性能已經超越 Facebook、Google、Berkeley 的同類產品,不但佔用空間更小,而且檢索更快,壓縮率可達到同類產品的 5~10 倍,能為大數據應用提高 10 倍性能,同時成本更是可以降低 50% 以上。

具體來說,800G 的 TPC-H 數據,利用 Terark 技術壓縮後僅為 47.9G。另外,Terark 還為移動端提供超高性能檢索框架,無需解壓即可在壓縮數據中進行搜索,移動端本地檢索效率提高 20 倍以上。 顯然,TerarkDB 的誕生對大數據技術領域具有極其重要的意義。

根據市場預測,2020 年中國大數據的市場容量會超過 8000 億美元,屆時將成為全球第一大數據中心,數據壓縮不單意味著成本的節約,甚至可能成為限制其能否規模化發展、在激烈競爭中為最終用戶提供優質服務的瓶頸。因此,郭寬認為未來中國乃至世界市場對數據壓縮技術有著剛性需求,而 Terark 正好處於迎接風口的極佳位置。

“我們的技術核心優勢是壓縮率和隨機讀性能,目前我們在全球範圍內還沒有發現和我們類似的算法。”郭寬表示,“當然,其他算法也在不斷優化更新,我們需要做的就是儘快讓更多的生態接納我們,從生態上構建壁壘。”據悉,在生態構建方面,Terark 曾為獵豹、新浪等早期客戶提供服務,現為阿里雲核心數據技術供應商,以及京東 OCR 技術供應商。

另外,郭寬還強調 TerarkDB 作為一個存儲引擎,可以嵌入 MongoDB、MySQL、SSDB 等現有的存儲系統中,也可以直接作為獨立的存儲系統進行使用。因此,其並不是傳統存儲系統的競爭對手。

不可小覷的研發實力

在技術儲備上面,Terark 已擁有自主發明的可檢索壓縮 SeComp 技術、索引技術、手機檢索技術等六項國內、國際專利。陸續發佈了應用於雲、數據庫、手機等領域的 Terark 存儲引擎、數據庫、多正則匹配引擎、移動端檢索引擎產品。

值得一提的是,正是因為 Terark 對大數據時代將要面臨的問題有清晰的認知,並找到了解決問題的關鍵辦法,去年 1 月,作為中國本土技術創業公司,Terark 獲得了僅有千分之一通過率的美國硅谷著名孵化器 Y Combinator 的嚴格評估篩選,成功加入 YC 訓練營。

關於未來規劃,郭寬表示他們將繼續關注於商業存儲引擎的研發,不斷為更多產品提供底層引擎和算法的支持,並在短期內不會涉及上層應用。

而既然 Terark 具有高性能的數據搜索技術,那其是否會考慮進軍搜索引擎市場呢?

對此,郭寬表示,Terark 的技術和搜索引擎並無直接關係,但搜索引擎的部分數據,可以存儲在我們的存儲引擎上以獲得更好的性能。“未來如果資本充足,我們不排除切入一些能夠充分發揮我們優勢的領域,但短期內還是專注於存儲引擎和存儲算法。”

據悉,2016 年,Terark 獲得了 500 萬人民幣的天使輪融資,由合力投資與道合資本合投,且去年已基本實現盈利。

相關閱讀:《A Chinese company is making the cloud 200x faster》

注:題圖來自 123RF

奇簡 Terark:數據壓縮存儲方面,我們幹掉了 Facebook、Google | 創業最先出現在動點科技。


分享到:


相關文章: