大數據預測:2020年將帶來什麼

每到歲末年初,行業專家就會對未來一年的技術發展進行預測,而如今,一切始於大數據問題最關鍵的方面:數據本身。

不可否認,Hadoop在2019年的發展經歷了艱難的一年。但是它完全消亡了嗎? Alluxio公司創始人兼首席技術官Haoyuan Li為此表示,以Hadoop分佈式文件系統(HDFS)形式存在的Hadoop存儲已失效,但以Apache Spark形式存在的Hadoop計算仍然存在。

Haoyuan Li說:“關於Hadoop消亡的說法很多。但是Hadoop生態系統還有後起之秀。諸如Spark和Presto之類的計算框架可從數據中獲取更多價值,並已被更廣泛的計算生態系統所採用。Hadoop存儲(HDFS)由於其複雜性和成本以及由於與HDFS保持聯繫,而從根本上無法彈性擴展因此導致消亡。為了獲得實時見解,用戶需要雲中可用的即時和靈活的計算能力。HDFS中的數據將遷移到最優化和最具成本效益的系統,無論是雲存儲還是本地對象存儲。HDFS將會消亡,但是Hadoop計算將持續存在並且越來越強大。”

Cloudian公司首席營銷官(CMO)Jon Toor表示,隨著HDFS數據湖部署的緩慢,Cloudian公司已經準備就緒,可以將數據捕獲並將其捕獲到其對象存儲中。

Toor說,“在2020年,我們將看到越來越多的組織利用對象存儲從非結構化數據創建結構化/標記數據,從而允許使用元數據來理解人工智能和機器工作負載生成的數據海嘯。”

ThoughtSpot公司首席執行官Sudheesh Nair表示,像Hadoop這樣的事情的終結將引發另一件事的開始。

Nair說:“在過去的10年中,我們看到了Hadoop的興起、平穩發展和終結的開始。這不是因為大數據已經死亡。恰恰相反,幾乎每個組織都在致力於成為大數據公司。這是在當今商業環境下運作的要求。數據已經變得如此龐大,而且對這種數據的靈活性需求如此之大,然而,很多企業或者正在構建自己的數據池或數據倉庫,或者直接進入雲平臺。隨著2020年這一趨勢的加速,我們將看到Hadoop的應用繼續下降。”

當數據變得足夠大時,就會施加類似引力的力,使其難以移動,同時還可以吸引更多數據。Digital Realty公司首席技術官Chris Sharp說,瞭解數據的引力將幫助企業克服數字化轉型的障礙。

Sharp說:“數據的生成速度是許多企業無法跟上的。這不僅增加了這種複雜性,企業還從難以移動和有效利用的多個位置處理有用卻不實用的數據。這給企業帶來了一個‘數據引力’問題,這將阻止數字化轉型計劃向前推進。在2020年,我們將看到企業通過將應用程序更靠近數據源而不是將資源傳輸到中央位置來解決數據引力問題。通過本地化數據流量、分析和管理,企業將更有效地控制其數據並擴展數字業務。”

在所有條件都相同的情況下,擁有更多數據總比擁有更少數據更好。TD Ameritrade公司的人工智能、數據科學和新興技術總監Beaumont Vance認為,但企業可以利用現有技術來更好地利用已有數據,從而實現突破。

Vance說,“隨著企業創建新的數據池,開發更好的技術來理解研究結果,我們將看到人工智能前所未有的真正價值。目前,企業使用的內部數據不到所有數據的20%,但通過新的人工智能功能,剩下的80%未開發的數據將是可用的,並且更容易理解。先前無法解決的問題將有顯著的改善,有助於推動行業和社會的巨大變革。”

大數據很難管理,那麼能用小數據採用人工智能技術嗎?Zinier公司首席執行官Arka Dhar對此表示肯定。

Dhar說:“展望未來,我們將不再需要大量的大數據集來訓練人工智能算法。在以往,數據科學家一直需要大量數據才能對人工智能模型進行準確的推斷。人工智能的進步使我們能夠以更少的數據獲得類似的結果。”

數據的存儲方式決定了應該如何處理。GridGain公司首席執行官Abe Kleinfeld說,人們可以使用存儲在內存中的數據而不是硬盤上做更多的事情。到2020年,人們將看到組織在基於內存的系統上存儲更多數據。

Kleinfeld說:“到2020年,隨著數字轉型推動企業大規模進行實時數據分析和決策,內存技術的採用將繼續飆升。假設從一架飛機上的傳感器收集實時數據,以監控性能,並且希望為單臺發動機開發預測性維護功能。現在必須將實時數據流中的異常讀數與數據池中存儲的特定引擎的歷史數據進行比較。目前,唯一經濟有效的方法是使用內存中的數據集成中心,它基於一個內存計算平臺,比如集成了Apache Spark、Apache Kafka,而像Hadoop這樣的DataLake存儲……隨著數據集成中心在企業中的不斷擴展,2020年有望成為採用內存計算的關鍵一年。”

Information Builders公司副總裁Eric Raab和Kabir Choudry表示,大數據可以讓企業的業務夢想成真,或者也可能會變成一場噩夢。選擇權在於人們自己。

Raab和Choudry說:“那些投資於管理、分析和正確操作數據的解決方案的企業,將比以往任何時候都更清楚地瞭解自己的業務和成功之路。那些還沒有得到信息的組織和人員,將會留下大量他們無法真正理解或負責任地採取行動的信息,使他們做出錯誤的決定或使數據癱瘓。”

面對現實:管理大數據非常困難。SAS公司數據管理和數據隱私解決方案負責人Todd Wright表示,這一情況在2020年不會改變,這將使人們重新關注數據編排、數據發現、數據準備和模型管理。

Wright說,“根據世界經濟論壇的預測,到2020年,人類產生的數據量將達到驚人的44ZB。大數據的前景絕不僅僅來自於擁有更多的數據以及更多的數據來源,而是通過開發分析模型來更好地洞察這些數據。所有的工作都是為了推進分析、人工智能和建模語言的工作,如果企業沒有一個能夠訪問、集成、清理和管理所有這些數據的數據管理程序,這一切都是不可取的。”

企業正在儘可能快地填充NVMe驅動器,以幫助加速數據的存儲和分析,尤其是涉及物聯網的數據。NGD Systems公司首席執行官兼創始人Nader Salessi表示,僅憑這一點還不足以確保成功。

Salessi說,“NVMe提供了一種緩解措施,並證明可以消除現有平臺的存儲協議瓶頸,該平臺會定期輸出TB和PB規模的數據,儘管NVMe的速度要快得多,但是當需要對PB級數據進行實時分析和處理時,它本身還不夠快。這就是計算存儲的來源,它解決了數據管理和移動的問題。”

數據集成從未如此簡單。隨著持續不斷的數據爆炸以及人工智能和機器學習用例的擴展,這變得更加困難。Denodo公司高級副總裁兼首席市場官Ravi Shankar表示,數據結構是一個顯示前景的架構概念。

Shankar說:“通過實時訪問來自結構化、半結構化和非結構化數據集的新數據,數據結構將使組織在未來一年更加關注機器學習和人工智能。隨著智能技術和物聯網設備的發展,動態數據結構通過邏輯數據倉庫體系結構提供了對大量數據的快速、安全和可靠的訪問。因此,將會推動人工智能技術和商業革命。”

Principal Data公司的Saurav Chakravorty說,通過語義人工智能和企業知識圖(EKG)瞭解不同的數據集是如何連接的,這為解決數據倉庫問題提供了其他方法。

Chakravorty說:“組織的寶貴信息和知識通常散佈在多個文檔和數據孤島中,給企業造成很大的麻煩。企業知識圖(EKG)將允許組織消除零散的知識格局中的語義不一致性。帶有企業知識圖(EKG)的語義人工智能相互補充,可以為企業在數據湖和大數據方面的投資帶來整體價值。”

MemVerge公司首席執行官兼聯合創始人Charles Fan認為,2020年可能是存儲級內存突破的一年。

Fan說:“隨著數據中心應用程序需求的增加以及處理速度的提高,將大力推動以內存為中心的數據中心。計算創新的發展日新月異,越來越多的計算技術從x86到GPU再到ARM。這將繼續在CPU和內存單元之間開闢新的拓撲。儘管當前在計算層和存儲層之間架構往往會更加分散,但我相信很快就會走向以內存為中心的數據中心。”

機器數據智能平臺Circonus公司首席執行官Bob Moul表示,人們正在迅速向邊緣部署的融合存儲和處理架構邁進。

Moul說,“Gartner公司預測,到2020年全球將有大約200億臺物聯網設備,隨著物聯網設備數量急劇增長並變得更加先進,管理它們的資源和工具也必須做到這一點。企業將需要採用可擴展的存儲解決方案來適應數據的爆炸式增長,這些數據有望超越當前技術的包含、處理和提供有價值的見解的能力。”

ASG科技公司產品營銷副總裁Rob Perry表示,暗數據最終將在2020年成為現實。

Perry說:“每個組織都有數據孤島,這些數據被收集起來,但不再(或可能永遠不會)用於商業目的。雖然存儲數據的成本大幅下降,但存儲數據的風險溢價卻大幅上升。這些暗數據可能包含必須公開和保護的個人信息。它可能包括受數據主體訪問請求限制的信息和可能需要刪除的信息,但如果人們不知道它在哪裡,則無法滿足法規的要求。儘管如此,這些數據也可以提供一些洞察力,為推動業務增長開闢新的機遇。將其置於暗數據中會增加風險,可能會掩蓋機會。各組織將把新的重點放在照亮其暗數據上。”

Yugabyte公司創始人兼首席技術官Karthik Ranganathan預測,開源數據庫在2020年將會面臨美好發展的一年。

Ranganathan說:“十年前,開源數據庫在市場上的份額為零,而現在已超過7%。很明顯,其市場正在發生變化,到2020年,對真正開源的承諾將會增加。這與數據庫和數據基礎設施公司放棄其部分或全部核心項目的開源許可證的最新趨勢背道而馳。但是,隨著技術的飛速發展,切換到100%開放源代碼模型將是數據庫提供商的最大利益,因為免費增值模型需要花費更長的時間才能使軟件成熟到與真正的開放源代碼相同的水平。”

但是在2019年,Confluent、Redis和MongoDB等公司從開源業務模型中退出。Rockset公司聯合創始人兼首席技術官Dhruba Borthakur說,市場將對開放服務做出回應,而不是開源軟件。

Borthakur說,“由於公共雲已經完全改變了軟件交付和貨幣化的方式,我預測,到2020年,開放式採購新的破壞性數據技術的時間將結束。現有的開源軟件將繼續運轉,但是建設者或用戶沒有動力選擇開源而不是開放服務來提供新的數據產品。具有諷刺意味的是,易用性推動了開源浪潮,並且易於採用開放服務,這將導致開放源代碼的消亡,尤其是在數據管理等領域。就像過去十年是開放源代碼基礎設施的時代一樣,未來十年屬於雲中的開放服務。”


分享到:


相關文章: