Hadoop 氣數已盡

隨著大數據客戶紛紛遠離複雜技術、擁抱雲計算,Hadoop供應商們搖搖欲墜。

大數據仍然是很重要,但昔日大數據時代的幾個典範:Cloudera、Hortonworks和MapR最近相繼失利,讓大數據行業多少備受冷落。這幾大巨頭曾經是數據界的寵兒,能夠籌集大筆資金(英特爾在單單一輪融資就向Cloudera投資了7.66億美元!),它們迫於無奈只好縮減,要麼合併(Cloudera和Hortonworks),要麼裁員(MapR)。

在此期間,Elastic和MongoDB等其他開源大數據供應商卻一路扶搖直上。怎麼會這樣?當然有諸多原因,其中一個原因是這個事實:昔日的Hadoop供應商將大筆賭注押錯了對象,押在了與數據中心息息相關的工程師上,而市場已轉向向雲端尋求自由的開發人員。

大是相對的

MapR是當初靠Hadoop大發其財的供應商當中最近的遭殃者。MapR的估值一度超過10億美元,它最近透露必須解僱122名員工(約佔員工總人數的25%),包括首席執行官John Schroeder、其他高管和許多工程師,同時還要關閉總部大本營,除非能找到一個投資者。

這個投資者要在6月14日前簽約,否則MapR的前途一片黯淡。

不過,近幾年的情況也好不到哪裡。據LinkedIn的數據顯示,在近兩年裡,MapR估值縮水29%。無獨有偶。Cloudera與Hortonworks合併(可能是由於這兩家公司無法獨自存活)後,剛公佈了災難般的收益,預計收入將比分析師預計的少6900萬美元至8900萬美元。與此同時,首席執行官Tom Reilly和首席安全官兼聯合創始人Mike Olson雙雙宣佈辭職。

Cloudera的股價一下子暴跌40%。

這樣的結果更容易歸咎於炒作過度的大數據領域迴歸現實,但其他供應商卻蓬勃發展,儘管Hadoop的幾隻領頭羊步履蹣跚。比如說,MongoDB數據庫越來越受歡迎,現在人氣與Oracle和MySQL一樣旺(按各種排行榜來衡量),形成三足鼎立之勢,僅僅5年前其市場份額還只有十分之一。反過來,這麼旺的人氣不斷促使這家同名公司收入迅猛增長,最近收入更是猛增了78%。

與之相似,Elasticsearch分佈式搜索和分析引擎背後的Elastic公司在去年的員工人數增加了一倍,最近一個季度的收入激增了70%。許多公司一直將Elastic用於傳統的文本搜索及其他任務,比如倫敦斯坦斯特德機場使用Elastic的工具來跟蹤和顯示通過機場的人員和行李流量,以提供實時分析。

劇本不應該是這樣的。按理說,MongoDB和Elasticsearch等技術及其背後的公司從來無法挑戰Hadoop及其後續技術,但它們挑戰成功了。原因何在?

預計雲形勢大好

嗯,雲是一個原因,但它是多方面原因的一部分。正如Anaconda的高級副總裁Mathew Lodge所寫,雖然Cloudera、Hortonworks和MapR拼命地從內部部署產品發展而來,來自AWS、微軟Azure和谷歌的雲原生方案都共同提供了“完全集成的產品,它們的購置成本更低,擴展起來費用更省。”許多企業注意到了這一點。同樣,Hadoop供應商們在儘快構建雲服務,但它們根本趕不上雲計算競爭對手的速度。

雖然就當時而言Hadoop是革命性的技術,但與雲替代產品相比,想繼續擁有云的優點,其成本高得離譜。正如Clint Sharp特別指出,“Hadoop最主要的用途一直是廉價存儲。[鑑於雲]存儲變得更便宜,加上S3+ EMR及其他服務的用戶體驗要好1000倍。”比如說,雖然Hadoop可能是傳統專有數據倉庫的出色替代品,但遠不如像基於雲的Snowflake這些更現代化的方法那麼好。

與此同時,雲預示著處理數據有了不同的新方式。雲服務本身不是對等替換,不過與MongoDB或Elasticsearch一樣,它們處理與Hadoop同樣的幾種問題,但處理起來簡單得多。正如MongoDB的Joe Drumgoole所說,“編寫高效的分佈式map-reduce算法很難,確實很難。”更糟糕的是,Hadoop供應商競相往各自的Hadoop產品添加一大批開源附加組件(Impala!Pig!Hive!Flume!),開發出更為笨拙的“解決方案堆棧”,直到最後“沒有人知道這些Hadoop公司到底做什麼,”據一位觀察人士所說。

對於負責“完成任務”的開發人員而言,他們日益選擇更簡單的替代方案。

方便壓倒一切

對於Hadoop及後續技術的用戶而言,開箱即用的體驗很差勁。MongoDB與之形成了鮮明對比。MongoDB前高管Kelly Stirman認為MongoDB用戶體驗是個關鍵的差異化優勢。怎麼會這樣?Tom Barber解釋道:

[若使用]MongoDB,你可以藉助apt install指令輕鬆地安裝在一臺服務器上,不必搗鼓糟糕的虛擬機來入手。在生產環境中,你可以在一臺服務器上運行它。可以將它連接到一堆東西上,沒必要編寫一堆代碼。人們想要數據庫...... MongoDB很容易獲取數據,也很容易倒出數據。”

TimeScale DB首席執行官Ajay Kulkarni同意這個說法,他補充道:

備受開發人員的喜愛[是MongoDB擊敗Hadoop的原因]。Mongo專注於首次使用體驗。眾所周知,Hadoop運行起來很難。[Hadoop供應商]向企業銷售宣傳的工作做得很到位,但得不到開發人員的追捧,增長停滯不前,市場隨之蒸發。

雖說開發人員的喜愛完全解釋MongoDB和Elastic較之Cloudera和MapR取得成功這種說法未免誇大其辭,但這確實是一個重要的因素。

Jake Kaldenbaugh推理道,開發人員開始將MongoDB“嵌入到”他們的現代應用程序中。久而久之,將MongoDB推入到不太重要的應用程序的開發人員將MongoDB推入到關鍵業務應用程序中,MongoDB添加了支持更復雜的使用場合的功能(比如多文檔事務),又不會使它們的複雜性變得大大提高。

那麼,這讓昔日的大數據巨頭們何去何從?Lodge給出了悼詞:

在Cloudera和Hortonworks [以及MapR]作為大數據領域的主角享受了10年的風光後,行業重心已轉移到別處。領先的雲公司並不運行來自Cloudera和Hortonworks的大型Hadoop/Spark集群,它們而是在容器基礎設施上運行分佈式雲規模數據庫和應用程序。它們使用Python、R和其他非Java語言搞機器學習。公司企業日益轉向類似的方法,因為它們希望在速度和規模方面獲得同樣的好處。現在是Hadoop和Spark領域該與時俱進的時候了。

這是開源數據基礎設施創新的祝福之一,也是詛咒之一。這一幕正以極快的速度上演,一些供應商會在此過程中轟然倒下。

Hadoop 氣數已盡


分享到:


相關文章: