那些被大數據時代拋棄的人

2000年,微軟如日中天。有人問比爾蓋茨(Bill Gates)對於IT行業的看法。

蓋茨說,挺好的,就是有點noise。

noise,本意是噪音。但是五個字母又分別指代五家公司:Netscape, Oracle, IBM, Sun, EMC。

這一語雙關可謂騷出了天際。今天的第一杯,就為這個故事幹一個吧。

不過,和蓋茨的很多傳奇故事一樣,這個傳聞目前只流傳於中文世界。蓋茨到底有沒有說過那麼囂張又霸氣的話,暫時無處考證。

傳言如此深入人心,有一個重要的原因。這一問一答準確又形象地概括了一箇舊時代:以微軟為絕對統帥,加上NOISE這5家軟件公司,IT企業賣軟件,一手交錢,一手交貨。

科技圈的天,變得比臭男人的心還快。以Google為代表的新貴舉著“免費“的旗號,已經打到了家門口。搜索既然不收費,那Google怎麼賺錢呢?

常言道,天下沒有免費的下午茶。當你用的產品不要錢,那麼很可能作為用戶的你就是產品本身。

Google聚攏用戶,再打包賣給廣告商的商業模式,被傑弗裡·哈默巴赫爾(Jeffrey Hammerbacher) 形象地批評為:我們這一代最聰明的頭腦,都在思考如何讓人們點擊廣告。

“哇,原來你不過只是一家廣告公司!”同業的戲謔,讓Google羞紅了臉,說起了類似”你怎麼這樣憑空汙人清白……竊書不能算偷……竊書!……讀書人的事,能算偷麼?“之類的話。

科技圈充滿了快活的空氣。

為了捍衛自己科技公司的質感,Google連發三篇論文。圍繞一個主題:怎麼處理數據。

隨著上網人數和信息量的爆炸,Internet的海洋越來越寬廣,Google每天收到30億條搜索指令。僅僅1天處理的數據量,就是美國國家圖書館所有紙質出版物的上千倍。可是儘管如此,每當我們按下回車鍵,搜索結果卻能即時地展現出來。這背後有什麼魔法?

Google的三篇論文,篇篇佶屈聱牙,又字字力透紙背,分別介紹了三個技術:Google File System, MapReduce, BigTable。千言萬語匯成一句話:用分佈式的體系,搭建一套數據存儲、分析的系統。

希臘神話裡,普羅米修斯將火種帶給人類。火,極大地提高了人的生產力。希臘人惜墨,沒介紹普羅米修斯的長相。

現實裡,Google的程序員就像普羅米修斯,那三篇介紹怎麼突破數據處理能力的文章,被後人譽為“三駕馬車“,拉著人類進入了——大數據時代。

那些被大數據時代拋棄的人

不用專業詞彙嚇跑你,我們邊喝邊聊,把技術說的簡單點。

傳統技術,是集中式單點架構。打個比方,你有一個助理,小明,什麼事都集中交給他。忙的時候小明天天睡公司,閒的時候上班玩手機。

Google“三駕馬車”提出分佈式架構。還是那個比方,你的事業越做越大,如今小明就算一天工作24個小時也完成不了。於是就分佈式地招3個助理,小A,小B,小C,各司其職。

原理是簡單的,而現實極複雜,尤其考慮到現實互聯網面臨大規模、高併發、實時在線等新的需求。

信息怎麼分發給ABC?以什麼標準?這可不能亂分,回頭自己都忘了“幫我在四季開個房“是交給了小B辦還是小C。如果問錯了人,不僅效率慢,關鍵會搞得人盡皆知。還有啊,進一步延伸,以什麼標準招聘ABC,哪些招名校,哪些招實幹派,是不是必須能喝酒,上班的裙子可以接受多短?物盡其用,不可造次。

所以,每有技術變革,第一件事一定是路線之爭、行業標準之爭。

Doug Cutting是個編程天才,從Google亦步亦趨的追隨者,終於成長為了備受重視的對手。Google做搜索,Cutting跟著開發了Lucene/Nutch搜索。Google的三駕馬車,提出以MapReduce算法應對海量數據,Cutting就寫出了Hadoop。

Hadoop降生那一天,Cutting是雅虎的僱員,背景是Google、微軟、雅虎的搜索引擎大戰,硝煙瀰漫。Google的“三駕馬車“破解了海量數據的難題,保證了Google搜索成為技術上的第一高峰。同樣,Cutting和Hadoop算是為雅虎的搜索業務鞠躬盡瘁,死而後已。

幾年後,馬雲要處理和雅虎的分分合合。有些地方扭捏,有些地方為難。但是對於雅虎搜索,還是相當“饞她的身子的“。簡單的說,淘寶終於做起來了,需要一款優質的搜索引擎服務用戶搜索商品。更深一點地說,這場交易涉及所有互聯網企業的一個深沉幽嘆:哎!這該死的,磨人的,溫柔的小妖精­——數據。

冥冥之中,都是天意。暫且按下不表。

且說,Hadoop一降生,一群科技巨頭就聚到旗下抱團。原因很簡單,Google這廝,在數據處理技術上已經領先得太多,各位諸侯必須群策群力,把開源的Hadoop發展好。來它個十八路諸侯討董卓。

科技圈是有愛恨情仇的。開源的Linux挑戰微軟閉環的Windows/Office。開源的Android圍攻蘋果閉環的iOS/iPhone。Google的三駕馬車對面,以Hadoop為旗號,聚攏起雅虎(Yahoo)、亞馬遜(Amazon)、IBM、Facebook、阿里巴巴、華為……

哪有什麼新的東西,都是歷史的重複。


光看這些眼花繚亂的專業詞彙,就能明白,大數據這玩意,技術門檻不低。但是每個市場參與者,都想積累數據,瞭解數據,挖掘數據,把自己在商業搏殺中的贏面提高哪怕一點點。於是,市場分工發揮了作用,專門有些公司:我來買服務器,我來搭架構,你需要存儲和處理數據?好,我賣個服務給你。

鐺鐺鐺鐺——一個新的行業,雲計算——誕生了。

2006年,互聯網時代才剛剛開始,萬物沒有名字,提到的時候尚需用手指指點點。江湖裡的機會遍地都是,遊戲、視頻、O2O,軟件、媒體、金融、垂直電商……

混沌之中,亞馬遜,是對於大數據/雲計算擁抱最堅決的一位。

收集數據→處理數據→分析數據→向用戶推薦商品,這套模式讓電商巨頭亞馬遜嚐到甜頭。當時亞馬遜網站上已經有第三方店家,亞馬遜的初衷是讓這群第三方商家也享受到數字化福利。這項被命名為AWS(Amazon Web Services)的服務,就是雲計算行業的濫觴。

貝佐斯(Jeff Bezos),少年謝頂,索性剃了光頭。此生要做硬漢,打天下的時候,和幾個手下說過這樣一句話:表面上,我像一隻雞那麼膽小,但是內心卻很強大。

二十年裡,亞馬遜電商越做越大。但是,一直不賺錢,收入飛到了太空,但是利潤始終在地上爬。錢去哪了?被貝佐斯砸向了研發,砸向了未來。

利潤不增長,股價就逡巡不前,華爾街總是不憚以最壞的惡意數落貝佐斯。直到2018年,AWS業務的利潤爆發。亞馬遜的股價終於水漲船高,不但坐穩了雲計算市場當之無愧的老大,貝佐斯也接過了比爾蓋茨世界首富的位子。


2008年7月,北京奧運會,馬上就要開幕。

一則新聞登上中國各大媒體的版面。比爾·蓋茨為了看北京奧運會,在距離水立方不到180米的盤古大觀,租下一個700平米的四合院,花費1個億。

事情傳到了比爾·蓋茨耳朵裡,蓋茨回了兩個字:假的。

能用這種新聞賣房子,也足見這個樓盤的老闆真是野路子。果然,2017年他就把自己的名字徹底混成了閔敢的詞語,非常閔敢的那種。

至今還有很多人相信這個假新聞。

我身邊的朋友都知道,藉助最近美股的走勢,衣公子憑藉冷靜的操作,把自己和貝佐斯、比爾·蓋茨等人的財富差距,縮小了幾十億美元。這給我極大的信心。於是,斗膽計算了一下新聞裡的數據,四合院面積700平米,租金每年1個億,那就是平均14萬/平米。可是這個樓盤當時的售價明明才5萬啊。。。

數據真好。可惜,我們這群傻→B在“小數據”的年代都那麼好騙,又要怎麼在“大數據”時代苟活?

蓋茨花1億租四合院的假新聞滿天飛的同一時間,杭州城西的阿里巴巴遇到了麻煩。

簡單點說,隨著業務的擴張,阿里巴巴對於數據的處理能力已經到達極限。

如果說大數據是新時代,那麼在“舊社會”,人類是怎麼處理數據的呢?可以用一個單詞概括,IOE —— IBM的服務器+Oracle的數據庫+EMC的存儲。

I、O、E在各自的領域都強得無法替代。事實證明,好的東西就只有一個缺點——貴。

“去IOE”很早就成為企業的心聲。出於經濟成本和“支持國產”的考慮,外加正趕上一次技術迭代(Linux的X86服務器挑戰傳統的Unix小型機服務器),中國企業開始了“去IOE”的征程。

簡單來說,這次“去IOE”失敗了。大家很快發現,自己離不開IOE。總體上,無非是邊邊角角砍砍成本,放得開的,也不過是買買聯想的PC,買買華為或者浪潮的服務器。歸根到底,市場並沒有一個可以替換IOE的好方案。

不是說了嗎,好的東西就只有一個缺點——貴。相較之下,數據的準確、時效,可開不得玩笑。尤其是金融企業。想象一下,當你的衣公子卑微地用六位數的密碼打開自己四位數的賬戶,但是ATM機上取了錢,卡里的餘額卻沒有即時地減少……這種畫面你敢想?

所以,擱到今天還是讓我覺得神奇,去IOE這件事,最終竟然是讓阿里巴巴這廝扛了大旗。

淘寶算力的制約怎麼突破的?阿里選的路線是:去IOE,做阿里雲。

步驟大約為:曾經完全依賴Oracle→採用Hadoop集群→建成單個機群節點數最多的Hadoop機群→用自主研發的飛天平臺上的ODPS(Open Data Processing Service,開放數據處理服務)

阿里雲歷經千帆,絕處逢生的故事,大家已經聽過很多遍。

不過,我倒認為沒必要太渲染阿里雲的苦情。的確,飛天和ODPS都是自研,但是亞馬遜和微軟擁抱開源,也很成功,不是嗎?

另一方面,恰恰是因為固守自研,在很長一段時間項目上一批又一批的程序員不堪重負,人才紛紛出走。另外,自研技術對內是有優勢,但是對外呢?會不會構成一種推廣障礙?比如潛在客戶考慮採購阿里雲的服務,但是IT部門一想到還要特意學一套系統,於是嘴上說不要,身體竟然也不要。

不過,得失自在人心,寶劍留在江湖。這也是本文最終要引向的那個價值:相信競爭,讓市場說話。

無論如何,阿里雲的誕生為看似熱鬧實則沉悶的中國科技界帶來很多新的東西。


一般認為,阿里是在2012年底,初步完成了去IOE。

四年前,阿里雲的計劃剛剛破土,那是2008年,大學畢業生如果可以拿到甲骨文(Oracle)的offer,誰會去土氣橫秋的BAT?

可是,歷史不就是這樣嗎——一些不甘現狀的人,奮力吹響號角,奏響的,正是此時此刻自鳴得意的另一群人,最後的輓歌。

阿里當時是Oracle在亞太地區最大的客戶,擁有20個節點,比亞馬遜美國的17個節點,還要多。想來多少也有點唏噓,你最深愛的兩位客戶,竟然先後殺入你所在的行業。Oracle倒下的經典瞬間是去年中國研發中心的關閉和裁員,昔日令人欣羨的高級白領,如今舉著中英文夾雜的橫幅,站在北京城的獵獵風中。

當中很多人,十年之前明明比入職BAT的同學更優秀。像極了那首詩。

少年聽雨歌樓上,紅燭昏羅帳。壯年聽雨客舟中,江闊雲低,斷雁叫西風。

Larry Ellison是當之無愧的硅谷傳奇,32歲創立Oracle,數據庫領域的國王一當就是30年。2012年,接受採訪,聊到雲計算,Larry Ellison嗤之以鼻,舉手投足間都是對貝佐斯的鄙夷, 料定AWS沒前途,自己一口口水就能淹了它。2015年,Oracle終於砸錢猛做雲計算了。

你看啊,國王的手裡還握著劍,但是江山哪裡還是十年前的樣子。

IOE裡的IBM也好不到拿去,PC業務賣給了聯想,揚言專注企業服務,光榮地創下了連續22個季度營收同比下滑的尷尬記錄。22個季度,這個數字不準確?噢,別怪我,我只關注到第22個月,後來誰還跟IBM啊。

停住。衣公子說這些真不是為了落井下石。時代一直都是這樣,舞臺中央的角兒,你方唱罷我登場,人來人往。但是能讓技術走出聚光燈之外,在普通百姓、普通商業主體身上開花結果,才是善莫大焉。

Larry Ellison是NBA球隊金州勇士(Warriors)的死忠,主場比賽幾乎場場出席。甲骨文(Oracle)不僅冠名了勇士隊的球場,而且,幾乎每年都傳出即將全資收購球隊的消息。不過,在長達40多年的時間裡,勇士隊乏善可陳,甚至常常聯盟墊底,是NBA可有可無的背景板。

好在,勇士在硅谷。

硅谷對於數據挖掘的痴迷,造福了勇士。NBA崇尚明星的突破和扣籃,但是數據永遠理性,大數據顯示三分球才是更有效率更合算的贏比賽手段。身體瘦弱,專攻三分球的後衛庫裡(Stephen Curry),遠不是理想的NBA明星,卻在勇士得到重用,圍繞他打造的“死亡5小”組合,常規賽73勝,破了喬丹塵封20年的單季常規賽最佳記錄,隨後,連續5年殺進總決賽,拿下3個總冠軍。

和每個商業王國一樣,勇士王朝最終還是解體了,後三年最重要的冠軍拼圖杜蘭特(Kevin Durant)因為在勇士隊遭遇內訌,被排擠去了布魯克林籃網隊。屈辱和榮耀,歸屬和背叛,兄弟和仇人,所有人都等著他殺回甲骨文球場的那一天!

哦,對了,籃網的老闆,是阿里巴巴二號人物蔡崇信。奇怪,這該死的圈子怎麼那麼小?


2009年,甲型H1N1流感肆虐美國。

就在疫情爆發幾周前。Google的工程師在《自然》雜誌上發了一篇論文。中心思想是,Google用大數據技術分析用戶的搜索指令,提前預判到了這場流感。

這先知般的存在,讓Google風光得一塌糊塗。

如果你還記得,不久前,Google剛剛推出了Android系統。它要領導人類從PC向移動手機遷徙了!那真是Google把微軟按在地上摩擦的時光,幾乎每一場發佈會都是在抽微軟的臉。

Google很早就野心勃勃地在Kirkland開了辦公室,這個距離微軟總部Redmond不到10公里的地方。伴隨Google瘋狂的挖角,辭職信一封封地遞進微軟CEO史蒂夫·鮑爾默(SteveBallmer)的辦公桌。這位一米九幾的大漢終於忍不住了,問道“別TM告訴我,你TM也是去Google?”美國人比較直,就回答,“是啊,你怎麼知道的哈?” Ballmer抄起椅子直接砸了過來。

那是2004年,Ballmer還可以發脾氣扔椅子。09年就別扔椅子了,大家都覺得是微軟玩了這些人的青春,微軟應該羞羞地向員工說聲抱歉。

舍恩伯格(Viktor Mayer Schnberger)在《大數據時代》中指出。什麼是大數據時代?數據分析從“隨機採樣”、“精確求解”和“強調因果”的傳統模式,演變為“全體數據”、“近似求解”和“只看關聯不問因果”的新模式。

超市零售巨頭Target,曾經是“小數據”時代的贏家。經過幾輪實驗,發現把啤酒放在尿不溼旁邊,啤酒銷量會大增。Target百思不得其解,後來這樣解釋:大概是,媽媽叫爸爸去超市買尿不溼,百無聊賴的爸爸看到啤酒,想到也要犒勞一下自己,所以就順手買了。

在大數據時代,以上至少兩點可以提高。第一,既然經過有限幾輪實驗就能發現“啤酒+尿不溼”促銷法,那麼用數字化方式+無數次實驗所有可能的組合搭配,會發現多少種促銷大法呢?顯然,零售的效率要爆炸了。第二,找到“把啤酒放到尿不溼旁邊”的促銷方法就行,何必一定要找一個蹩腳的理由?這就好比已經汗涔涔地倒下,卻傻乎乎地問“我和你前X友們比,誰更棒?”這既找不到真實的答案,也無助於業務能力的提高。

不追求精確度,不追求因果,承認混雜,探索相關——這就是,大數據時代。阿里巴巴前副總裁車品覺打過一個超讚的比喻:先開槍,後瞄準。

當然,大數據也好,雲計算也好,並不是一帆風順的。

2009年大出風頭後,預測流感走勢的Google Flu在2015年徹底關閉。原因第一是隱私擔憂,第二是多次不準,荒謬頻出,尤其是2012年那一次,反覆預警有疫情,但是最後毛都沒有。

雲計算,同樣挫折不斷。2015年5月,網商銀行開業獲批當日,支付寶在全國範圍癱瘓2.5個小時。2019年,中國第一的阿里雲,和世界第一的AWS先後發生大規模宕機和癱瘓。作為雲計算客戶的你,業務完全癱瘓,投訴電話被打爆;但是你的工程師卻摸不到出問題的服務器,你說你慌不慌?

但是再多的問題,也沒有人會懷疑,雲計算的路子是對的。

100年前的北大。27歲胡適被蔡元培聘請為講師教授。北大學子有質疑權威的傳統,準備課堂發難,提幾個胡適答不上來的問題,讓這個年輕人知道知道“this is 北大”。

傅斯年被派去提前聽胡適的課,探探虛實。傅斯年回來後,對準備搗亂的北大同學說,“這個人書讀得不多,但是路子是對的。你們不要鬧。”

路子是對的。大數據只是還需要一些時間。除了技術的迭代,就是數據的積累。

不巧的是,這恰恰成為大數據最令人警惕的視角。當數據成為新時代的石油,誰霸佔數據誰就搶佔未來。這下,硅谷迎來了最嚴厲的拷打。《紐約客》說,這還不到兩年,情況就發生翻轉,硅谷曾經被認為是美國獨創性的先鋒和我們時代的宇航員,如今淪為與標準石油公司和其他鍍金時代的壟斷者進行的比較。

打倒美國壟斷資本家!歐盟重拳出擊,出臺《通用數據保護條例》(General DataProtection Regulation),為互聯網企業攫取數據設置了最嚴格的控制。把公民隱私堅定地放在了公司發展之前。

同樣的問題,公民隱私和商業進步,中國要怎麼選?作為行業領袖,李彥宏的在訪談中這樣說:中國人對隱私不敏感。

百度大概也習慣了自己被噴成篩子的狀態。輿論恨啊,你李彥宏好歹是北大的,怎麼連“不在乎”和“沒得選”都分不清?還是故意分不清?

換位思考一下,李彥宏也不容易,偏偏活在一個國人對於北大精英還抱有不切實際幻想的年代。何必呢,你們自己也不去未名湖畔走走,胡適傅斯年尚在乎?

也不想想當年杭州師範畢業生是怎麼說的?“支付寶隨時可以交給國家。”

這境界。還會有人捨得批評Jack?


直接上數據,你們自己感受雲計算的市場佈局吧。

Canalys的報告,2019年世界範圍內雲計算產業的市場份額,AWS佔32.3%,獨自構成遙遙領先的第一梯隊,排在其後的是微軟Azure(16.9%)、谷歌雲(5.8%)、阿里雲(4.9%)。

客觀地說,中國商業的數字化已經落後歐美不少。根據《2018~2019年中國公有云市場現狀與發展趨勢研究報告》、《2018中國企業上雲報告》等文件,美國企業的上雲率高達80%,而中國僅30%。

往積極地說,中國市場商業數字化的前景十分廣闊。知識青年上山下鄉,廣闊天地,大有作為。

但是,從數據大國轉變為數據強國,遠非那麼簡單。

尤其當衣公子看到很多講解大數據的文章,常常把數據多少當作大數據行業的唯一標準——這樣的論述,過於片面。更有甚,“只要XXX中國就一定能XXX”,妄圖用激越的民族情緒代替理性的商業常識,這樣的趨勢,常常讓我感到擔憂。

請允許我鋪開大數據行業的工程圖。

數據採集和傳輸:Sqoop、Flume、Kafka等開源技術

存儲:HDFS是大數據磁盤存儲的實際標準。

數據庫:Redis、HBase、Cassandra、MongoDB、Neo4j

計算處理引擎:Spark、MapReduce、Flink

實時計算:Flink、SparkStreaming

數據查詢和分析工具:豐富的SQL on Hadoop的解決方案,比如,Hive、HAWQ、Impala、Presto、Spark SQL以及傳統對的MPP(大規模並行處理)

數據可視化:Tableau、QlikView等敏捷商業智能分析工具

等等等等……

以上這些,才是大數據。

如果把大數據技術比喻成武器。那麼數據只不過是火藥。千年前火藥就存在,數量再多也只不過是祭祀封建的鞭炮,如今決定火藥能否成為威力巨大的子彈,最關鍵的是造槍的技術。

衣公子認為,要帶領中國走向大數據時代,

要反對的是拔苗助長,該警惕的是“管得太多”,要相信的是敬畏市場,能依賴的是企業家精神。

這個問題上,不存在特殊國情。互聯網行業沒有國家模式,早有前車之鑑。看過那個紀錄片嗎?馬雲在北京推銷中國黃頁,在宣傳司綜合處,對方打斷了他,“我跟你講啊,這件事情你應該先約,辦事程序應該你先約,你要不約的話呢,很難給你做一個很滿意的回答。”……

QQ最初不賺錢,卻狂吃服務器,騰訊一度瀕臨破產。抱上中國移動的大腿,合作移動QQ,才賺上了增值業務的分賬,馬化騰以為迎來了柳暗花明。但是移動推出了自己的產品“飛信”,又把企鵝踹開了。中國移動不強乎?當年企鵝的營收和利潤給它當零頭都不配,不是嗎?

當搜索行業已經明朗,還是有人想培養一種更正能量的搜索引擎——即刻。股東名單強到我都不敢在文章裡列名字,還請了一個乒乓球大滿貫冠軍來當總經理。可是,如今,飛信安在哉?即刻搜索,安在哉?

真的,為了中國好,一定要允許、鼓勵自由競爭。

其實,管理者如果真的想幫忙,大概有以下三點是可以做的。第一,培養人才。根據各類報告,以及衣公子和從業者的交流,中國大數據行業的人才缺口目前約100萬,5年後將達到500萬。

第二,保護知識產權,維護市場公平。市場與人性如此,我們不要自欺欺人。剎住蔓延中國的商業抄襲之風,讓每個企業無論大小都可以收穫自己的商業果實。這樣才能真的做到萬眾創新,讓待攻克的技術難題陷入人民戰爭的汪洋大海。

第三,開放數據。目前來看,幾乎所有的公共數據都在政府和BAT手中。既然數據就是價值,開放價值,就好比戰國時期燕昭王於易水之畔築黃金臺,招天下之士,誰是英雄,現場抽一塊黃金與之。

其實,美國也有振興大數據行業的政策,而且比我們更早,但不是補貼錢,而是開放政府掌握的數據。奧巴馬2009年1月簽署《開放和透明的政府指令》(Transparency and Open Government),豐富且大量的美國公共數據,是美國大數據行業興盛的土壤。

奧巴馬開篇就引用美國大法官路易斯·布蘭代斯的名言:陽光是最好的防腐劑。

是啊,陽光是最好的防腐劑。形勢比人強。

不說了,喝酒。


分享到:


相關文章: