大數據沒你想的那麼玄乎!|數據科學50人劉鵬

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

作者 | 張慧芳

題圖 | 站酷海洛

劉鵬,現任科大訊飛副總裁、消費者事業群副總裁,兼任大數據研究院院長。知乎著名網友“北冥乘海生”本尊,DT君最初對他的印象大概可以用“人有多大膽,我就多敢吐槽”來描述,通過著作《計算廣告》,他成功俘獲了大批大數據圈子人的“追隨”。“混跡”互聯網圈子多年、在計算廣告領域發光發熱的劉鵬卻選擇於今年加入科大訊飛。DT君前段時間飛奔北京採訪了劉鵬博士,對這位被戲稱為“大數據噴子”的數據科學家有了新的認識。

今年四月份開始,劉鵬多了個新的身份——科大訊飛大數據研究院院長,與此同時他也是一位資深數據科學家。

對於以往的採訪者,我們都會問一個問題:“您認為什麼是數據科學?”劉鵬稍作思索說道:“沒有明確定義。”他提到,大數據不是學術界或者工業界提出的,而是諮詢公司提出來的,不是很嚴謹,不同的人有不同的理解,究其根本,他認為大數據是個工程問題,“我認為談不上科學,這都是工程,談到科學有點小題大做。”

如今的大數據和AI已經密不可分,劉鵬認為數據是AI的基礎,而數據科學是科學地應用數據,劉鵬有個“江湖匪名”叫“大數據仁波切”,起初是為了調侃那些不科學應用數據,而把大數據當做宗教信仰的一群人,最後倒成了劉鵬的“標誌”。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:劉鵬給自己“大數據仁波切”刻的一方印章)

劉鵬在加入科大訊飛前曾在互聯網領域“闖蕩”了近10年,致力於數據變現這一方向。他認為大數據變現一定要應用在數據體量足夠大的行業,其中唯一形成規模化、贏得利潤的行業,就是廣告業。

但在探索大數據變現的計算方法之前,劉鵬一直學習的是語音識別。

▍“我可沒研究人工智能”

“聽說你在研究人工智能?那你肯定是騙子。”1995年,劉鵬在清華大學電子工程系開始學習語音識別時,這是業界對當時自稱研究人工智能群體最直接的評價,“我當時一直就認為自己學的是電子系的語音識別,不是人工智能。”劉鵬跟DT君說,當時的清華電子系計算機系的確有人工智能的方向,“但是我們不敢講。”當時的人工智能並不被看好。

在過去60年裡,人工智能三起兩落。恰巧在劉鵬學習語音識別的那段日子,人工智能仍然處在第二個低谷期。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:人工智能的歷史發展曲線)

1999年,正是大學生創業的好時候,也是語音產業的第一次浪潮。

國內語音研究有“二王”,南王是中科大的王仁華教授,現在科大訊飛的創始人團隊當時都是王教授的學生,王仁華教授在他們創業路上起到了一定的推動作用。

而國內語音“北王”則是清華大學的王作英教授,2000年讀研期間,劉鵬成了他的門生,並繼續學習語音識別方向的內容,主要以信號處理的基礎研究為主,“我當時不認為我學的是人工智能,學術界沒有一個人在提自已研究的是人工智能。”不過,在學習語音識別系統知識的過程中,劉鵬非常感謝王作英教授給其的幫助。

“王老師是從蘇聯留學回來的,他最大的特點是教學基礎特別雄厚,說實話到現在我對他的一些教學知識還是一知半解,但是理論化、系統化地去研究問題是我跟王老師學到最多的東西。”劉鵬向DT君真誠地說。不過從大學進入清華到博士畢業的十年間,劉鵬認為自己只是在不斷學習和積累理論知識,但並沒有做出實際有意義的事情。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:劉鵬博士正在接受DT數據俠的專訪)

2005年,劉鵬又進了MSRA(微軟亞洲研究院)的語音組,師從當時語音組高級研究員和研究組主任宋歌平教授,仍是停留在理論知識的探索中。

MSRA是李開復於1998年創建的,當年以強有力的“江湖號召”鼓勵中國的學生進入語音識別領域,MSRA也隨之被帶“火”,到今天已經成功向中國輸出了大量科學家。劉鵬說MSRA被稱為“黃埔軍校”是絲毫不誇張的,對於中國的AI發展起到了奠基作用。“尤其是UR部門(University Relations 大學關係)對中國高校的影響非常大,可以說是幫助中國建立了計算機科學跟工業界結合比較緊密的研究方法論。”

到了2006年,科大訊飛已經處於上升發展階段,並決定自己做語音識別(正式與語音識別技術提供商Nuance公司結束合作關係)。那年劉鵬和胡鬱(現任科大訊飛執行總裁、消費者事業群總裁)開始有了聯繫,在語音識別上有過多次交流,為科大訊飛的發展也提供了一些建議。

人工智能的發展有了轉機也是在2006年,在學術界很少有人宣傳自己在做人工智能時,一直堅持研究人工智能的多倫多教授Geoffrey Hinton將深度學習技術帶進了主流學術界。

這一年,世界趕上了Geoffrey Hinton的步伐,其於1986年提出的通過反向傳播來訓練深度網絡理論在2006年計算機運行速度大幅提升後成了可能,Hinton緊接著發表論文,提出神經網絡之後的又一突破——深度學習,人工智能的發展開始有了質的飛躍。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:深度學習之父Geoffrey Hinton;來源:人工智能網)

不過劉鵬認為那只是算力上的進步,理論上仍然毫無進展。“2009年以前,人工智都還是處於低谷期。”

▍語音識別不work,去互聯網試試

“怎麼想到去互聯網行業研究商業變現的呢?”DT君問道。

“現在看來可能不對,但是當時覺得語音識別不work,想去別的領域試試。”劉鵬如實回答。

一直在語音識別領域做研究的劉鵬覺得當時的speech領域沒法真正應用到實踐中,他想著是不是可以將語音識別的方法論應用到互聯網行業中,用數據和計算改變商業世界。在學術界,數據的獲取比較困難,到了工業界,動輒便是上億人的數據,量變能夠產生質變。

2009年,美國雅虎在北京建了個分部。一次契機,當時雅虎北京實驗室的創建人張晨和鄭浩回國後找到了劉鵬,自此開始了其在互聯網廣告業務的探索之路。

2016年,AlphaGo戰勝李世石,這個時候大眾才真正瞭解AI的存在,3000年的圍棋歷史並沒有為人類留下具有遺傳性的系統算法,直到李世石傷心哭泣時,人們意識到機器真的會打敗人類,以一種猝不及防的姿態“侵入”。

“人在自己沒有經過進化選擇的領域裡,實際上能力非常弱,相當的弱。”在廣告領域,人是比不上機器的,因為人沒有能力“對抗”高維數據。

提到當時的工作內容時,劉鵬笑著說:“我們當時主要做的嘗試就是計算廣告,這是互聯網裡最重要的事,因為能直接帶來錢。”

“計算廣告”一詞最早由雅虎首席科學家Andrei Broder提出,劉鵬將這個概念簡單解釋為:把免費用戶產品得到的資產變成錢的一種系統性手段。這些資產主要包括:數據、流量和品牌價值,旨在用計算和數據方法驅動去解決廣告的問題,即優化收入。

2015年劉鵬出版的《計算廣告》一書中首次對計算廣告進行了系統的介紹和分析,其中提到,計算廣告是大數據應用中最為成熟、市場規模最大的行業。

“互聯網給我們打開了一個新思路:用免費的產品去獲得低成本的數據,這件事情價值很大。”劉鵬向DT君說到。2010年年底,科大訊飛曾開了一場發佈會,劉鵬回憶說,他認為這是科大訊飛真正“起飛”的時刻,開放語音雲平臺,免費供開發者使用,“這件事並沒有給科大訊飛帶來直接現金流,但是他們的數據從上千萬突然變成了上億,通過上億數據分析出來的模型對於當時的科大訊飛來說起到脫胎換骨的效果。”劉鵬在這過程中起到了一定的推波助瀾的作用。

在雅虎的經歷給劉鵬在廣告變現上積累了一定的經驗,其中針對日本雅虎的搜索廣告變現,利用算法根據用戶搜索行為進行數據分析,獲得收入的大提升。“這是在當時的人工智能領域感受不到的快感,那個時候發現廣告收入的核心不再是銷售和運營,而是技術。”但是當時雅虎北京研究院不負責中國業務。劉鵬希望將這類技術帶到中國廣告市場中,幫助中國廣告人員解決營銷困境。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:2010年IBM公司計算機沃森參加智力比賽節目《危險邊緣》並取得冠軍,圖片來源:cnmeonline)

2011年,IBM的沃森計算機系統在智力競賽節目《危險邊緣》中打敗了兩名人類挑戰者,紐約時報稱這是大數據計算的勝利,大數據進入熱門階段。同年劉鵬迴歸國內廣告市場,擔任Media-V的首席科學家,期望打造新的技術廣告公司。“我們是最早一批擁抱RTB(實時競價)和DSP(需求方平臺)技術的公司。”

但是隨著國內對於技術型廣告意識的增強,大企業紛紛建立自己的數據庫和程序化廣告平臺,對於第三方公司非常不友好,再加上劉鵬是北京人,回家鄉發展更方便點,最終在2013年底去了360出任商業化首席架構師,順帶驅動了360對聚效的併購與整合。“當時的Media-V主要是兩個業務:廣告代理業務和廣告技術DSP,代理的部分賣給了利歐,而360想要收購一家技術型廣告公司,Media-V成為了首選。”

也是在去360之前,劉鵬開始沉下心來整理《計算廣告》一書,與他來說,他並不是為了成為暢銷書作者,而是為了再次做點有社會增量價值的事情。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:《計算廣告》對數據變現基本原理的闡述,通過數據分析發現左圖只針對男性用戶,剩下的女性客戶可以針對性投放化妝品廣告,多出來的就是數據價值)

“在我的前半生裡,能稱得上有點兒社會增量價值的事,除了奉養雙親、撫養兒女,恐怕只有一件。那就是在研究生時代,我幾乎將所有的業餘時間,都投入到了整理老戲曲曲藝錄音並數字化這件事兒上。此事是如此令人興奮,我日復一日地重複著簡單的把老錄音和唱片轉成mp3的過程,並且開了個ftp(文件傳輸協議軟件),讓戲迷們下載。其間,我用壞了不少的錄音機和硬盤,卻從來沒有想過在其中掙哪怕一分錢。”(選自劉鵬公眾號《計算廣告》誕生記一文)

歷時兩年多《計算廣告》才真正面世,“首次全面系統地闡述計算廣告學的著作,覆蓋了商業邏輯、產品結構、關鍵技術、工程實踐和應用實例。在內容結構編排上,本書由淺入深,從宏觀背景到技術細節,從經典的搜索廣告到最新的實時競價”,360副總裁楊炯偉這麼評價此書。

劉鵬向廣告人介紹了後向變現的商業思維:正面的免費服務是為了獲得流量和數據,而背面的廣告業務則是將這些流量和數據變成金錢,用降維打擊的模式應對時刻變化的互聯網時代。

劉鵬始終認為計算廣告能夠優化數據,解決廣告的投放策略,甚至是創意策略。“十年前大眾不以為然,2017年中國在線廣告市場份額超過中國廣告市場的一半,不是技術搶了傳統廣告的市場,是數據和技術讓參與廣告的人變多了,給了中小型企業機會。”劉鵬如是說。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:劉鵬在書中將互聯網思維以硬幣正反面來表示)

“在互聯網的這麼些年對我來說是非常寶貴的經歷,我很慶幸。”互聯網廣告業務的本質是把數據變成錢,劉鵬此前在公開演講中提過,這個互聯網時代沒有專家,數據就是專家。

▍走出舒適圈

“大數據時代的最大挑戰,就是如何在海量的大數據專家們的精湛論述中,挖掘出一些有價值的信息。”——來自劉鵬公眾號語錄

“那您為什麼又回到語音識別領域了呢?”

“我是個機會主義者。”

今年4月中旬,劉鵬去了科大訊飛。提及科大訊飛吸引他的原因時,劉鵬顯得很輕鬆,端起茶杯抿了一口,然後“窩”在沙發上對DT君說:“我和科大訊飛太熟了,回這裡就像回家一樣。”

從2006年開始和科大訊飛的人有了聯繫後,在這之後的十二年裡劉鵬經常和胡鬱見面交流,在360待了四年之久,劉鵬逐漸發現“人工智能走得動了”。

他提到,互聯網企業給了人工智能一條腿,即擁有大規模的數據收集能力,GeoffreyHinton給了另一條腿,即新的計算方法,解決算力問題,“兩件事一湊,語音識別好像可以做了。”在互聯網領域待了將近10年的劉鵬走出自己的舒適圈,他想看看互聯網的思維能不能應用在人工智能上,為科大訊飛帶來更多新的變現場景。

“人們現在已經認識到數據是個極為重要的資產,包括現在的人工智能都是為了獲得更多數據而努力,提高算力。”人工智能的發展進入第三次浪潮,但劉鵬並不看好這次的興起,他認為我們目前做的都是用深度神經網絡通過數據湊答案,但是沒有新的洞察,“這是最不堅實的一次進展,之後會遇到更多硬骨頭。”

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:劉鵬認為人工智能的發展此後還會下滑)

採訪的最後,DT君問了劉鵬關於AI恐慌論的問題,他表示他是一個悲觀主義者,“機器在AI功能成熟的領域,替代人的工作是必然發生的事情。”但這不是他最擔憂的事情,他一直在想人工智能發展到強人工智能時代是否會造成毀滅性的災難,“當然,我們希望造出來的是沒有意識的智能機器人。”

大數據沒你想的那麼玄乎!|數據科學50人劉鵬

(圖片說明:劉鵬在某社交平臺的發言)

劉鵬在社交平臺上給自己起的名稱是“北冥乘海生”,取自莊子《逍遙遊》:北冥有魚,其名為鯤。鯤之大,不知其幾千裡也;化而為鳥,其名為鵬。鵬之背,不知其幾千裡也;怒而飛,其翼若垂天之雲。也正如劉鵬本人給DT君的感受一樣,對大數據的研究靜得下心,沉得下氣,他說他是個悲觀主義者,在DT君看來,他卻是少見的豁達,或許也更像他的自我描述:二。

▍數據俠門派

劉鵬,科大訊飛副總裁、消費者事業群副總裁,兼任大數據研究院院長。曾先後任職於微軟亞洲研究院、雅虎北京研究院、Media-V以及360等,所著《計算廣告》一書成了業界全球第一本此領域的學術專著,受到了大數據和互聯網行業的一致好評,併成為很多互聯網公司搭建變現體系時的指導教程。

大數據沒你想的那麼玄乎!|數據科學50人劉鵬


▍加入數據俠

“數據俠計劃”是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。瞭解數據俠計劃詳情請回復“數據俠計劃”,投稿、合作請聯繫[email protected]

大數據沒你想的那麼玄乎!|數據科學50人劉鵬



分享到:


相關文章: