12.12 四類應用告訴你大數據到底能幹嘛?

我們今天常常講到大數據思維,很多人就會想到大型互聯網公司使用用戶的數據做很多事情,既有好的事情,比如今日頭條給大家推送有用的資訊,也有壞的事情,比如一些電商公司利用個人信息進行價格歧視,甚至一些公司出賣大家的隱私。

關於大數據思維的一些例子,在當下最常見,也是最成功的有四類應用。

四類應用告訴你大數據到底能幹嘛?

第一類,解決人工智能問題。

世界上利用大數據解決的第一個智能型的問題是語音識別,接下來是機器翻譯。語音識別的歷史正好和電子計算機一樣長,可以追溯到1946年。但是一直做得非常不成功。

到了60年代末,計算機已經進入到第三代了(基於集成電路的),語音識別才只能做到識別十個數字加上幾十個單詞,而且錯誤率高達30%。這樣水平的系統是不可用的,因為如果每十個詞就錯三個,你就無法復原原來的意思了。

因此,在60年代初,就有人認為語音識別和治癒癌症、登月、水變油一樣,近乎不可能。到了70年代,康奈爾大學著名的信息論專家賈里尼克來到IBM,負責該公司的語音識別項目。賈里尼克是一位天才,他從博士畢業到成為講席教授,教科書的作者,也就是十年時間。

在賈里尼克之前,人們覺得識別語音是一個智力活動,比如我們聽到一串語音信號,腦子會把它們先變成音節,然後組成字和詞,再聯繫上下文理解它們的意思,最後排除同音字的歧義性,得到它的意思。

為了做這件事,科學家們就試圖讓計算機學會構詞法,能夠分析語法,理解語義。但這件事證明是不可行的。賈里尼克在到IBM之前並沒有做過語音識別,他也不懂得傳統的人工智能。

事實上,直到死他都不認為他是人工智能專家。由於不受到傳統的人工智能思想的約束,他得以用信息論的思維方式來看待語音識別問題。他認為語音識別是一個通信問題。

四類應用告訴你大數據到底能幹嘛?

賈里尼克是這樣考慮問題的。當說話人講話時,他是用語言和文字將他的想法編碼,這就變成了一個信息論的問題。語言和文字無論是通過空氣傳播,還是電話線傳播,都是一個信息傳播問題,在通信中有一套對應的信道編碼理論。在聽話人,也就是接收方那裡,他再做解碼的工作,把空氣中的聲波變回到語言文字,再通過對語言文字的解碼,得到含義。

於是,賈里尼克就用通信的編解碼模型,以及有噪音的信道傳輸模型,構建了語音識別的模型。但是這些模型裡面有很多參數需要計算出來,這就要用到大量的數據,於是,賈里尼克就把上述問題又變成了數據處理的問題了。

在這樣的思想指導下,賈里尼克裁掉了IBM全部的語言學家,並且對各種仿生學,比如研究人耳蝸的模型完全不感興趣,他只注重收集數據,訓練各種統計模型。

那麼這樣能否解決語音識別問題呢?在一開始,學術界確實有人懷疑,不過賈里尼克很快用結果回答了大家。

在短短几年時間裡,他的團隊(都是數學家和數學很好的理論物理學家)就將語音識別的規模擴大到22000詞,錯誤率降低到10%左右。這是一個質的飛躍,從此數據驅動的方法在人工智能領域站住了腳。

賈里尼克思想的本質,是利用數據(信息)消除不確定性,這就是香農信息論的本質,也是大數據思維的科學基礎。這就是第一類應用,把人工智能問題變成數據問題帶給我們的啟示。

四類應用告訴你大數據到底能幹嘛?

第二類應用,利用大數據進行精準服務。

我們不妨用一個例子來說明。

如果我們想知道搜索“邁克爾·喬丹”的網頁結果,我們可以把包含著兩個關鍵詞的網頁先找到,然後根據相關性和網頁質量排序。

但是,在美國有很多“邁克爾·喬丹”,到底用戶找的是誰呢?有人可能會說,當然是那個籃球球星了,其實美國還有一個非常有名的“邁克爾·喬丹”,他是當今世界上最著名的人工智能專家之一,美國三院院士(科學院、工程院和文理學院)。

很多年前在Google,研究者想了不少辦法來解決這個問題,比如有人提出是否在10條結果中放5條籃球球星的,5條教授的。但是這種想法很快被大家否決了,因為無論是找籃球球星的人,還是找學者的,都會認為你的搜索做得不夠好。

對這個問題唯一好的解決辦法就是理解用戶的意圖,進行個性化服務。但是這樣一來就需要非常非常多的數據,因為之前可以對所有的人進行統計,看看大家最希望得到的搜索結果是什麼。

但是,如果對每一個人進行統計,數據量就不夠了,因為一個人搜索的數量再多,也無法和所有人相比。一旦數據量不夠,統計就變得毫無意義。

四類應用告訴你大數據到底能幹嘛?

因此,這一方面需要儘可能多地收集數據,另一方面則需要對行為習慣和偏好類似的人進行聚類。

今天,微軟的搜索效果沒有Google的好,不是技術不行,而是數據量不夠。對於那些常見的搜索,大家其實水平差不多,微軟差就差在了那些很少見到的長尾搜索關鍵詞上。

但是不管怎樣,這兩家公司已經從重視方法研究,轉為重視信息收集和處理了。這是透視大數據思維的第二類應用,利用大數據進行精準服務,得出的一個趨勢。

第三類應用,動態調整我們做事情的策略。

當今,容易一勞永逸解決的那些問題大多數已經被解決了,留給我們的是不確定性的問題,因此我們做事情的策略也就要變化了。

早期的滴滴公司並不是一個技術水平很高的公司,雖然他們在公開場合並不承認這一點,很多行業裡的人將它作為這方面的反面典型。但是為什麼這樣一家很多人看不上的公司,能夠做大做強呢?除了運營得好之外,正確的指導思想和做事原則起到了關鍵性的作用。

其實,滴滴公司遠不是第一家網約車公司,之前一些公司,過分強調司機和乘客之間的固定,比如A乘客坐B司機的車子比較滿意,他下次依然希望提前預訂B司機的服務。這件事在優步和滴滴都是不允許的,但是一些網約車公司是允許的。這兩種做法有什麼差別呢?

四類應用告訴你大數據到底能幹嘛?

雖然沒有人都能舉出各自的利弊,但是,對於一個不斷變化的打車人群分佈和車輛分佈,利用數據做動態調整是效率最高的策略。當然,如果你沒有足夠多的數據,一共只有200輛車,5000個人的數據,你是做不到這一點的。

反過來,如果有了足夠多的數據,是否在理論上有保障,只要調整的次數足夠多,就能收到最佳匹配呢?答案是肯定的

第四類應用,利用大數據發現不知道的規律。

如今研製一款新藥需要20年時間,20億美元的投入,這是驚人的投入。能否減少這方面的研發成本,縮短研發週期呢?

如果按照過去的做法工作,即使再努力,能提升的空間也有限。後來大家換了一個思路想問題,那就是讓處方藥和各種疾病重新匹配。

比如斯坦福大學醫學院發現,過去一種治療心臟病的藥治療胃病效果很好,於是他們直接進入小白鼠試驗,然後進入了臨床試驗。由於這種藥的毒性已經試驗過了,因此臨床試驗的週期短了很多。這樣,找到一種新的治療方法平均只需要3年時間,投資1億美元。

當然,找到藥和病的配對,本身是一個大數據問題。這種做事的方法能夠成立,背後是有信息論理論依據的,即所謂的互信息理論

四類應用告訴你大數據到底能幹嘛?

最後,小結一下,今天給舉了四類大數據思維應用在商業上的成功案例:

  • 第一類是解決人工智能問題,是利用數據(信息)消除不確定性,這是香農信息論的本質,也是大數據思維的科學基礎。
  • 第二類是利用大數據進行精準服務,從中你可以看出一個商業趨勢:公司從重研究方法到重數據收集的轉變。
  • 第三類是動態調整做事策略,足夠多的數據可以幫助我們動態匹配最佳結果。
  • 最後一類是利用大數據發現未知規律,這背後涉及互信息的理論,也是信息論的重點內容。

這四類大數據應用,都在傳達一個信息,那就是大數據的關鍵是思維方式的變化。。


分享到:


相關文章: