中國工程院院士鄔賀銓:大數據是博大精深的

數據觀訊(記者 牛悅) 5月25日,中國工程院院士鄔賀銓在數博會“第一屆大數據科學與工程國際會議(2016)——大數據科學認識與理解”論壇上發表《大數據之博大精深》為主題的演講。他說,大數據不僅是數據的量的龐大,而且是多維度與代表性,但大數據不能以大蓋全,大數據是已發生事件規律的總結,同時,大數據追求數據精準,而且強調規律,大數據的“深”又在於大數據的分析不僅需要大量的數據而且需要建立模型。

鄔賀銓說,大數據具有多個來源,其中包括社會空間數據、物理空間數據、信息空間數據三個方面。分局分類可以分為國家安全數據、商業秘密數據、個人隱私數據,但其中只有部分數據是開放的。從結構上來看,大數據可分成結構化、半結構化、非結構化,其中,非結構化,是不能用表格來表示的數據。

鄔賀銓說,大數據具有增長性、長期性、顆粒性、移動性、多維性、語義性、隱私性等特點,以醫療大數據為例,中國一個千萬人口的城市50年所累計的醫療數據量就會達到10PB級。每天都會有大量的數據導入區域醫療數據中心,其中,門急診患者的數據保存不得少於15年,疏遠數據保存30年,影像數據無限期保存。這些數據通常需要帶有時間、位置、環境和含著病史及家族史等信息,即數據的移動性,而這些醫療數據把患者、醫生、醫療機構在不同層次上關聯,體現了它的多維性,存儲需要加入語義標籤,對影像的理解需要有更專業經驗,即語義性,而這些醫療數據涉及患者隱私,即大數據的隱私性。

鄔賀銓說,大數據的量是非常的大的,2020年人類的數據量可能會到40ZB,裝到光盤上,重量可以裝幾十艘現在美國的“尼克茲航母”。比如說,政務大數據,一個8M攝象頭每小時產生3.6GB,很多城市的攝象頭多達幾十萬個,一個月的數據量達到數百PB,若需保存3個月則存儲量達到EB量級。比如北京公交,公交一卡通每天4千萬人次,地鐵1千萬人次,北京交通中心每天數據增量30GB,存儲量20TB。比如法院系統大數據,一個8M攝象頭每小時產生3.6GB,很多城市的攝象頭多達幾十萬個,一個月的數據量達到數百PB,若需保存3個月則存儲量達到EB量級。

同時,鄔賀銓說,大數據只有大於一定量時才有用,但大數據不僅是數據大,而且是多維度與具有代表性。麥肯錫曾評價大數據價值堪比石油,但礦產資源因兒科再生通常會隨時間而增值,信息資產隨著互聯網發展會越來越多但折舊很快。大數據不能以大蓋全,大數據是已發生事件規律的總結,能否用於預測取決於後續事件的發展有無新的重大因素影響。比如,谷歌公司,根據美國阿特蘭大中部地區2008年春夏之交有關流感的搜索詞頻率異常長生而成功判斷機降爆發流感,但流感疫情的前兆與有關流感搜索詞突發的相關性的逆命題並不成立,導致谷歌對2012年底美國流感的預測結果比實際情況過分誇大。這不是大數據的失效,如果谷歌內容能更多關注和收集搜索引擎之外的大數據就更好。

提到大數據的“精”,鄔賀銓說,通常指的是大數據追求數據精準但強調規律,這應理解為對於一個人大數據集而言,我們很難要求所有數據都精準,都只需要大多數數據有代表性,這並不妨礙數據集合得到較為準確的結果。比如,谷歌的無人駕駛汽車牌照,利用傳感器、雷達、導航系統、數據地圖、實時街景數據和大數據分析等技術支撐無人駕駛車,這個精度要求面積,它通過大數據進行掃街掃出來的地圖,比百度地圖精確度高得多,這要求非常精密。

鄔賀銓還說,大數據可以提高分析精度。最近十年,語音識別錯誤率和機器翻譯的準確性都成倍改進,其中20%的貢獻來自方法的改進,80%則在於數據量的提升。傳統用OCR辦法識別文字的成功率到98%後就很難再提升,通過大量收集已知文字的照片和圖片等用於比照,識別成功率提高到99.9%。

而對於大數據之“深”,鄔賀銓認為,這指的是大數據的分析不僅需要大量的數據而且需要建立模型。


分享到:


相關文章: