數據就是當代石油,該怎樣開發咱的“大油田”?

人工智能正在如火如荼發展著,以深度學習為基礎的AI開發,無疑離不開大數據的支撐。數據就是21世紀的新石油,這種觀點近年來已被世人廣泛接受。這是中國的歷史機遇,14億人口產生的驚人數據量,有著天然的巨大優勢。據中國信息通信研究院發佈的《全球人工智能產業數據報告》,截至2019年3月,全世界最活躍的AI企業基本上是中美兩國平分秋色,美國的AI獨角獸企業為18家,中國為17家,在AI產業融資數量上中國則穩居全球第一。

美國有著多年技術積累,中國有著數據聚集的後發優勢,大油田的開發看來已經勢不可擋,很多人確信,最大的油田在咱家,引領未來AI發展的潮流捨我其誰?

數據就是當代石油,該怎樣開發咱的“大油田”?

然而事情沒那麼簡單。在AI發展過程中,數據量的優勢並不等於技術優勢,產油量雖然很大,油品卻未必質量一定很高。業界的冷靜思考需要我們認真聆聽。今年7月,芝加哥保爾森研究所的智囊人物MacroPolo寫了一篇文章,他認為大數據不是AI的決定性資源,雖然中國在數據儲備方面有巨大潛力,但美國在數據質量和多樣性方面仍有優勢。他說,“數據與AI實力的關係類似於勞動力與經濟之間的關係,中國可能擁有豐富的工人,但這種勞動力的質量、結構和流動性對經濟發展同樣重要,這一點許多人可能忽略了”。

MacroPolo把數據油田分為5個維度,即:數量、深度、質量、多樣性和訪問權。他在定量分析的基礎上發現,中國在數據深度和訪問量上面有優勢,而美國則在數據質量和多樣性方面有優勢。這一結果也意味著,中美兩國在AI發展上還是有一番PK的,咱的大油田並非一定是好油田。

舉例來說,咱們現在最大的社交信息工具是微信,時時刻刻都在產生海量數據,從購物到理財、從出行打車到餐館訂座,各種數據幾乎應有盡有,全世界再沒有第二個這樣大規模的社交工具了。但是,微信的10億用戶幾乎全是中國人。而谷歌、Facebook的用戶覆蓋了全球不同語言、不同民族、不同膚色和文化的各類用戶,其數據的多樣性遠遠超過微信用戶。假如AI機器學習人臉識別、自動駕駛、口語翻譯等,微信的數據質量顯然比不了人家,這就是量大未必質佳。咱們的人臉識別總不能只認中國人,其餘都認作“老外”吧。

數據就是當代石油,該怎樣開發咱的“大油田”?

因此,咱們沒有理由守著大油田沾沾自喜,還要高質量開發好、利用好這一資源。眼下世界各國都制定了AI發展的戰略計劃,2017年國務院已經發布了《新一代人工智能發展規劃》,要在2030年成為世界主要的AI創新中心。美國呢,今年2月特朗普也發佈了一項行政命令,要求加大研發投入,維護美國的全球AI領導地位。英國、日本、歐盟也都發布了各自發展AI的中長期計劃。這場技術PK是全人類順應當代科技發展的共同追求,就像現代技術的其他領域一樣,既表現出競爭性更有著相互取長補短的必要性,合作共贏才是大勢所趨。

數據就是當代石油,該怎樣開發咱的“大油田”?

無論國際社會如何看待咱家的大油田,對我們自己來說都應該本著開放合作的態度發展AI,把海量數據資源轉化為技術互補的優勢,為全人類共同提高AI技術水平做出貢獻。具體而言至少要把握以下3點:

1,以包容合作的態度尋求廣泛合作。要像華為那樣把AI的國際合作看作是技術發展本身的需要,而不可以大油田的擁有者故步自封,更不可搞技術對抗。即使美國那樣以暫時的一些技術優勢刻意打壓,也要儘可能避其鋒芒,尋求對方的有識之士和明智的企業積極開展互利合作,共同發展。

2,合作共贏要注意行業技術的特點。許多技術的國際合作有著無數成功案例,即使有競爭性也主要體現在知識產權方面,國際合作的遊戲規則能夠有效管控。但大數據則不同,它遠不只是知識產權保護的問題。比如各民族的體格數據、疾病譜的DNA數據等,看似科研數據頂多也就是涉及醫藥行業的發展,其實已經涉及到了國家安全利益。這樣的大數據哪些可以、哪些不能外流,立法部門應該儘早做出明確規範。

3,AI相關企業要放眼全球發展。我們不能只盯著自己的大油田搞大開發,而要儘可能走出去,提高數據來源的多樣性。比如微信,應該積極尋求各國人民的生活需求,開發各種語言的用戶,哪怕市場暫時不大也應該積極推進,以持續的積累換取數據的多樣性和質量的提高,從而實現長遠效益。


分享到:


相關文章: