一文回顧近二十年數據科學領域的里程碑事件或突破性技術

回顧數據科學的早期發展歷史,我們會發現有兩個主題密切相連:大數據意味著計算機的使用頻率增加;統計學家很難將紙張上所寫算法用計算機實現。由此,數據科學得以出現。不過在發展之初,因為沒有精緻的工具、神奇的範式,也沒有新科學做它的支撐,“數據科學”這個詞並不太流行,直到20世紀80年代,它才開始通過數據挖掘的方式得到發展。隨著時間腳步的行進,數據的科學化處理達到了新的高度,而數據科學則在1996年叩響了學術界的大門。進入21世紀後,互聯網的出現使得可用的數據量劇增,數據科學領域終於得以蓬勃發展。到2020年,每秒鐘大約會產生1.7兆的新信息,而這些龐大的數據,為數據科學的應用創造了肥沃的土壤,進而使得一個又一個奇蹟的創造成為可能。

目前,各行各業都已經孕育出基於大數據的、可以深刻廣泛影響人們生活的技術,比如計算廣告、推薦系統、現在正在蓬勃發展的無人駕駛汽車等等。總之,“大數據”和“數據科學”成為了當前最流行的詞彙之一。那麼,在進入21世紀後迅速發展的短短二十年中,數據科學領域有哪些里程碑事件或突破性技術值得銘記呢?下面讓我們來一一盤點。


一、2001年


1.數據挖掘

數據挖掘其實是一個逐漸演變的過程。電子數據處理的初期,人們就試圖通過某些方法來實現自動決策支持,當時機器學習成為人們關心的焦點。隨後,隨著神經網絡技術的形成和發展,人們的注意力轉向知識工程,不過,它有投資大、效果不甚理想等不足,80年代人們又在新的神經網絡理論的指導下,重新回到機器學習的方法上,並將其成果應用於處理大型商業數據庫。80年代末,一個新的術語——數據庫中的知識發現,簡稱KDD(Knowledge discovery in database)——出現,它泛指所有從源數據中發掘模式或聯繫的方法,人們接受了這個術語,並用KDD來描述整個數據發掘的過程,包括最開始的制定業務目標到最終的結果分析,而用數據挖掘(data mining)來描述使用挖掘算法進行數據挖掘的子過程。目前,數據挖掘的算法主要包括神經網絡法、決策樹法、遺傳算法、粗糙集法、模糊集法、關聯規則法等。

2001年,Garner Group的一次高級技術調查將數據挖掘和人工智能列為“未來三到五年內將對工業生產產生深遠影響的五大關鍵技術”之首。同時,它還入選了《麻省理工科技評論》發佈的2001年“全球十大突破性技術”,被認為在未來5年將對人類產生重大影響。由於數據挖掘技術從一開始就是面向應用的,它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。因此,數據挖掘前景非常廣闊,目前已被證明有著廣泛驚人的應用。但是,數據挖掘還牽扯到隱私問題和數據庫被濫用的風險,它必須受到規範約束,應當在適當的說明下使用。如果數據是收集自特定的個人,則會出現一些涉及保密、法律和倫理的問題。

一文回顧近二十年數據科學領域的里程碑事件或突破性技術


二、2004年至2006年


1.Hadoop項目

Hadoop由 Apache Software Foundation 公司於 2005 年秋天作為Lucene的子項目Nutch的一部分正式引入。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。隨著2004年前後谷歌GFS、MapReduce兩篇論文的誕生,為該問題提供了可行的解決方案。Nutch的開發人員完成了相應的開源實現HDFS和MapReduce,並從Nutch中剝離成為獨立項目Hadoop,到2008年1月,Hadoop成為Apache頂級項目,迎來了它的快速發展期。

Hadoop得以在大數據處理應用中廣泛應用得益於其自身在數據提取、變形和加載方面上的天然優勢。Hadoop的分佈式架構,將大數據處理引擎儘可能的靠近存儲,對例如像加載這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎,並將碎片任務發送到多個節點上,之後再以單個數據集的形式加載到數據倉庫裡。

2.深度學習

20世紀90年代中期到21世紀00年代中期是機器學習發展的黃金時期,主要標誌是學術界湧現出一批重要成果,比如,基於統計學習理論的支持向量機、隨機森林和Boosting等集成分類方法,概率圖模型,基於再生核理論的非線性數據分析與處理方法,非參數貝葉斯方法,基於正則化理論的稀疏學習模型及應用等等。這些成果奠定了統計學習的理論基礎和框架。

而深度學習作為機器學習的分支,自2006年以來受到持續性關注。2006年,受Hinton的革命性的深度信念網(Deep Belief Networks,DBNs)的引導,Hinton、Bengio、Ranzato與LeCun的三篇文章將深度學習帶入熱潮,將其從邊緣學科變為主流科學與技術。目前深度學習在計算機視覺、語音識別、自然語言處理等領域取得了巨大的成功。


自2006年以來,深度學習在學術界持續升溫。斯坦福大學、紐約大學、加拿大蒙特利爾大學等成為研究深度學習的重鎮。2010年,美國國防部DARPA計劃首次資助深度學習項目,參與方有斯坦福大學、紐約大學和NEC美國研究院。支持深度學習的一個重要依據,就是腦神經系統的確具有豐富的層次結構。一個最著名的例子就是Hubel-Wiesel模型,由於揭示了視覺神經的機理而曾獲得諾貝爾醫學與生理學獎。除了仿生學的角度,目前深度學習的理論研究還基本處於起步階段,但在應用領域已顯現出巨大能量。2011年以來,微軟研究院和Google的語音識別研究人員先後採用DNN技術降低語音識別錯誤率20%~30%,是語音識別領域十多年來最大的突破性進展。2012年,DNN技術在圖像識別領域取得驚人的效果,在ImageNet評測上將錯誤率從26%降低到15%。在這一年,DNN還被應用於製藥公司的DrugeActivity預測問題,並獲得世界最好成績。 目前,深度學習是當今最有活力的機器學習方向,在計算機視覺、自然語言理解、語音識別、智力遊戲等領域的顛覆性成就,造就了一批新興的創業公司。

一文回顧近二十年數據科學領域的里程碑事件或突破性技術


三、2012年

1.神經網絡學會識別貓咪

2012年6月,據媒體報道,Google X部門通過1.6萬片處理器構建了一個龐大的系統,用於模擬人類的大腦神經網絡。藉助“谷歌大腦”,無需接受人類的任何培訓和指令,就可以利用內在算法從海量數據中自動提取信息,學會如何識別貓咪。

無人駕駛汽車和增強現實眼鏡是Google X最著名的兩個項目,但作為谷歌最神秘的部門,這裡的研究遠不止此——早在幾年前,他們就成立了專門的團隊,模擬人腦的運行方式。為了研究機器學習,谷歌的科學家將1.6萬片電腦處理器連接起來,創造了全球最大的神經網絡之一。它不需要藉助大批研究人員幫助電腦標明事物之間的差異,只要為算法提供海量的數據,“神經元”與“神經元”之間的關係將會發生變化,讓數據自己說話。組成“神經網絡”的機器具備自動學習、識別數據的能力,在新的輸入中找出與學到的概念對應的部分,達到識別的效果。 在看過數百萬張圖片後,谷歌的虛擬大腦將自己構建出一張理想的貓的圖片,利用不同層級的存儲單元成功提煉出貓的基本特性。有科學家認為,這似乎是在控制論層面模擬了人類大腦視覺皮層的運作方式。


谷歌的科學家和程序員指出,互聯網上充斥著貓咪視頻算不上什麼新聞,但這種模擬的效果還是令他們大吃一驚。與之前的任何項目相比,該神經網絡的效果都要好得多:面對2萬種截然不同的物體,它的辨識能力幾乎翻了一番。目前,Google正在將該虛擬人腦用於提升語音識別的準確率。據介紹,Google X團隊曾和谷歌語音識別團隊有過一次合作,5天內在800個機器上進行訓練,就單字錯誤檢出率而言,該系統已讓Google的語音識別準確率提升了25%,這相當於研究語音識別20年的成果。未來,這項機器學習技術還可以用於實用型計算機視覺、攔截垃圾郵件,甚至自動駕駛汽車等領域。

2.數據可視化

在2003年全世界製造了5EB的數據量時,人們就逐漸開始對大數據的處理進行重點關注。發展到2011年,全球每天新增的數據量就開始呈指數級增長,用戶對於數據的使用效率也在不斷提升,數據服務商也就開始需要從多個緯度向用戶提供服務。2012年,我們進入數據驅動的時代,掌握數據就能掌握髮展方向,因此人們對於數據可視化技術的依賴程度也不斷加深。大數據時代的到來對數據可視化的發展有著衝擊性的影響,試圖繼續以傳統展現形式來表達龐大的數據量中的信息是不可能的,大規模的動態化數據要依靠更有效的處理算法和表達形式才能夠傳達出有價值的信息,因此大數據可視化的研究成為新的時代命題。

我們在應對大數據時,不但要考慮快速增長的數據量,還需要考慮到數據類型的變化,這種數據擴展性的問題需要更深入的研究才能解決;互聯網的加入增加了數據更新的頻率和獲取渠道,並且實時數據的巨大價值只有通過有效的可視化處理才能體現。於是,在過去就受到關注的動態交互的技術已經向交互式實時數據可視化發展,是如今大數據可視化的研究重點之一。除了大量的使用交互新技術以外,一些前衛的軟件如DataFocus也開始引入自然語言處理技術,增強數據分析的易用性,將數據可視化推向深入。


四、2014年

1.對抗神經網絡

2014年,Ian Goodfellow等人發佈論文,提出了新型生成對抗網絡GAN,它受啟發於博弈論中零和博弈的思想,包含兩個模塊:判別模型和生成模型,二者不斷博弈,使生成器學習真實的數據分佈,而判別模型的目的是儘量正確判別輸入數據是來自真實數據還是來自生成器。為了取得遊戲勝利, 這兩個遊戲參與者需要不斷優化, 各自提高自己的生成能力和判別能力, 這個學習優化過程就是尋找二者之間的一個納什均衡。Ian Goodfellow發明出GAN後,獲得Facebook首席科學家Yann LeCun、NVIDIA創辦人黃仁勳、Landing.ai創辦人吳恩達等大牛的讚賞,吸引了諸多的機構及企業開始研究。在中國部分,學術機構致力於研究GAN理論的近一步改良及優化,比如中科院自動化所研究人員受人類視覺識別過程啟發,提出了雙路徑GAN(TP-GAN),用於正面人臉圖像合成,而商湯香港中大聯合實驗室在國際學術大會上發表多項GAN相關研究成果。

GAN具有大量的實際用例,如圖像生成,藝術品生成,音樂生成和視頻生成。此外,它還可以提高圖像質量,圖像風格化或著色,面部生成以及其他更多有趣的任務。目前,GAN 已被用於創造聽起來十分真實的語音,以及非常逼真的假圖片。這項技術已經成為了在過去十年最具潛力的人工智能突破,幫助機器產生甚至可以欺騙人類的成果。未來,GAN 可能對計算機圖形學產生衝擊或挑戰,因為目前已經有各種變體或進階版出現,而且在諸多研究人員及企業的投入下仍然有許多的可能性,例如從二維的圖片進展到三維的視頻等等。

一文回顧近二十年數據科學領域的里程碑事件或突破性技術


五、2016年

1.語音接口

自20世紀50年代起,語音識別技術開始出現在我們身邊。那時貝爾實驗室的工程師創建了一款可以識別單個數字的系統。不過,語音識別只是完整語音接口技術的一部分。語音接口包含傳統用戶接口的所有方面:它能呈現信息併為用戶提供一種操控方式。在語音接口中,操控或者一些信息的呈現都將通過語音實現。在一些如按鈕或顯示屏等傳統的用戶接口上,也可以配置語音接口這一選項。對於大部分人而言,遇到的第一款語音接口設備很有可能是移動電話,或者是個人電腦上非常基礎的將語言轉換成文字的程序。然而,這些設備的運行都非常緩慢、識別不精確且可識別的詞彙有限。

進入2010年代,隨著計算能力和算法性能的顯著提高,以及雲技術和大數據分析的應用,語音識別效果有了顯著的提升。而機器學習的進步更使語音識別軟件在精確性方面上一個臺階,這也將計算機的應用推得更廣。同時,越來越多的公司都在湧進語音接口市場,從亞馬遜、Intel到微軟谷歌,幾乎每一個大科技公司都在研發會話用戶接口,此外還有很多初創企業也在從事相關研究。2016年,微軟的對話語音識別技術在產業標準Switchboard語音識別基準測試中實現了詞錯率低至5.9%的突破 ,創造了當時該領域內錯誤率的最低紀錄。這意味著微軟語音識別系統已經能夠像人一樣識別談話中的詞彙,極具里程碑式的意義。同年在《麻省理工科技評論》“十大突破性技術”盤點中,語音接口技術便成功入選。麻省理工科技評論認為:通過該技術,可將語音識別和自然語言理解相結合,為全球互聯網市場創造切實可用的語音接口。語音識別將成為人機交互的重要方式。

2.強化學習

2016年初,AlphaGo戰勝李世石成為人工智能的里程碑事件,其核心技術深度強化學習受到人們的廣泛關注和研究,取得了豐碩的理論和應用成果。而進一步研發出算法形式更為簡潔的AlphaGo Zero,其採用完全不基於人類經驗的自學習算法完勝AlphaGo,再一次刷新了人們對深度強化學習的認知。

強化學習是一種人工智能方法,能使計算機在沒有明確指導的情況下像人一樣自主學習。如今,強化學習正在迅速發展,並逐步將人工智能滲透到除了遊戲之外的各個領域。除了能夠提升自動駕駛汽車性能,該技術還能讓機器人領會並掌握以前從未訓練過的技能。

近幾年來,深度學習技術被證明是一種用來識別數據模式的極其高效的方式。在國內,以科大訊飛為例,這家公司已經針對強化學習在多個方向展開了研究和應用,包括人機對話系統、智能客服系統、機器輔助駕駛、機器人控制等方向,都已有了應用研究。例如,在傳統的任務完成型對話系統中,用戶需要在一次交互過程中把自己的需求描述清楚,這樣的交互不是自然的。在訊飛的AIUI交互系統框架中,引入了多輪交互的思想,由一個深度強化學習(馬爾庫夫決策過程)模型來引導用戶輸入需求,從而快速、自然流暢地完成用戶任務。同時,許多工業機器人制造商也將目光投向了強化學習技術,測試該技術在無手工編程情況下訓練機器執行新任務的效果。在國外,Google公司的研究人員也正與DeepMind合作,試圖利用深度強化學習技術使其數據中心更加節能。

一文回顧近二十年數據科學領域的里程碑事件或突破性技術

六、2017年

1.雲計算

多年以來,數據科學已經從一個小眾市場發展成為完整的領域,可用於分析的數據也呈爆炸式增長,組織和企業正在收集和存儲比以往更多的數據。所以,雲計算進入了數據科學領域。

雲計算使任何地方的任何人都可以訪問幾乎無限的處理能力。諸如Amazon Web Services(AWS)之類的雲供應商提供了多達96個虛擬CPU內核和高達768GB的內存。可以將這些服務器設置在一個自動擴展組中,按所需的計算能力啟動或停止數百個服務器而不會產生太多延遲。除了計算之外,雲計算公司還為數據分析提供了完善的平臺。Google Cloud提供了一個稱為BigQuery的平臺,該平臺是無服務器計算且可擴展的數據倉庫,使數據科學家能夠在單個平臺上存儲和分析PB級的數據。BigQuery也可以連接到其他用於數據科學的谷歌雲服務。使用則創建數據流傳輸管道,使用則在數據上運行Hadoop或Apache Spark,或使用BigQuery ML在龐大的數據集上構建機器學習模型。隨著數據科學的成熟和數據量更加巨大,我們最終可能會完全在雲上完成數據科學。

2.自然語言處理

在深度學習研究領域取得重大突破之後,自然語言處理(NLP)已牢固地進入數據科學領域。


數據科學最初是對純原始數據的分析,因為這是處理數據並將其收集在電子表格中最簡單的方法。如果需要處理任何類型的文本,通常都需要將其分類或以某種方式轉換為數字。然而,將一段文本壓縮為一個數字是非常困難的。自然語言和文本包含了豐富的數據和信息,由於缺乏將這些信息表示為數字的能力,因此我們常常會失去很多有用的信息。深度學習在NLP中取得的巨大進步推動了NLP與常規數據分析的全面集成。現在,神經網絡可以快速地從大量文本中提取信息,能夠將文本分為不同的類別、確定關於文本的情感、並對文本數據的相似性進行分析。最後,所有這些信息都可以存儲在單個數字特徵向量中。

目前,NLP已成為數據科學中的強大工具。巨大的文本數據存儲,不僅可以是一個單詞的答案,還可以包含完整的段落,可以轉換為數值數據以進行標準分析。現在,我們可以探索更為複雜的數據集。


七、2019年

1.數據科學的自動化

即便在當今的數字時代,數據科學仍然需要大量的手工作業。存儲、清理、可視化和探索數據,最後對數據進行建模以獲得實際結果。為了解決這些低效問題,在過去幾年,分析供應商已開始開發能夠完成整個工作流程並集成到一個端到端平臺的產品,這些平臺被視為數據科學的操作系統。這帶來的重大創新是,它們首先實現了大量數據處理部分的自動化。其次,它們可以很容易地跟蹤所有開發的模型及其參數。它們使得將算法和模型投入生產變得更加容易。例如,Alteryx擁有一個智能且易於使用的數據科學平臺,該領域的其他參與者包括KNIME,RapidMiner和H2O.ai。此外,還有一些分析公司更進一步,將自動化機器學習系統集成到平臺中。這樣一來,只需要一些最小干預的系統,就可以放棄數據並獲取集合模型。這些系統帶來的最大優勢是,它們可以向更廣泛的受眾開放預測分析,幫助非技術人員解決客戶流失等簡單的預測問題。

2019年,用於自動模型設計和訓練的自動化機器學習(AutoML)迎來蓬勃發展,我們看到了自動化市場動力的激增,很多機器學習解決方案都在推動由人工引導的自動數據分析,以便在整個項目生命週期中實現更深入的AutoML。從簡單的拖放、通過按鈕單擊向導創建基本模型到複雜的特徵工程、模型搜索、超參數調整、部署、模型管理和監控,AutoML 的功能差異很大——結果的質量也存在巨大差異。

2.數據中臺

中臺的概念最早可追溯至二戰期間美軍的一套強有力的作戰系統,而中臺思想進入中國,則應該追溯到2014年,阿里巴巴訪問芬蘭遊戲企業Supercell後,正式將其採用美軍作戰系統的“中臺”(“大中臺、小前臺”)作為企業戰略,並將其結合阿里現有工具從戰略地位、組織架構、人才管理等多方面自上而下進行佈局;將支持類的業務放在中臺,扮演平臺支撐角色,通過打破原來樹狀結構,使小前臺距一線更近,業務全能,更加快速決策、敏捷行動,中國化“中臺”也由此誕生。馬雲的芬蘭出訪,為中國企業首次引入了“中臺”的概念,在此基礎上發展起來的“數據中臺”,則和我國特有的“數據市場”環境有著密切聯繫,是因地制宜的“中國產物”。數據中臺也從一個技術詞彙,慢慢轉變成為企業界的共識:如果想要在信息商業中擁有一席之地,就必須要藉助雲計算和數據的力量,完成企業的數字化轉型。

自2016年之後,數據量已經從PB級別邁向了EB級別。隨著越來越多的企業把業務流程上雲,日益增長的數據存儲和仍然稀缺的數據應用就成為了企業的主要矛盾之一,而且,這種矛盾需要從業務、技術、組織幾個不同的領域一起來探尋數據的解決方案。數據中臺就是這一系列解決方案的基礎設施。站在企業的角度上,數據中臺更多地指向企業的業務目標,即幫助企業沉澱業務能力,提升業務效率,最終完成數字化轉型。目前,數據中臺沒有確切的定義,但一個合格的數據中臺需要具備數據模型能力,AI算法模型能力和數據業務化能力。2019年被成為數據中臺元年,不僅有行業內對於中臺定義的百家爭鳴,更有華為、騰訊、萬科、京東等諸多行業頭部企業帶動了對數據中臺落地實踐的探索熱潮。即使在資本寒冬背景下,細分領域中,以建設中臺為發展核心的創業型服務商也頻頻受到資本青睞。據不完全統計,2019年,國內約有500餘家大型頭部企業正在嘗試建設數據中臺,如中信雲網、百果園、興業銀行、萬科集團等已經開始取得落地效果。相關研究表明,中國目前有超過 80% 的企業仍然處於較為初級的數字化轉型階段。未來的商業,數據智能是源動力。數據中臺,已然成為企業數字化轉型的關鍵,或者說是必經之路。

回顧這二十年的變化,我們不得不承認數據科學是一個發展非常快的領域,沒有人知道數據和技術的融合竟然能夠設計這樣一個精彩的世界。展望未來,隨著雲計算、人工智能等技術的發展,還有底層芯片和內存端的變化,以及視頻等應用的普及,數據科學領域將繼續沿著異構計算,批流融合,雲化,兼容AI,內存計算等方向持續更迭。而5G和物聯網應用的成熟,又將帶來海量視頻和物聯網數據,支持這些數據的處理也會是數據科學未來發展的方向之一。此外,於2018年5月生效的GDPR(《通用數據保護條例》)讓越來越多的用戶開始注重個人數據安全問題。隨著數據科學的發展,我們將繼續看到圍繞數據的隱私和安全協議的轉變,包括流程、法律以及建立和維護數據安全性和完整性的不同方法。如果網絡安全成為2020年的流行語,也不足為奇。



關於 DataHunter

DataHunter 是一家專業的數據分析和商業智能服務提供商

,註冊於2014年。團隊核心成員來自 IBM、Oracle、SAP 等知名公司,深耕大數據分析領域,具有十餘年豐富的企業服務經驗。

DataHunter 旗下核心產品智能數據分析平臺 Data Analytics、數據大屏設計配置工具 Data MAX 已在業內形成自己的獨特優勢,並在各行業積累了眾多標杆客戶和成功案例。

一文回顧近二十年數據科學領域的里程碑事件或突破性技術

成立以來,DataHunter就致力於為客戶提供實時、高效、智能的數據分析展示解決方案,幫助企業查看分析數據並改進業務,成為最值得信賴的數據業務公司。


分享到:


相關文章: