「數據饑荒」之後,人工智能的未來在哪裡?

「數據饑荒」之後,人工智能的未來在哪裡?

來源/Medium

聯邦學習聯邦學習是一種新興的人工智能基礎技術, 2016 年由谷歌最先提出,原本用於解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。

1956年,人工智能第一次被視為學術學科進行研究和探索。

到今天為止,儘管已經過去了60餘年,但它仍處於起步階段。與其他學科相比,未來的道路崎嶇不平,這主要是由道德倫理和數據可用性的挑戰造成的。

命運多舛的AI

自誕生以來,人工智能經歷了三大突破點和兩個停滯期。

它最近一次被大眾關注,是在2016年。彼時,Alpha Go成功擊敗了世界排名第一的圍棋選手,這被看作是人工智能一次

「里程碑式的勝利」

正如許多新興技術那樣,每當它們出現成就巨大的飛躍時,人們都會對它帶來的社會變革和倫理問題進行大量的審視和關注。最終,人工智能的部分應用在公眾中引起了高度爭議,並從而進入了“幻滅的低谷”。

為什麼人工智能在發展60多年後,爭議仍然如此巨大?

「數據饑荒」之後,人工智能的未來在哪裡?

事實證明,大眾對於人工智能的「期望」和它當前的「現實」之間有很大的差距。真正能夠運用人工智能技術的場景仍然極度稀少,而且經常集中在非常特殊的案例上。想要走向主流,人工智能還有很長的路要走。

由於我們在這個領域並不缺乏遠見,我們看到了懷疑人工智能今天能真正完成什麼的信號。現在,在人工智能第三次崛起的末期,這個新興領域的命運仍然不確定。

凜冬已至

很大程度上,人工智能的興起是由大數據的可用性推動的。

大數據推動了面部識別、營銷推廣等許多領域深度學習的發展,這一度被視為人工智能浪潮的主要突破之一。

但在疾病診斷等更復雜的領域,深度學習仍然面臨著企業和機構之間巨大鴻溝的挑戰,一個最主要的問題就是數據的可訪問性。

從整體角度來看,數據是可用的,但有幾個原因是不可評估的。一個常見的問題是數據存儲在孤島中,這些孤島通常是公司內部網絡甚至公司內部物理隔離的結果;另一個突出的問題則是數據結構不兼容,格式不夠統一,接收方無法拿來直接使用。

「數據饑荒」之後,人工智能的未來在哪裡?

結局是,沒有集中的數據中心,通過深度學習機制進行訓練。以往,基於「雲」的計算通常被認為是數據孤島問題的潛在解決方案,但事實證明,對於大量數據來說,這一過程既昂貴又耗時。

此外,還有越來越嚴格的數據隱私法規,例如GDPR(General Data Protection Regulation)。

雖然這些政策對於保護消費者隱私很重要,但它們也對數據的使用施加了嚴重的限制,從而間接影響了人工智能應用程序未來發展的新方向。

破局的希望

消費者保護措施和數據隱私是不可協商的,也是建立必要信任的底線。但在另一方面,它也帶來了數據饑荒和人工智能增長放緩的風險。

「聯邦學習」(Federated Learning)這一人工智能新方法的提出,有可能給行業帶來下一個重大突破,進而克服這波浪潮中的數據隱私和信任挑戰。

聯邦學習是一個機器學習框架,它允許用戶使用分佈在不同位置的多個數據集來訓練機器學習模型,同時防止數據洩露並遵守嚴格的數據隱私法規。實際上,根據數據的分佈特徵,聯合學習有三個主要類別。

橫向聯邦學習(Horizontal federated learning )根據特徵劃分數據集,通常在特徵重疊多於用戶的情況下實現。

例如,在不同地區運營的三家物流公司可能會保留其消費者的類似數據,但消費者之間的重疊相對較小。因為他們的特徵幾乎相同,所以可以提取具有相同特徵的用戶來訓練模型。

但當多個數據集有很大的用戶重疊但有不同的特徵時,通常使用縱向聯邦學習(Vertical federated learning)。

比如,一家外賣配送機構和在同一地區的醫院可能擁有相似的用戶群,但會跟蹤彼此之間的不同信息。醫院跟蹤健康數據,而外賣配送機構則跟蹤用戶瀏覽習慣和購買數據等信息。縱向聯合學習集合了所有的特性,能夠為雙方合作構建一個模型。

當數據集的用戶和特徵之間幾乎沒有重疊時,可以使用聯邦轉移學習(Federated transfer learning)來避免數據或標籤的缺乏。

以中國的製造商和美國的物流提供商為例,由於雙方在地理上都受到限制,用戶之間幾乎沒有重疊。由於它們是不同類型的機構,所以它們的特徵也幾乎沒有重疊。

在這種情況下,聯邦遷移學習就可以與聯邦學習結合使用,以提高模型的整體性能。

儘管聯邦學習在技術層面已經得以實現,但僅靠有效的框架仍不足以完全應對挑戰。

聯邦學習必須開發成商業應用程序,為特定行業提供靈活、互惠的商業模式。通過跨不同機構,聚集多個孤立的數據集,聯邦學習使得開發一個理想模型的夢想正成為可能,還避開了侵犯個人隱私的可能。

簡而言之,這是一種新型的「數據共享經濟」,它通過使用多個利益相關方的數據來訓練算法。數據持有者通過共享數據資源受益,而應用程序提供商則通過提供服務而受益。

「數據饑荒」之後,人工智能的未來在哪裡?


分享到:


相關文章: