美國已死,歐洲苟活,消失的人工智能 “法外之地”

美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品



美國首都華盛頓特區,國會山莊北部。一陣笑聲,從玻璃窗裡傳出。窗外晴空萬里、綠野滿坡,圓柱式門廊氣勢恢宏……


世界頂級立法機構的辦公環境,果然宜人。

這一切,對於40歲就坐到參議院辦公桌前的霍利(Josh Hawley)來說,他的黃金歲月才剛剛開始。

2019年,分水嶺。

此前,他是美國密蘇里州第42任司法部長。

此後,他是美國國會參議員。

作為一個每天都在上演“提案如何變成法律”的立法機構,美國國會的關鍵詞本該是“莊嚴”。然而,國會卻頻繁“做客”美國脫口秀演播間。


很多年前,馬克·吐溫講出了實話:“這是一群‘土生土長的犯罪團伙’”。

美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品

而霍利在同僚中,保持著一項幸運的記錄——本屆美國參議院最年輕的議員。

對於政治家來說,年輕與激進都是優勢。川建國擁有後者。霍利,兩者兼具。

上任不久,他迅速成為共和黨在科技產業問題上最響亮的聲音。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品

東邊日出,西邊雨。

一種濃烈的自豪感,正在“抖音在國外有多火?”話題的帶動下升騰。

無數掌聲,正在送給頭條系產品——抖音面向中國以外市場的TikTok。

政客高亢激昂的演講、TikTok節奏強勁的短視頻,就像“含笑半步癲”,是洗腦、居家、旅遊的必備良藥。

而今,在美國,它們混淆在一起,成了一種不和諧的背景音。


北京時間3月5日凌晨,華盛頓特區,一場美國國會參議院的聽證會,正圍繞用戶數據安全、隱私問題展開。霍利議員揮舞起旗幟,在個人主頁用加粗字體寫下大大的標題:TikTok是“危險的夥伴”。

美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


霍利早都準備好了。

他自信滿滿地坐在聽證會的皮椅上,卻久久未等到兩位主角到場。

一則快報的標題是《TikTok和蘋果,兩公司雙雙缺席聽證會》。

霍利坐在椅子上回憶,這是TikTok第二次拒絕參加聽證會。

上次是2019年11月。

霍利能高興嘛?雖然他知道自己這樣做也只是為了吸引媒體注意,但是沒有配合的演出,就是大寫的尷尬。

“拒絕參演”後的整整一個月,TikTok都沒有閒著,2019年12月趕緊發佈了上半年《透明報告》,雖然內容不長,只有5頁,但態度還是優秀的。Facebook自2013年起,也會定期發佈。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品

一面,霍利等國會參議員已經開啟團隊作戰模式,加入的參議員越來越多。

一面,TikTok呢,越來越爭氣。

在美國已下載超過1.23億次。

在每月5億活躍用戶中,有2650萬來自美國。

約有60%在16至24歲之間。

在不到18個月的時間裡,美國成人TikTok用戶數量增長了5.5倍。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


議員們一邊開會討論,一邊看著TikTok增長曲線往會議室天花板上竄。

霍利站立起來,說出他的好主意:

懷疑TikTok上傳的短視頻可能會洩露美軍的秘密,對於美國能夠接觸到敏感的國家安全信息的人,禁止在政府設備上安裝TikTok。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


公務員管公務員,沒毛病。

在聽證會後,TikTok覺得此事得當面解釋清楚,表示:

“(我們)最近與幾位國會議員取得了聯繫,(大家)有興趣在不久的將來見面。”

除了可能的約咖啡、約飯之外,TikTok也絞盡腦汁。比如,計劃建立一個“透明中心”,允許外部專家查看公司團隊如何管理短視頻內容。

據說,位於美國洛杉磯,將於2020年5月開放,共享源代碼和公開獨立安全措施。

這裡的工作令人嚮往,每天都看各種有趣的短視頻,像極了很多人疫情期間每天躺在床上的銷魂姿勢。不用愧疚,大家都中了毒,用戶平均每天在TikTok上花費52分鐘。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品

為了證明產品“無毒”,讓美國用戶“吃”得放心,TikTok快馬加鞭複製出西貝莜麵村同款透明廚房。

聽證會上的一切發言,都是要宣誓的。懷疑、質疑、傳聞,都可以讓美國立法機構採取一定程度的行動,而不限於事後懲罰。美國立法機構質疑TikTok產品層面的數據收取、保存路徑。

誰能想到,TikTok會和數據洩露界的“犯罪之王”臉書公司相提並論,同樣成為討論數據安全、隱私問題的焦點。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品

傳說中的TikTok(美國加州辦公室)


TikTok背過臉,輕輕拭去臉上的淚水,有些眼淚是因違反美國兒童隱私法,被罰了幾百萬美金而流下的。

華盛頓夜未眠,立法爭論永不休。

這只是一道坎而已,九九八十一難在後面排隊拿號。

2020年3月6日。

聽證會的第二天,TikTok有了首位首席信息安全官Roland Cloutier,他也是一位網絡安全專家,向抖音負責人朱駿(Alex ZHU)彙報。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


這一消息,霍利也注意到了。

中國互聯網公司全球化的阻力好比颱風天黑壓壓的烏雲,有一朵,始終是數據安全和用戶隱私。

東邊日出,西邊雨。

美國國會立法調查好比“鷹眼”,歐盟《一般數據保護條例》(GDPR)好比“鷹爪”。為保護數據,GDPR已經織起了天羅地網。一項強制性法律,保護的是自然人的“個人數據”,包括姓名、生日、信用卡、地址、病史、位置信息、行蹤軌跡……

這個條例對AI技術的約束是從搖籃到墓地。“搖籃”是指,一開始獲得授權,得用戶點擊“同意”;而“墓地”就是,數據用完了也不能存太久,還得抓緊時間刪除。

《三國殺》裡的曹丕說:“管殺,還得管埋”。

簡單講,數據是情報,是生產資料,AI技術極度依賴數據。沒有汽油,勞斯萊斯再昂貴也只能觀賞,無法行駛。缺了數據,再先進的AI也只能人工,無法智能。

所以,法例的約束會貫穿AI產品整個生命週期。窒息的高牆下,只留“合規”這個窄門,門後是歐盟市場5億發達人口。

歐洲高度注重隱私和數據保護,這是文化。

第二次世界大戰期間,歐洲建立了詳細完備的個人數據庫。結果,被納粹用來清洗猶太人和迫害反納粹人士。

歐洲600萬猶太人的冤魂不散,致使很多歐洲人終身堅信,無論是出於何種目的,個人信息到後來一定會被濫用。

耶路撒冷灰暗的混凝土牆壁、靜默的白色馬安石地面、英文和希伯來文悼詞,沒有人再去打擾這份寧靜。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品

二戰結束五十年後,GDPR的親大哥《95指令》出生(1995年)。2009年,親二哥《歐洲Cookie指令》出生。你別誤以為GDPR是一個人在衝鋒。不,這是一家子在戰鬥(Cookie是互聯網常用的用戶跟蹤和識別技術)。

程序員開玩笑會說:

“數據和女友不能分享。”

歐洲程序員再加一句話:

“這是法律規定。”

歐盟高管表態:“我們歐盟委員會(的人),並不反對來自大西洋彼岸的科技巨頭,但是前提是,他們必須守規矩。”

美國互聯網企業享受了全球化最好的一輪紅利,俯仰之間,王公貴胄、皇親國戚都難逃一考。

加試題目是:數據安全與用戶隱私保護。

東邊日出,西邊雨。

TikTok是AI技術領域的“貴族”,有著領先行業完整的現代化推薦系統(含推薦算法、訓練平臺、後端架構的推薦系統技術棧),建設有大規模分佈式實時機器學習訓練平臺和分佈式高性能Parameter server平臺。

海量短視頻數據,“化作”充足的生產資料,使TikTok有能力探索最新機器學習算法落地。

TikTok在用AI算法改造自身業務的路上從來不遲到。甚至有外媒總結:“截至2020年,TikTok已成為全球最受歡迎的應用程序之一(至少對於某些年齡以下的用戶而言),其成功由一些世界上最先進的AI技術推動。”

一位曾經就職於小槳科技(產品,微叭App)的視頻推薦算法工程師告訴我:“推薦算法(的結果)要看留存率、點擊率、活躍時長、播放時長,(公司)直接考核業務指標。不達標會被產品經理錘死。”

機器無電不休,算法日夜不眠,算法工程師在“拼命”,背後站著熬紅了眼的產品經理。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


AI早已應用於挽回用戶流失等功能。

產品經理一邊唱著“愛我,別走……”,

一邊伸出胳膊指揮:“再次對用戶投放廣告,精準挽留。”

“你的偏好,我知道。”用戶每一次上翻、下滑、點贊,都是一份《產品改進意見書》,背後還有今日頭條 AI lab 的支持。


AI技術滲透的力量,摧枯拉朽。一個沒有智能算法的TikTok,已經不可想象。

東邊日出,西邊雨。

GDPR的餘音迴響,歐洲版的營業執照,一照難求。

2020年,當你打開GDPR認證的網站,可以看到許多站張熟悉的中國面孔,華為、小米、OPPO、美的、第四範式。OPPO進軍歐洲市場,其認證的產品種類之多,居然包括了計算器(Calculator)和鐘錶(Clock)。


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品

李鴻章在給同治皇帝的奏摺上寫下,“三千年未有之大變局”。

變局已成定勢,做好思想準備和工作準備。


美國已死,歐洲苟活,人工智能法外之地會一寸一寸消失。

來者,需要擁抱高牆、窄門。

擁抱合規、限制、約束。

擁抱枷鎖、腳銬、鐵鏈。

將思考的維度上升到管理與合規,滲透在技術思考之中,包括在框架之內,體現在解決方案裡。而不是繞著它走。繞也繞不開。

這些,要看企業是否願意付出額外努力。

第四範式創始人兼CEO戴文淵的答案是:我願意。

戴文淵,總是講話溫和,語速平緩,但是一旦你給他拋出問題,就能感受到清晰、縝密的思考力。

他說:“從技術手段上講,保護隱私和數據安全是有辦法的。不是沒有辦法,而是說,想不想解決?願意花多大的代價去解決?”戴文淵似乎沒有對GDPR低頭。

他輕描淡寫地提了一句,“第四範式的先知平臺,已經是國內首個通過GDPR認證AI平臺”,這一句更是增添了上一句話的底氣。

突然想起香港應用科學研究院的一位博士也說過類似的觀點:“技術上翻越肯定是可以做到的,只是很多時候不願做,或者懶得做。”

業界有一個聲音:

機器學習是一個有難度的技術,是“難度一次方”。

機器學習想落地,變成“難度二次方”。

再解決隱私保護問題,這又是一個很有難度的問題,變成“難度三次方”。

解決這些技術問題,專家不是一般的專家,既要懂機器學習技術,又得懂隱私保護技術,還得懂業務。要求是非常高的。

用金庸的話說,練成易筋經,需體質強。練成乾坤大挪移,需內力高。練成獨孤九劍,需資質慧。想成為攻克“難度三次方”的專家,需能運用多種武功入化境。南帝北丐很難批量培養。望眼整個武林,還好有一代宗師。

一代宗師可能會說:

“解決好隱私保護問題,看上去是一個技術問題,實際上是,人工智能的從業者要有一種思維的變革意識。將對文化、制度、法律等“社會因素”的思考融入代碼、模型、架構、解決方案……”

第四範式主任科學家塗威威告訴我:

“隱私保護作為一個學術問題已經走了很長一段路了,較早之前的需求來源於企業自我保護。個人關心隱私,企業關心的是商業機密。”

塗威威用兩句話概括了隱私保護技術的昨天,繼而又談起它的現在。

他總結到:

“隱私保護就是一個矛與盾相爭的過程,大家都研究又會出現哪些新的攻擊手段,又有什麼方法可以保護。”

“隱私保護會涉及到非常多種類的技術,有底層的,也有最近幾年才奠定起基礎的。涉及的技術種類多,不是為了賣弄技藝,而是面對的情況複雜。”

拳守“數據安全”,腳護“隱私保護”。

易筋經、乾坤大挪移、獨孤九劍,演變成“差分隱私算法”“安全多方計算”“自動多方機器學習技術”“聯邦學習”。

當細數起這些“厲害的”技術,塗威威的語速加快,彷彿不需思考。

“根據不同場景,有時可能是允許數據出去的,可以通過加密的方式出去,運出去的過程中別人是沒有辦法知道的,因為是加密的,這裡參考圖靈獎獲得者姚期智老師的思想,用安全多方計算。

有時可能是不允許數據出去,出去的只是一些統計結果或者模型,這裡參考香港科技大學楊強教授的聯邦學習技術。”

香港科技大學楊強教授曾說:

“聯邦學習希望在不共享數據的前提下,利用雙方的數據實現模型增長。”

他曾舉例:

“假設A和B兩家公司想要建立一個用戶畫像模型,其中部分用戶是重合的。聯邦學習的做法是,首先通過加密交換的手段,建立用戶的識別符(identifier)找出共有的部分用戶。

因為關鍵用戶信息並沒有得到交換,交換的只是共有的識別符。再將各自擁有的同樣用戶的不同特徵輸入,迭代地進行模型訓練、參數交換。

我們證明了給定模型參數,雙方不能互相反推出對方擁有的、自己沒有的特徵,因此用戶隱私仍然得到了保護,雙方的模型性能都得到了提高。”

姚期智院士、楊強教授……宗師們總有無上智慧。

“為什麼第四範式會做隱私保護技術?”

塗威威的答案是:

“第四範式作為一家創業公司,初始做隱私保護技術是出於一群有理想的年輕人的前瞻性預判。一種來自技術本能的預判,數據孤島遲早要打破,當打破發生之時,這個技術成為必備品,只靠‘解決信任’路途尚遠。”

然而,現實的磨礪很快降臨在向理想前進的路上。

塗威威說,我們的“一隻腳”伸入到了金融,為什麼是金融,因為金融的數據是最完備的,我們的技術是在數據之上做決策,必然選最完備的行業。

“一隻腳”後,金融、醫療行業對隱私保護的需求推動了技術的另一輪發展。比如,第四範式經常參與銀行競標,《招標書》裡,絕不會少了數據安全性條款。

塗威威在以往的《銀行招標書》中劃好了重點,並指給我看。

“隱私數據保護技術,蘋果、谷歌都在用,谷歌早在2016年就提出了本地化差分隱私(Local Differential Privacy)技術,併成熟應用在產品數據採集階段,第四範式的優勢在哪?”

塗威威越談越從容,帶壓力的問題也難不倒他。

他說:

“第四範式也提出應用在機器學習模型上的差分隱私技術,我們將訓練數據按特徵切開,並分別去訓練,按特徵重要性來進行隱私預算的分配,重要的特徵分配較少的隱私預算,不太重要的特徵則分配較多的隱私預算,從而保證了在相同隱私保護的條件下,獲得更加有效的分析結果。”

塗威威的回答,就好像準備了答案,細節中處處都有巧思,無法容下不滿意的蛛絲馬跡。

話聲未落,他就在草稿紙上手寫了一篇學術論文的題目《Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction》。

論文只是在工業界解決問題時的“副產品”,他想把榮譽感寫在產品上。

他介紹,在公司的算法實驗室裡完成工作後,其實還有兩個重點,一個是自動化,一個是場景。

他談道:

“隱私保護,如同加密,解密。暴露的中間過程越多,洩露隱私的可能性越大。比如,AutoML(自動機器學習)之所以能夠減少隱私的洩露,其實就是減少了人觸碰數據的機會,減少人去分析特徵,減少人在各個環節洩露隱私的可能。讓機器去完成中間的過程,最後輸出結果。自動多方機器學習就是隱私保護的自動機器學習,中間的過程全部是自動化完成的。”

他的答案中,技術細節多,觀點少,唯有這句:“算法的未來就是自動化,不能自動化的算法,剩下的路也不長了。”

餘音未盡,尚在繞樑。

場景落地又是另一場硬仗。他壓低聲音說了一句:


“如果不是瑞金醫院的瑞寧知糖項目(預測三年後患糖尿病的概率以及個性化的干預),醫療算法團隊都要穩不住了。”

創新,有時候就是下了一步險棋。

塗威威和也和我講了“作弊”的辦法:

“從某種角度講,成本最低、效率最高的方式是侵犯隱私。”

美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


好比打撲克偷看別人手裡的牌。如果全世界艾滋病藥廠知道了患有艾滋病人的家庭住址,就不需要打廣告了,直奔病人家,挨家挨戶兜售不就完了。

廣告費都省下了。


別人披荊斬棘,你通過踐踏個體隱私直接抄了近路。


法律會讓你一直痛快下去嗎?

企業選擇用技術保護隱私時,其實是選擇了一條“刀光劍影”的路。說不定就會像塗威威一樣,沒有好的落地場景,變成“光桿”。

觀察發現,不少企業也在“研製隱私保護的秘訣”。由於金融行業是數據界的富豪,聯邦學習技術被用於中國首家互聯網銀行——微眾銀行。微眾銀行也在推動“聯邦學習”的標準。

從某種意義上講,這是一份全球領先的標準。聯邦學習作為隱私保護的代表技術,並沒有被歐美大廠壟斷。


在隱私保護的江湖裡,中國人工智能從業者並不甘心屈服於國外標準。

招商金科(招商銀行下屬金融科技公司)一位不願意透露姓名的研發高管告訴我,他們也參與了“聯邦學習”第二版標準的制定,但不便於接受採訪。

“京東集團也在使用聯邦學習保護數據隱私。”京東大數據研究院首席數據官劉暉告訴我。

東邊日出,西邊雨。

流量、廣告、品牌……的老故事,已經翻篇。中國互聯網企業想變成全球互聯網企業,光靠突破Facebook、Google、Amazon的防線,已經不夠了。企業的戰場向四面八方延伸,“法外之地”正在消失。


在別人看來絕望的事情,“創新者”與“創造者”總能從中找到希望。


《親愛的數據》出品

(完)


美國已死,歐洲苟活,消失的人工智能 “法外之地”

《親愛的數據》出品


分享到:


相關文章: