“算法”也有價值觀?

“算法”也有价值观?

文 | 金誠騰訊遊戲數據挖掘應用中心研究員

“算法到底有沒有價值觀?”這是近年來互聯網相關產業界、學術界均關心的問題。無論是一線的算法研發人員,還是從事法律研究、產品策劃、媒體報道等等方面工作的人,甚至是企業領導者,都會或多或少地會觸及這個問題。

作為解決特定問題的一種方法或工具,算法本身是中性的,並不存在價值觀的偏好問題。但是,當涉及到算法的編創者、給算法提供基礎數據養料的用戶以及算法的使用者時,這些鮮活的個體都持有各自價值觀,因而作為技術工具的算法也很難不加沾染。

如今,算法廣泛應用和影響日益深化,促使許多相關問題上升到社會問題的層面,“算法價值觀”話題的討論變得迫切且極具現實意義。

本文整理於“騰研識者第一期workshop”算法組的討論,一群對算法和算法治理感興趣的識者們針對相關問題各抒己見。在討論中,小組成員們首先儘可能客觀地談了對算法的認識、對算法生命力來源的思考,以及算法引發社會問題這一趨勢的必然性;然後,針對算法價值觀問題,成員圍繞算法的可解釋性與實用性的權衡以及算法的自我強化困境問題等提出了一些務實的解決思路。

——–

生命力強大的“生命體”

算法擁有漫長的歷史,當計算機的概念還完全沒影的時候,算法就已經被人們發明出來用以解決實際遇到的問題。例如,在公元前300多年的《幾何原本》中,古希臘數學家歐幾里得便記載了著名的“輾轉相除法”(又稱“歐幾里得”算法),用於求出兩個數的最大公約數。隨後在相當長的時間裡,算法一直是解決特定場景中特定問題的技術手段和工具。

隨著計算工具的出現,尤其是可編程運行機器的迭代發展,以編碼形式存在的計算程序開始在各種IT產品設備中運行,以自動化或半自動化的方式從人類手中承包了一些流程化、機械化的工作。由此,人們的工作方式發生改變、生產效率也大大提升;同時,一些高可替代、簡單重複的工種被取代,導致一部分人群的就業危機。

伴隨著互聯網和移動設備的普及,如今基於算法的服務也在潛移默化中滲透到工作生活的方方面面。以至於,當你在思考“附近有什麼好吃的”“到xxx怎麼走,是否堵車”,或者隨便刷刷新聞話題,刷臉刷指紋購物時……背後都有或簡單或複雜的算法在運行著並提供著服務。不同於人有限的精力和人腦儲量,手機app等應用工具可以同時採集所有用戶的數據並對全部用戶服務,可以對不同的用戶提供有區別的個性服務。經過長期的數據沉澱、算法和服務的革新優化,你的手機、你的app在某些方面確實會比你的好朋友、甚至你本人更瞭解你。而對不同人提供差異化的服務,也帶來了公平、隱私等隱藏危機。

如果我們把算法看作一種生命形式,那這種生命體具備異常強大的生命力。

首先,算法的核心思想具有普遍適用性,這保證算法可以有效解決實際問題,具備很強的實用價值和商業價值。例如對一堆節點進行打分排序的思想,就涉及到對網頁搜索結果、購買商品、歌曲、潛在優質股票、導航路線、住宿餐飲等多方面排序。雖然各領域具體打分評價的方法可能截然不同,但是它們在思想上有共通之處,甚至在解決的大框架上存在明顯的交叉借鑑和舉一反三。

而今,這種打分排序的思想也很自然地運用到了對個體或者人群的評價中,例如各種形形色色的個人信用分,就跟免押金特權以及其他諸多優質權益掛鉤。這項工作涉及到規則算法、人工參與的算法、預測算法、用戶建模以及多種方法的融合等等。

即便抵制算法應用對人的分層級評價,這也並不會阻止傳統人工方式或者其他替代方式對人進行打分評級。因為對人的評價這一想法和需求植根於人們的日常生活交往中,而且將算法應用於人的評估和提供個性化服務已經存在了相當長的時間,這一趨勢註定不可阻擋。

算法在具體場景下可以被針對性地迭代改進,進一步增強了其作用能力。不同算法之間還可以組合優化,產生出的新算法可以處理單一算法無法解決或者解決效果不佳的問題。

比如,在人機圍棋大戰中一戰成名的AlphaGo就綜合使用了線性模型、深度學習、強化學習、蒙特卡洛搜索等算法,這些算法已經存在並發展了數十年,但在組合優化之後成功超越了人類的圍棋水平,將原先預計短期內不可能完成的任務變成了可能。而後續升級版本的AlphaGo Zero,則拋棄人類對弈歷史經驗,並採用新強化學習算法,從而進化到以100:0的戰績擊敗它的前輩。算法在特定場景特定問題上演化的最終結果,完全可以拋棄人類已有的經驗、跳出人類探索決策的侷限,能夠在更廣闊的甚至全局範圍內給出更優的解決方案。

算法在計算機和IT技術發展的歷程中處於核心位置。1976年,圖靈獎得主、Pascal語言的發明人尼古拉斯·沃斯為他的書取名為《算法+數據結構=程序》,誠然,拋開各種應用場景下的數據結構,算法無疑是程序的核心。在現代計算機科學與技術的發展歷程中,幾乎每個領域厚重的教科書中都包含幾個核心算法,這也是這些領域的立身之本。某個革命性算法的提出,可能就代表著這個領域的不同發展階段、發展成果,甚至可能是奠定一個新領域、新學科的基石。在計算機和IT技術飛速發展的同時,算法也在各個領域中開疆拓土、紮根生長,發揮著核心作用。

算法的中立性與問題產生的必然性

由於以上種種原因,算法的能力愈發強大,其作用範圍也逐漸突破基本的工程應用功能或者與人無關的客觀問題,並不可避免地延伸到與人相關的非客觀問題和社會問題中。可以說,算法引發社會性問題,是算法發展過程中必然會經歷的。

於是,我們可以看到:算法給用戶推薦的信息內容,例如新聞的標題、內容、圖片、評論、點贊數等等會左右用戶的情緒思想,甚至改變用戶的觀點;算法給用戶推薦的商品,尤其是商品的圖片、標價、廣告語、排列順序等等,會影響用戶的購買習慣和消費行為,甚至購買的形式,或者從什麼渠道獲取到購買信息都會影響用戶的行為決策。

在這些場景中,算法可能僅僅是從優化業務的角度出發,但帶來的客觀結果是在概率上大幅影響了用戶的觀點和行為。在理性狀態和警覺狀態下,個體或許會辯證看待外界信息,儘量做出獨立決策;但當生活的方方面面都有算法在運行,不受算法影響成為一件困難的事情。進一步而言,在日常使用的手機APP中,可能存在多種算法的應用場景,這些算法長期高頻率的使用對大規模使用者造成的影響,本身已經深刻作用到相關群體組織的運作方式、管理規定、倫理道德等諸多方面。 近年來,我們能夠看到一些看似中立的算法實際上在務實作惡,它們出發點可能顯得人畜無害,卻在客觀上造成了社會的不公、對人群的歧視。

比如,使用先進圖像識別技術的某公司曾經陷入種族歧視的指責,因為搜索引擎會將黑種人打上“猩猩”的標籤。再如,當公司收到大量招聘簡歷以至於來不及進行人工審核時,採用算法對應聘者的簡歷進行初步篩選,這會讓一批人僅僅因為算法判定為不合適就直接失去應聘資格。在這些例子中,算法在行使篩選的權力,這跟以往的篩選方式有了本質區別。

歸結起來,這類事件的責任一方面是算法識別性能有侷限,無法覆蓋所有數據樣本;另一方面,公司的道德監管部門無法對每個產品的細節效果都做到倫理道德的全面覆蓋。

通過以上的簡單回顧和總結,我們深刻意識到算法和工具本身在演化發展時,一直是中性的,無所謂正向或負向的價值觀。但是當算法跟商業利益掛鉤,或者被用於與人相關的應用場景時,算法的社會問題就會凸顯出來,並且不可迴避。

《人工智能與算法治理研究》一文指出,算法治理的風險與挑戰相關的議題集中表現為不可解釋隱憂、自我強化困境與主體性難題三個方面。其中,不可解釋隱憂涉及到算法黑箱、不可監督、難以追責等議題;自我強化困境聚焦算法因依賴大數據學習過程而可能出現的固化、偏差、歧視等治理議題;主體性難題則涉及算法作為人類社會運行規則而在一定應用場景下替代人類行為所引發的治理議題。

由此可見,算法治理的相關議題,本質上是算法與人類價值觀之間的問題。由於第三個議題是技術普遍涉及的議題,本文的討論更關注前兩個側重算法的問題,並從算法研發人員和算法治理工作者的角度,提出了一些務實的解決思路。

算法治理:實用性、可解釋性以及問責與監管

從算法編寫者、實現者的角度,算法作為某個問題的解決方案,天然注重實用性。正如黑貓白貓理論,不管是A算法還是B算法,只能要實際解決問題、改進業務的,就是好算法。在解決特定問題、與對人的評價完全無關的許多領域,算法完全可以主要關注實用性、不刻意追求可解釋性。如果對一個客觀技術問題的解決方案,涉及太多的監管、問責,反而是一件不利於技術快速進步和創新實踐的方式。

另外,在可解釋性方面,近年來火爆的深度學習算法,本身確實像一個黑盒子,對這個黑盒子在數學層面的解釋超出了人類目前的理解能力。從最開始給算法提供一批數據、訓練它,再到做出決策,輸出結果,期間算法到底如何運作,就連調用算法的人也很難明確知曉,甚至用數學的語言解釋清楚也十分費力,更不用說用人能夠理解的方法去理解它。試圖從數學和理論的角度來解釋黑盒子是一件困難的事情,但是在實際應用中,黑盒子裡得到的穩定參數是可以被抽取出來,並變成規則。這些穩定的參數可以用於部分解釋算法運算的結果、甚至可以在其他相關問題中提供支持。

但是當算法被應用於評價人本身、對人進行打分或分類時,關係到一個人切身利益,這就需要算法本身有更好的泛化能力,同時需要相對完善的問責體系、監督機制和反饋機制,能夠為及時糾偏提供保障。

以貸款為例,當算法對你進行了評估,認為你貸款之後欠債不還的風險很高,信用額度有問題。但有時候,你可能真的需要一筆未必高額的貸款,來做一件很重要的事情(比如看病),但因為無法申請到貸款,錯過了最佳治療時間。此時當事人有權來向算法問責,但作為算法的開發者或者調用者,他們在開發算法時並沒有針對這位當事人,這僅僅是算法採用的標註數據和迭代計算的結果。當事人需要為了維護自己的權益去問責,但這到底是算法的責任還是當事人自己的責任?在整個過程中,算法是中性的、當事人也是無辜的,整個事件帶來的影響卻是負面的。

算法帶來的影響和問責問題是一件令人頭疼的事情。我們再來探討:對算法的問責取決於是算法本身的問題,還是算法在應用中的問題;進一步明確問責的對象和責任。

問責是結果導向性的工作、是暴露問題後的補救措施,與之相對的監管是一個預防性的工作。從監管角度來看,可以從規則(rule)、限制(restriction)和控制(manipulation)三個層面來起到監督預防的作用。歐盟出臺的《通用數據保護條例》(GDPR),便從規則規定的角度,嚴格把控用戶數據的採集和數據挖掘、算法應用的規範。而在限制層上,一些設備就被嚴格限制,僅允許對符合條件的人群使用。這一思路也可用於約束各個算法的作用範圍,即並非面向所有用戶人群,而是某個算法只可以針對特定群體、特定場景使用,不可隨意濫用。另外,算法的監管,會在一定程度上限制算法的應用廣度和應用深度,綜合採用不同程度的監管控制手段,如政府監管、行業監管等,可以兼顧抑制算法的負面影響和促進算法的創新發展。

算法困境:自我強化、歧視以及信息繭房

自我意識強化、歧視和信息繭房……這些是人類本身存在的問題,卻能夠反饋到算法的效果中,對算法使用者造成影響。

舉一個很典型的例子:推薦歌曲列表。當你打開一個網頁,看到十多首歌曲以及它們已有的收聽數,假設你事先對這些歌曲沒什麼瞭解,那你會點開哪首歌?對此,有學者進行過一個對比實驗:在面對陌生歌曲時,大多數參與者更傾向於聽取已收聽數更多的歌曲,也就是“隨大流”。然而,假設初始時這些歌曲的收聽數並不是真的,實驗人群依然會大概率選擇收聽數高的歌曲,並促使這些歌曲的收聽數變得更高。後者是在社會影響下,人類的意識和行為的錯誤強化。

這種複製並延續當前狀態既有格局與特徵的現象,也同樣出現在帶標籤信息的算法中,一個鮮明的例子是企業招聘。當前企業界實際應用的算法大多采用了歷史記錄的數據,假如在企業歷史記錄中,男生更加偏向研發、工程的崗位,女生更加偏向人力資源、財經類的職業,那基於這些歷史數據運行的算法很可能得出女性更加適合做同類崗位,卻很難得出新的、不存在於歷史記錄中的結論。當然,當你意識到需要兼顧性別公平,在向算法提供特徵時不考慮性別項的區別,那算法興許會給出相對緩和些的結果。

歸結而言,算法並非真正理解標註信息的含義,但是它會嘗試最大化的挖掘已知數據和未標註數據之間的相關性和差異性,從而做到最大程度的數據劃分、數據擬合(注:這裡的算法特指監督學習方法。基於帶標籤數據的學習方法,至少目前依然是企業中普遍使用的主要算法)。即便未標註的數據具備新型特徵,算法依然會讓數據向已知標註映射,也就是說,算法並不鼓勵創新和異類。進一步,如果算法在強化早期採用的數據本身有問題,那麼它基於此強化推理的結果也是存疑的。如果這種算法和推論被濫用到其他方面,進行後續決策分析,則會帶來連鎖的負面反應。

在自我強化困境方面,除了延伸出算法歧視的問題,另一個頗受關注的話題是信息繭房。與算法歧視不同,信息繭房是一個很早就受到學界廣泛關注並被著力改進的問題。然而,單純依靠算法並不能很好地解決這一問題,因為人們對待信息有自己的偏好,這是客觀事實。即便許多公司已經意識到推薦結果的局部極化和乏味,並給出結合多種推薦算法融合以及提供多樣化內容的方式來克服此問題,但用戶在下意識刷信息時,還是會只關心讓自己愉悅的信息。

另一方面,內容的提供方樂此不疲地利用犀利標題、亮點詞彙、奪目圖片還有獵奇內容等來誘導用戶點擊、瀏覽。這些用戶行為數據又反過來惡化了算法的推薦質量,使得更具誘導性的內容、讓用戶停留時間更長的內容更容易被推出,而其他品質更高的內容則缺乏競爭力、受到排擠出局。這是用戶選擇和算法優化共同作用的結果,卻也是一個對用戶、對平臺、對內容生產者都不利的結果。

在應對算法的自我強化問題時,微信“看一看”給出了一個新穎的解決思路。微信在“看一看”中加入了“在看”入口,“在看”的內容為用戶通過點擊的方式,推薦給其好友觀看的內容。這類信息得到了朋友的推薦、好友的一層信息過濾,又得到了好友的信用背書,雖然未必是用戶感興趣的內容,卻在內容質量上與用戶的思想境界更加匹配。此外,這種社交推薦和算法推薦的反饋結果其實還可以進行協作、互為補充,通過社交推薦用戶感興趣的內容,對純算法推薦的方法進行訓練數據質量的優化,也可減弱後者效果的強化現象。因此,微信在“看一看”中的嘗試表明,純算法推薦下的強化侷限,可以採用本質截然不同的社交推薦的方式來糾偏。這既是業務上的探索嘗試,亦是科技向善、在幕後辛勤工作的從業者正向價值觀的體現。

當然,社交推薦方式的介入,在解決算法自我強化的同時,也帶來了用戶體驗上的其他一些爭議,但是它的大方向和策略無疑是清晰、新穎且有效的。此外,在近年來大數據與人工智能算法狂熱且壓倒性的浪潮聲中,採用並非人工智能的技術、甚至談不上算法的方式來化解算法自我強化、提升用戶體驗,這一行動本身就已足夠。

(騰研識者第一期workshop算法組成員:金誠騰訊IEG數據挖掘中心研究員;嶽亞丁騰訊公司專家研究員、深圳市科技專家委員會委員、海南省信息化專家諮詢委員會委員;趙蕾法學博士、華南農業大學副教授、美國聯邦司法中心國際研究員;李一凡騰訊QQ音樂商業智能組高級工程師、博士;宋曉芸騰訊CDG創新業務產品中心高級產品經理;沈念祖騰訊研究院高級研究員;餘潛倩騰訊研究院研究員。本文編輯王煥超

騰訊研究院助理研究員。)


分享到:


相關文章: