連鐵桿支持者都“反水”了!AI的偏見是無法扭轉的悲劇

連鐵桿支持者都“反水”了!AI的偏見是無法扭轉的悲劇

人們常常調侃,網購的初衷是為了省錢,結果卻越花越多。這種事如果只發生在個別群體的日常生活中,還可以當作笑話看待。但如果發生在被視為未來的技術身上,而且還和社會管理制度相結合,那無疑就是悲劇了。

如今,這一情況正出現在AI技術上。

在美國,如果你在新澤西州犯了事,法官在決定把你是否送進監獄時,除了要從案件本身進行判斷,還需權衡的一個重要因素:一種叫做PSA的算法的結果。這種算法會估計你這次犯罪之後,犯下其他罪行的可能性有多大。

新澤西州在2014年通過了算法風險評估制度,其中部分原因是因為審前司法研究所(PJI)的遊說。這個相當有影響力的非政府組織多年來一直鼓吹使用算法代替現金保釋制度,並希望將其推廣到全美。

然而,就在這個月,PJI突然口風大變。他們早前在網上發佈了一份聲明,一改之前的觀點,稱自己以前提倡的風險評估工具在審前司法中是沒有立足之地的,因為它們根本沒能扭轉司法審判中的種族歧視現象。

PJI的執行合夥人特尼勒·帕特森(Tenille Patterson)表示:"我們看到,在使用這些工具的司法管轄區,雖然監獄裡的人減少了,但具體到各種族時,不僅看不到差距縮小,在某些情況下甚至在增加。”

新澤西州是其中的典型。去年公佈的州數據顯示,在2017年取消現金保釋和引入PSA算法的變革之後,監獄人口幾乎減少了一半。但是,被關在監獄裡的被告的人口結構基本保持不變:大約50%是黑人,30%是白人。

PJI從風險評估算法的擁護者轉向反對者可以說是一個關鍵性的事件,這反映了業界對算法在刑事司法和其他領域中應用的擔憂日益增長。

在去年7月的一封公開信中,27位知名學者聯名建議廢除審前風險評估。研究人員說,這些工具是建立在反映治安、指控和司法裁決的大數據上的,而這些現有的數據本身就存在種族歧視因素。"這些問題不能用技術修復來解決,"他們說。

隨著AI應用實踐的增加,算法的偏見日益受到重視。除了新澤西州,上個月,基於同樣的擔憂,俄亥俄州最高法院從一份擬議中的保釋改革名單中刪除了採用風險評估工具的建議。

去年12月,馬薩諸塞州的一個委員會否決了該州保釋改革報告中的風險評估工具,並列舉了潛在的種族偏見。

除了保釋系統,批評人士還指出多個領域內人們盲目相信算法的現象,比如面部識別,許多算法在有色人種方面存在更高的錯誤率;醫療保健方面,有證據證明,美國流行的護理管理系統會把黑人病人推到排隊的末尾;在網絡審核方面,算法也被指控放大陰謀論和仇恨言論。

讓人更加難以接受的是,對於AI這種被視為“未來”的技術而言,上述問題可能是無法解決的。

過去人們常常簡單地認為,AI的偏見可能來源於算法工程師將自身偏見無意識地帶入。但事實是,AI的偏見潛藏在更根深蒂固的細枝末節中。

整體上看,可以把AI偏見的形成界定為3個關鍵階段:

一、界定問題。

計算機科學家們在編寫出一種新的深度學習算法後,要做的第一件事就是界定問題。

例如,信用卡公司可能希望瞭解購買者的信用狀況,然而“信用狀況”是一個比較模糊的概念。公司必須先界定問題,或者說是最終目標,比如到底是要要最大化其利潤空間,還是最大化償還貸款的選擇,再從問題出發,衡量一些可以量化的東西,概述信用可靠性。

研究設備公平問題的康奈爾學院助理教授索倫•巴羅卡斯(Solon Barocas)解釋,問題在於,“這些問題的界定可能是純粹的經濟因素,忽略了其中的公平或歧視。”

例如,假設有一套規則出臺,說明發放次級貸款是實現利益最大化的一個好方法,那麼,即使這不是企業的目標,最終可能以導致其形成掠奪性習慣而告終。

二、收集數據。

這就是我們常說的,數據的偏見導致算法的偏見。主要有2種情況:一是賦予算法的知識不能代表事實,二是它能代表事實,但事實本身包含了當前的偏見。

例如,如果一組深度學習的內容賦予了淺膚色的面孔比深膚色的面孔更多的鏡頭,那麼建立在這一內容之上的面部識別小工具將不可避免地在識別深膚色面孔方面表現得更差。這種情況曾發生在亞馬遜招聘中,它亞馬遜在招聘上有優先選擇男性的“黑歷史”,所以他們開發的招聘工具也曾出現忽略女性求職者的情況。

三、準備知識。

在算法的知識準備階段導致偏見,這是比較好理解的,因為在這一階段,選取算法所需的特徵是純粹的主觀問題(這並不會被問題框架的層次所困擾,即便是目標差異很大的算法,也可以使用相似的屬性來指導)。

當涉及到信用價值建模時,一個“特徵”很可能是客戶的年齡、收入來源,或者是對已付貸款的選擇。說到亞馬遜的招聘工具,“特徵”很可能是求職者的性別、培訓階段或多年的工作經驗。這就是算法工程師們常說的深度學習的“藝術”:選擇想象或忘記哪些屬性會在很大程度上影響你的算法預測準確性。

那麼,為什麼說AI的偏見難以修補?

從上述介紹可以大概看出該如何修補AI的偏見,可以濃縮為4個方面:

一、未知的未知。

偏見的產生並不總是伴隨著流行觀念的發展,因為某些知識可能需要很長時間才能被理解,某些後續影響也需要一定的時機才能看出。

出現這種情況的時候,追溯偏見的來源成本相當之高,而且即使進行調整,同樣會出現“未知的未知”的狀況。

同樣以亞馬遜招聘為例,當算法工程師們發現相關算法歧視女性求職者時,很快進行了重新編程,讓它忘記了“女士們的”這類帶有明顯性別特徵的短語。但他們很快發現,儘管如此,修改後的小工具曾經選擇了隱含性別的短語——例如更多出現在男性身上的動詞——並使用這些詞進行選擇。

二、不完美的過程。

首先,在深度學習領域,許多老方法並沒有從概念層面就納入了偏見修正的。往往是在在深入學習算法投入使用之前,它們會被檢查效率,開發出一種似乎是捕捉偏見的很好的替代方法。然而這意味著在,用來檢查算法效率的知識與研究人員用來訓練它的知識具有同樣的偏見。因此,它根本無法標記偏見的影響。

三、社會背景的缺失。

電腦科學家處理某些邊界問題的最佳方式,與人們思考社會問題的方式並不相稱。例如,信息與社會分析研究所博士後安德魯•賽博斯特(Andrew Selbst)在一篇新論文中指出一種他稱之為“便攜性誘惑”的錯誤。

在計算機科學領域內部,設計一個可以在多種情況下用於各種任務的小工具被認為是恰當的選擇。

“然而,這樣做的結果是忽視了大量的社會背景,” 賽博斯特表示,“你不能在猶他州設計一個算法,然後立即用於肯塔基州,因為其他地區也會產生不同的情況變化。同樣,你也不能將一個用於衡量審判影響的算法直接用於就業領域。在某種情況下如何看待公平,放到另外的領域完全是另一回事。”

四、公平的定義。

一個更重要的情況是,在有偏見的算法越來越多地參與社會運作是,人們對什麼是“沒有偏見”的認定也會逐漸偏差。這實際上是個古來的問題,不僅在計算機科學領域,在哲學、社會科學和法學中有著嚴肅而漫長的討論。

計算機科學的另一個特點是,公平的概念必須轉換為二進制數學語言,比如“0”或“1”、“ture”或“false”。但是研究人的發現,有些在數學定義上的公平,在實際中是相互衝突的。例如,公平是否意味著,黑人和白人在可能性評估排名必須具有相同比例?亦或是,在同一可能性評估階段,要排除種族因素進行排名?顯然,一個算法不可能在相同的時間滿足以上2種情況,所以必須選擇一個。

從現實思考的角度來說,“具體問題具體分析”是最正確的,但對於計算機科學來說,它必須有一個固定解。賽博斯特說:“選擇一個解決方案只是在單純地解決一個問題,不包含社會傾向於如何考慮這些問題。”


分享到:


相關文章: