當AI表現出種族或性別歧視

AI時代消除性別歧視

當AI表現出種族或性別歧視

全文共2343字,閱讀時長約為4分鐘

圖片來源 | 網絡

出品 | 先聲會

先聲論:AI正在改變我們的經濟和社會,改變我們交流的方式,改變我們的行政和政治。不平等在我們的社會中積疾已久,不能讓AI在不經意間延續甚至惡化這一問題了。

本文節選、編譯自Nature平臺的文章AI can be sexist and racist — it’s time to make it fair,原文作者James Zou &Londa Schiebinger。

谷歌翻譯在將西班牙語新聞翻譯成英語時,通常將提及女人的句子翻譯成“他說”或“他寫道”。尼康相機中用來提醒拍照者照片中的人有沒有眨眼的軟件有時會把亞洲人識別為總在眨眼。

單詞嵌入——一個用來處理和分析大量自然語言數據的流行算法,會把歐裔美國人的姓名識別為“

正面”詞彙,而非裔美國人的姓名識別為“負面”詞彙。

當AI表現出種族或性別歧視

△圖片來源:iStock/Getty(左圖)

Prakash Singh/AFP/Getty(右圖)

在有偏差的數據集上訓練出的算法通常只能將左邊的圖片識別為“新娘”。

除此之外,人們還發現了其他很多人工智能(AI)系統性地歧視特定人群的例證。

決策偏見並不是AI獨有的問題,但由於AI的應用範圍越來越大,解決AI偏見至關重要。

01

導致AI產生偏見的原因

導致AI產生偏見的一個主要因素是訓練數據。大多數機器學習任務都是使用大型、帶標註的數據集來訓練的。

例如,用於圖像分類的深度神經網絡通常會使用ImageNet進行訓練,其中包含了逾1400萬張帶標籤的圖片。這種方法會在無意中產生出包含了性別、種族和文化偏見的數據集。

當AI表現出種族或性別歧視

通常來說,會有一些人群被代表過度,而另一些則代表不足。

ImageNet推動了計算機視覺研究,但是其中超過45%的數據來源於美國,而美國人只佔世界人口的4%。相反,中國和印度加起來只佔其中3%的數據量,而兩國人口卻佔了世界人口的36%

當AI表現出種族或性別歧視

由此看出,這些動物體內除了大腦,還有一個獨立的系統來處理身體的變化。這些現象引發了我們的思考:機器人體內可以構建這樣的系統嗎?答案是——可以。

缺乏地理上的多樣性可以在一定程度上解釋為什麼計算機視覺算法會把傳統的身著白色婚紗的美國新娘標註為“新娘”、“禮服”、“女人”、“婚禮”,而印度新娘的照片則會被標註為“表演”和“戲服”。

當AI表現出種族或性別歧視

偏見的另一個來源可以歸於算法本身。一個常見的機器學習程序會試圖最大化訓練數據集的整體預測準確率。

如果訓練數據集中某類人群的出現頻率遠多於另一人群,那麼程序就會為佔比更多的人群進行優化,這樣才可以提高整體的準確率。

有缺陷的算法還會造成惡性循環,使偏見越發嚴重。舉例來說,使用統計方法訓練出的系統,例如谷歌翻譯,會默認使用男性代詞。這是因為英語語料庫中男性代詞對女性代詞的比例為2:1。

更糟糕的是,每次翻譯程序默認翻出“他說”,就會提高網絡上男性代詞的比例——這可能會逆轉女性在性別平等上所獲得的艱難勝利。

當AI表現出種族或性別歧視

02

數據集中的偏差常常體現出了制度基礎和社會權力關係中更深、更隱蔽的不均衡。例如,維基百科看起來是一個豐富多樣的數據源,但是該網站上的人物頁面裡只有18%是女性。

在關於女性的條目中,鏈接到男性條目的數量遠比男性條目鏈接到女性條目的數量要多,因此搜索引擎裡就更容易找到關於男性的條目。女性條目裡還包含了更多的伴侶和家人信息。

因此,在構建訓練數據集時必須進行技術處理,並將社會因素納入考慮範圍。我們不能侷限於方便的分類方式——“女人/男人”,“黑人/白人”等——這些分類方式無法捕捉到性別和種族認同上的複雜性。數據管理者應當儘可能提供與數據相關的描述語的精確定義。

當AI表現出種族或性別歧視

03

公平是什麼?

計算機科學家應努力開發能夠穩定應對數據中的人類偏見的算法。

當計算機科學家、倫理學家、社會科學家等人努力提高數據和AI的公平性時,我們所有人都應該思考“公平”到底應該指什麼。

數據是應當表現現有的世界,還是應當表現大多數人所追求的世界?

又比如,用來評估應聘者的AI工具是應當評價應聘者是否有能力,還是應聘者是否能融入工作環境?應該讓誰來決定哪種“公平”才是更為優先的?

計算機、程序和進程塑造了我們的態度、行為和文化。AI正在改變我們的經濟和社會,改變我們交流的方式,改變我們的行政和政治。不平等在我們的社會中積疾已久,不能讓AI在不經意間延續甚至惡化這一問題了。


分享到:


相關文章: