【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

點此查看完整視頻

——擴展貓糧——

“這個地區出來的男生都有大男子主義”

“那種打扮的女生都特別容易劈腿”

“我錢包丟了,肯定是最窮的那個室友偷的”

……

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

在日常生活中,我們經常會依據傳聞和經驗對周圍人和事情做出一些主觀判斷。然而理性思考一下,我們能意識到以上的說法都算是一種偏見。

之所以會存在這樣“標籤化”的思維模式,很可能是人類從遠古時代繼承的習慣。當時的人類面對危機四伏的世界,為了生存,通過這種簡單直接的“刻板印象”,可以提高生存幾率。比如感覺到周圍草叢突然有動靜,就立刻認為“有猛獸!快跑!”,即便是誤判,也至少沒有什麼壞處。

但今天的世界已經變得無比複雜了,再用這種一刀切的思維模式也就顯得不合時宜,人類社會也在努力杜絕種種“偏見”和“刻板印象”,科學家們在嘗試用大數據、機器學習、人工智能等技術,努力尋求更客觀公正的事物判斷方法。但是機器真的能做到“絕對公平”嗎? 我們這期節目說的這個故事,其實來源於下面這個真實的事件。


一道匪夷所思的數學題

從前,各個國家在給犯人量刑和假釋之前,都要靠司法人員對犯人進行種種猜想和判斷。這樣的懲罰是不是能夠阻止 TA 再犯下這樣的罪行?如果現在釋放 TA,TA 出獄後是否能夠老老實實地從事正經工作,遠離犯罪?可想而知,靠司法人員人為去猜測這些問題的答案往往存在一定的偏頗,做不到完全客觀。

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

而幾年前,美國一些州的法官有了一個新的執法小幫手:他們用一個叫 COMPAS 的算法來給犯人打一個“風險評估分數”。這些算法會把 100 多個變量納入考量範圍,得出一個數字(通常介於 1 到 10 之間),評估一個人再次犯罪可能性有多大。從 1 分到 10 分,分數越高,代表這個人將來再犯罪的概率就越高,這個人也就越不應該得到緩刑或者假釋。而分數越低,在量刑的時候則會寬鬆一些。

一般這種基於人的判定,最忌諱的就是存在種族偏見,而法律面前更不希望出現這樣的情況。因此 COMPAS 算法在這一點上做的很“政治正確”。預測犯人再犯罪率的一百多項指標裡,包括性別、年齡、犯罪歷史等等,其中根本就沒有種族這個項目。而訓練這個算法的大數據也來自於美國,犯人都是美國的犯人。這麼看來,它是一套可以進入教科書般的、客觀公正的人工智能開發案例。

然而這個算法被實際運用之後,還是出了一些問題。開發這個算法的公司竟然被指控存在種族歧視!

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

這個事件引起了軒然大波 。包括哈佛大學、斯坦福大學、康奈爾大學、卡內基梅隆大學、芝加哥大學和 Google 公司的一流專家,紛紛就此展開了研究。反正 COMPAS 的數據都是公開的,專家們可以獨自驗證。

後來有人在 2016 年專門寫了一篇論文才把它分析清楚。下面歡迎來到雅思小作文片場。下面這個圖表表現了黑人和白人的評分和實際的再犯罪率的情況。

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

這個圖表按照黑人/白人、低分/中高分、再犯罪和沒有再犯罪分成了八個區塊,淺色的區塊代表再次犯罪的人,深色區塊代表沒有再犯罪的人。

為了方便解釋,我給這些區塊編了號碼並做了註釋。

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

我們知道算法預測的都是概率而已,哪怕是被打了高分,犯人也不一定會再次犯罪。而一些被打了低分的“安全人”,有可能也還是會再次犯罪。其中 B2、B3、W2、W3 就是預測正確的部分。我們粗略能看出這些區塊佔比還是很高的,說明這個算法還是挺準確的。

然後我們再細看,通過數字,能夠得到一些事實。

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

  1. 單獨分開兩個種族看,“算法判斷的正確率”是幾乎一致的。也就是(B2+B3) /(B1+B2+B3+B4)和( W2+W3 ) / ( W1+W2+W3+W4 ),這兩個數字幾乎是一致的。也就是說,無論是針對白人群體,還是黑人群體,算法判斷的正確率是相同的,因此可以說算法是公平的。
  2. 其次每個評分分類下,無論是黑人還是白人,算法預測的再犯罪率都也是幾乎一樣的, B1/B2 = W1/W2,B3/B4 = W3/W4。分數很好地預測了再犯罪率,而且不分種族,數據相同,完全公平。


那……這到底哪不公平了?這可比人肉判斷公平準確多了啊!

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

但一個不可否認的事實就是,假如你是一個“不會再犯罪的好人”,就是 B2,B4,W2,W4 這些深藍色區域的人群,你會發現,如果你是黑人,你落入“冤枉區”的概率就比白人大很多!也就是 B4/(B2+B4)=42%, 比 W4/(W2+W4)=22%,要大很多,這就是這個算法被指控為種族歧視的原因!

可這是為什麼呢?恐怕在於以下兩個原因:

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

  1. 由於黑人的總體再犯罪率高於白人,(B1+B3)佔所有黑人的比例是 58%,而白人同樣的數據(W1+W3)只佔到所有白人的 33% 。所以黑人的被打高分的比率一定也高。
    每組打分中被冤枉的比例又是固定的,那麼其中被冤枉的“黑人好人”就一定更多。否則你的打分系統就是不準確的。
  2. 如果不看數字細想,也可以想得通。這個系統的打分指標雖然完全不考慮膚色,但會考慮“經濟狀況”“教育水平”“吸不吸食毒品”等指標,而這些指標在客觀上的確會和種族存在一定相關性。所以雖然打分系統的出發點是不考慮膚色,但會間接導致黑人更容易被打高分和“黑人好人”更容易受到冤枉的客觀結果。
【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

人工智能

歸根到底是人類世界的反映


人工智能必不可少的就是需要通過大量的數據進行“機器學習”,而“算法”就是從這些海量數據當中尋找到細微的相關性,去更好地預測或者解決一些新的問題。而這些數據都是來自於人類真實世界。因此人工智能的偏見並非來自機器本身,而是真實世界的反映。這是無法避免的。

“機器學習學歪了”的一個典型案例就是微軟的人工智能機器人 Tay。2016 年 3 月 23 日,微軟公司的人工智能聊天機器人 Tay 上線。Tay 會在與人們的交流中不斷學習,隨著時間積累,她的理解能力將逐步提升,變得愈發“智能”。結果不到 24 小時,她就被“教壞”了,成為一個支持希特勒、性別歧視、種族歧視於一身的“不良少女”。微軟迫不得已只好把她匆匆下架。

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

事實上,在人工智能時代,只要需要對人類行為進行“機器學習”,就往往會誕生“歧視”這個副產物。這是算法的一個難以預料的、無意識的屬性,而非編程人員有意識的選擇。

因為,算法是在用過去的經驗去預測未來。產生經驗的是一批人,要被預測的卻是另外一批人。這就相當於新人要為前人的行為承擔後果!這是一切基於經驗的決策的本質缺陷。人工智能再厲害,只要是基於經驗的,只要預測不是百分之一百準確,就一定會有人被冤枉。

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

聽起來很不公平吧?那麼這裡再舉個極端的例子,本期節目的章魚星球中,如果綠章魚 90% 是愛犯罪的章魚,紅章魚只有 10% 的犯罪分子,假如你是一個理性思維的老闆,你更傾向於僱傭哪種章魚?你會發現這完全已經超越所謂歧視的問題了,因為不考慮歧視,僅從公司運營成本和風險的角度考慮,同樣條件下,你還是會選擇紅章魚。這種差距越是極端,“歧視”就越顯得有理,而那僅剩的 10% 的好人綠章魚,也就越是可憐。

【薛餓】我設計了一款“完美”程序,卻讓我走向滅亡

當然,最理想的模式是人只需要為自己的行為負責,和他人沒有關係。但這個世界的規則不是如此。每個人一出生就自動掛上了“性別”、“種族”、“地域”這些天然標籤。有的人享有前人為這個標籤所貢獻的榮耀,而有的人要為前人的過錯買單。在這個問題上,人工智能也解決不了根本的問題。片面地鼓吹“技術能消滅一切不平等,技術塑造完美世界”,反而也走入了另一個誤區。

此事古難全。


參考文獻:

  • 布魯薩德《人工不智能》
  • 得到 App:萬維鋼精英日課


分享到:


相關文章: