機器學習,是新聞業的未來嗎?

机器学习,是新闻业的未来吗?

編譯:負暄

新聞業運用人工智能已經不是個新話題。

據報道,美國加州2014年3月18日當地時間早晨發生4.4級地震,《洛杉磯時報》是第一家報告這次地震的媒體。據悉,《洛杉磯時報》能拔得這個頭籌則是靠了“機器人寫手”。

我國媒體也十分重視該項技術。新華社的“快筆小新”、今日頭條的“張小明”、騰訊的“Dreamwriter”等是“機器人記者”,更是媒體積極運用信息技術的成果。

机器学习,是新闻业的未来吗?

尼曼實驗室(nieman lab)曾報道新華社在人工智能方面的突破

然而,問題也隨之而來。隨著人工智能的發展,機器學習、深度學習等子概念為人熟知。AI“黑箱”中的算法歧視、新聞業應用機器學習的倫理問題,都亟需思考和解決。

傳媒研究(xjbcmyj)選擇相關文章進行了編譯。

《波士頓環球報》的視覺記者凱文·沃爾(Kevin Wall)剛剛開始在他的報道中使用機器學習。他表示:“我們需要大量的數據來進行機器學習和深度學習,這有一定難度,因為你需要一組人來獲取數據。”

不僅是沃爾,新聞行業對這些數據科學工具仍在探索階段。目前,只有為數不多的幾個融合項目,比如BuzzFeed的“搜索偵察機”、《洛杉磯時報》(L.A. Times)對犯罪時間錯誤歸類的分析,以及《紐約時報》(The New York Times)對美國國會議員的圖像識別。

“現在,媒體行業意識到機器學習可以使他們獲益,但也代表著劇烈的轉變——畢竟這個行業在過去的幾百年中都非常穩定。” 道瓊斯(Dow Jones)人工智能技術項目經理亞歷克斯·西格曼(Alex Siegman)說。

“這是一件非常新鮮的事情,許多新聞編輯部正在探索這對他們意味著什麼,以及他們如何從中受益。”

什麼是機器學習?

簡單地說,機器學習就是用一組“教學數據”來訓練計算機程序模型,從而比人類更快、更有效地識別、洞察和預測事物。

舉個例子,2013年,kaggle網站舉辦了“貓狗大戰”(Dogs vs cats)比賽,給參賽者提供25,000張狗和貓圖像的數據集,要求他們利用這些文件訓練自己的算法模型,以正確識別圖片中的動物是貓還是狗。

机器学习,是新闻业的未来吗?

Kaggle“貓狗大戰”數據集

正如西格曼所說,機器學習是“在大量數據中發現規律,並根據歷史數據進行預測。”在新聞工作中,機器學習可以應用於兩個方面:調查報道的一部分,或者是讓記者工作更輕鬆的日常工具。

用於調查性報道的機器學習

BuzzFeed科學部的記者彼得•奧爾德烏斯(Peter Aldhous)表示:“實際上,除非被佈置需要把大量事物分類的工作,記者很少需要用到機器學習。”

奧爾德烏斯是“搜索偵察機”項目的工作人員,在這個項目中,他使用了機器學習——特別是“隨機森林”(random forest)算法,從大量的飛機飛行數據中識別出可能是“隱藏身份的偵察機”。該項目獲得了2018年數據新聞創新獎。

机器学习,是新闻业的未来吗?

BuzzFeed“搜索偵察機”項目

他說,飛機項目是一個罕見的例子,機器學習需要有足夠大的數據集來訓練模型,而他恰好有很多關於飛機的有效數據。

奧爾德烏斯成功地獲取了100多架政府飛機4個月的飛行數據。在此基礎上,他建立了一個模型,可以根據“飛機的轉彎速率、飛行速度、飛行高度、每條飛行路徑周圍的矩形區域以及飛行持續時間”來標記可能是偵察機的飛機。

但奧爾德烏斯告誡說:“數據記者可能會對這個新工具‘過於興奮’。”《紐約時報》交互新聞部的軟件工程師瑞秋·肖雷(Rachel Shorey)在2018年3月美國計算機輔助研究所報告(National Institute for Computer-Assisted Reporting)會議上總結了這種情況:“有時候利用關鍵字或統計抽樣技術就可以在短時間內做好一項工作。”

机器学习,是新闻业的未来吗?

瑞秋·肖雷2018年美國計算機輔助研究所報告會議演講幻燈片

“我們需要使用正確的工具來完成工作,”奧爾德烏斯說,“(我們做的很多事情)不需要機器學習,而是需要好的數據報告。”

儘管新聞編輯部使用機器學習的需求相對較少,但肖雷指出,當記者在報道中使用這種技術的過程“比預想的要隨意得多”。首先,記者用他們喜歡的編程語言查找一個好的程序庫;其次,他們閱讀文檔;第三,需要確認該方法是正確且有效率的,能讓他們理解輸入和輸出;第四,花費數天乃至數週的時間來清洗數據;最後,寫下大約10行代碼來執行機器學習的過程。

機器學習作為日常工具

西格曼表示:“記者要做的事情有很多。如果能利用技術或機器學習實現自動化工作或者半自動化工作,對記者來說有很多好處。”

他說,機器學習可以幫助記者完成日常任務,比如尋找新聞、捕捉圖片和影像,或者在社交媒體上編輯和發佈他們的作品。機器學習可以做一些小事,比如自動轉錄,使用圖像識別技術來識別照片中的人,以及給視頻加上字幕;或者完成任務量更大的工作,比如從社交媒體的海量內容中尋找特定信息。

西格曼認為機器學習或人工智能只不過是種工具,10年或20年後,人們對機器學習的看法將與我們今天對微軟Excel的看法一樣。“它(只是)我們用來執行某些職能的工具。”

机器学习,是新闻业的未来吗?

新聞機器學習的倫理

奧爾德烏斯表示:“我不喜歡發生在黑箱中的機器學習應用在新聞業上。”他指的是一些算法在設計和使用方面缺乏透明度。

他說,新聞工作的透明度至關重要,記者應該能夠解釋他們所做的事情。

算法的可靠性也至關重要。奧爾德烏斯說:“記者需要對企業和政府如何使用機器學習算法進行監督報道。”

他認為,對機構關於算法問題的監督報道甚至比記者使用這些算法本身更重要。他說,“任何算法決策都有可能存在偏見。”

美國亞利桑那大學(University of Arizona)的計算機科學家卡洛斯•謝德格(Carlos Scheidegger)表示,當算法在訓練中接觸社會偏見時,就有可能使得最終決策出現偏見。他說:“如果使用的分類器有問題,你幾乎無法確認結果。”

西格曼和奧爾德烏斯都提到了一個例子,亞馬遜使用一套對女性有偏見的算法作為他們的招聘系統。該算法用主要是男性的應聘者提交的數據進行了為期10年的培訓。然後它開始挑剔那些包含“女性”一詞的簡歷。

西格曼說:“偏見通過算法沉澱,進入現實世界。”

西格曼認為隱私問題也令人擔憂。“要使用任何機器學習,你都需要大量的數據。”他說,“關於如何從用戶那裡收集數據,可能會存在隱私方面的問題。”

新聞業機器學習的未來

奧爾德烏斯認為機器學習是有前途的,但更多的是在出版方面——比如如何分發、分享和展示內容來吸引更多的讀者。

他說:“但隨著時間的推移,我們會更清楚地知道,什麼工作它是適合的工具,什麼時候它會被過度使用,或者沒有必要使用。”

西格曼表示同意:“不要想我們可以在哪裡使用人工智能。想想你每天都要面對哪些問題,然後評估人工智能是否可以解決這些問題。”

机器学习,是新闻业的未来吗?
机器学习,是新闻业的未来吗?

你能為我摘一顆星星嗎?

机器学习,是新闻业的未来吗?

近期好文薦讀:

一本雜誌的“絕地求生“:讀者的熱愛能為紙媒續命嗎?

2019,攝影師鏡頭裡的豬年

我家老相冊,有仿真塑料花、年輕的外公,和齊齊整整的一家人

合作郵箱:[email protected]

机器学习,是新闻业的未来吗?


分享到:


相關文章: