35位數據科學家告訴你數據科學家究竟做什麼?

35位数据科学家告诉你数据科学家究竟做什么?

現代數據科學出現在科技領域,從優化Google搜索排名和LinkedIn推薦到影響Buzzfeed編輯的頭條新聞。 但它有望改變所有行業,從零售,電信和農業到健康,貨運和刑罰制度。 然而,術語“數據科學”和“數據科學家”並不總是易於理解,它們是用於描述廣泛的數據相關工作。

那麼,數據科學家究竟做什麼? 作為DataCamp播客DataFramed的主持人,我有幸與眾多行業和學科的30多位數據科學家交流。 除此之外,我還問過他們的工作需要什麼。

數據科學確實是一個多樣化的領域。 我採訪的數據科學家從多個角度來看待我們的話題。 他們描述了廣泛的工作,包括在booking.com和Etsy進行產品開發的大量在線實驗框架,Buzzfeed用於實施標題優化的多臂老虎機解決方案的方法,以及在Airbnb公司機器學習對業務決策的影響。 最後一個例子是在我與Airbnb數據科學家Robert Chang的談話中提到的。 當Chang在Twitter時,該公司專注於增長。 現在他在Airbnb,Chang研究生產率機器學習模型。 數據科學可以以多種不同的方式使用,不僅取決於行業,還取決於業務及其目標。

但儘管種類繁多,但這些對話中出現了許多主題。 這些主題是:

數據科學家做什麼。

我們現在知道數據科學如何運作,至少在科技行業。 首先,數據科學家奠定了堅實的數據基礎,以便執行可靠的分析。 然後他們使用在線實驗以及其他方法來實現可持續增長。 最後,他們構建機器學習管道和個性化數據產品,以更好地瞭解他們的業務和客戶,並做出更好的決策。 換句話說,在技術領域,數據科學涉及基礎設施,測試,用於決策的機器學習以及數據產品。

在科技以外的行業數據科學正在取得重大進展。我與Convoy的數據科學家Ben Skrainka談到了該公司如何利用數據科學徹底改變北美卡車運輸業。 Flatiron Health的Sandy Griffith告訴我們數據科學已經開始產生對癌症研究的影響。 Drew Conway和我討論了他的公司Alluvium,它“使用機器學習和人工智能將工業運營產生的大量數據流轉化為見解。”現任Uber自駕車主管的Mike Tamir討論了與Takt合作以促進財富500強公司利用數據科學,包括他在星巴克推薦系統方面的工作。 這份非詳盡的清單說明了跨越多個縱向的數據科學革命。

這不僅僅是自動駕駛汽車和人工智能的希望。我的許多嘉賓不僅對主流媒體對人工智能的迷戀持懷疑態度(包括VentureBeat的頭條新聞“2042年將出現一個AI神並編寫自己的聖經。你會崇拜嗎?”),而且圍繞機器學習和深度學習也是眾說紛紜。當然,機器學習和深度學習是重要應用的強大技術,但是,正如所有的眾說紛紜的術語一樣,有益的懷疑是好的。 幾乎所有的嘉賓都明白,工作數據科學家通過數據收集和數據清理來製作日常“麵包”和“黃油”; 建立儀表板和報告; 數據可視化; 統計推斷; 將結果傳達給主要利益相 並使決策者相信他們的結果。

科學家所需的技能數據正在不斷髮展(深度學習的經驗並不是最重要的)。在與西雅圖地區幫助財富500強公司的數據科學領導者Jonathan Nolis的對話中,我們提出了一個問題,“對於數據科學家來說,哪種技能更重要:能夠使用最複雜的深度學習模型,或者 製作好的PowerPoint幻燈片的能力?”他為後者提供了一個案例,因為溝通結果仍然是數據工作的重要組成部分。

另一個反覆出現的主題是,如今必要的這些技能可能會在相對較短的時間內發生變化。 隨著我們看到數據科學可用工具的開源生態系統和商業化,數據科學工具的快速發展,我們也看到了許多數據科學苦差事的自動化程度越來越高,例如: 數據清理和數據準備。 普遍的說法是數據科學家80%的寶貴時間用於簡單地查找,清理和組織數據,只有20%用於實際執行分析。

但這不太可能持續下去。 如今,即使大量的機器學習和深度學習正在實現自動化,正如我們專門拿出一集來講自動化機器學習時所學到的,並且從Life Epigenetics的首席數據科學家Randal Olson那裡聽到的。

這種快速變化的一個結果是,我的絕大多數嘉賓告訴我們,數據科學家的關鍵技能不是構建和使用深度學習基礎架構的能力。 相反,他們有能力即時學習和溝通,以回答業務問題,向非技術利益相關者解釋複雜的結果。 那麼,有抱負的數據科學家應該更少關注技術而更多關注問題。 新技術來來去去,但批判性思維和定量的,針對特定領域的技能始終需要。

專業化變得越來越重要。雖然數據科學家沒有明確的職業道路,對初級數據科學家的支持很少,但我們開始看到某種形式的專業化。 艾米莉·羅賓遜描述了A型和B型數據科學家之間的區別:“A型是分析 - 一種傳統的統計學家 - 而B型是建立機器學習模型。”

Jonathan Nolis將數據科學分為三個部分:(1)商業智能,主要是通過儀表板,報告和電子郵件的形式“取得公司所擁有的數據並將其提供給合適的人員”; (2)決策科學,即“獲取數據並用它來幫助公司做出決定”; (3)機器學習,這是關於“我們如何才能採用數據科學模型並將它們連續投入生產。”儘管許多工作數據科學家目前都是通才,並且做了所有三個,但我們看到了不同的職業道路,如 機器學習工程師的案例。

道德是該領域面臨的最大挑戰之一。你可能會認為該專業為其從業者提供了很大的不確定性。 當我在第一集中詢問希拉里·梅森是否數據科學界面臨任何其他重大挑戰,她說:“你認為不精確的道德規範,沒有實踐標準,缺乏一致的詞彙量對我們來說不是足夠的挑戰嗎?”

這三個都是必不可少的要點,幾乎每個DataFramed嘉賓都把前兩個放在第一位。 在我們與世界的這麼多互動都由數據科學家開發的算法決定的時代,道德起著什麼作用? 正如GitHub的高級機器學習數據科學家Omoju Miller在我們的採訪中所說:

我們需要有道德理解,我們需要接受培訓,我們需要有類似於希波克拉底誓言的東西。 而且我們需要真正擁有適當的許可證,這樣如果你真的做了一些不道德的事情,也許你會受到某種懲罰,或者取消資格,或者某種程度的追索,一些東西來指出這不是我們在該行業內要做的事,然後找出方法來修復那些脫軌並做事的人,因為那些人沒有經過培訓而且他們不懂。

ProPublica表示,反覆出現的主題是數據科學可能帶來的嚴重,有害和不道德的後果,例如“全國各地用於預測未來罪犯”的COMPAS累犯風險評分,並且“對黑人有偏見”。

我們正在達成共識,即道德標準需要來自數據科學本身,以及立法者,基層運動和其他利益相關者。 這一運動的一部分涉及重新強調模型中的可解釋性,而不是黑盒模型。 也就是說,我們需要建立可以解釋他們為什麼做出預測的模型。 深度學習模型在許多方面都很出色,但它們最臭名昭著的是無法解釋。 許多專注,聰明的研究人員,開發人員和數據科學家正在通過Lime這樣的工作取得進展,這是一個旨在解釋機器學習模型正在做什麼的項目。

跨行業和整個社會的數據科學革命才剛剛開始。 數據科學家的頭銜是否仍然是“21世紀最性感的工作”,將變得更加專業化,或者將成為大多數工作專業人員必須需要具備的一套技能尚不清楚。 正如希拉里·梅森告訴我的那樣:“我們甚至在十年後會有數據科學嗎? 我記得一個我們沒有的世界,如果頭銜命名為“網站管理員”,我也不會感到驚訝。

英文原文:https://hbr.org/2018/08/what-data-scientists-really-do-according-to-35-data-scientists


分享到:


相關文章: