數據科學vs.機器學習:有什麼區別?

機器學習是人工智能(AI)的一個分支,而數據科學是數據清理、準備和分析的學科。人們需要了解每種技術的工作原理,以及它們是如何一起工作的。

機器學習(ML)和數據科學經常被同時提及,這有著充分理由。這兩種技術相輔相成,但是瞭解它們如何工作以及如何協同工作很重要。

機器學習是人工智能(AI)的一個分支,它使計算機能夠通過數據進行自我學習,並且無需人工干預即可應用這種學習。

業務轉型和外包諮詢服務商Pace Harmon公司的主管JP Baritugo說,“從本質上講,數據科學是一種實踐領域,而機器學習是一組工具和方法論。數據科學使用廣泛的專業知識、業務知識、工具和方法來處理大數據,以產生有意義的見解,從而推動行動並實現有意義的業務成果。”

為什麼機器學習需要數據科學

有效的機器學習需要良好的數據科學。Baritugo說:“企業需要數據科學家的專業知識來確保正確使用和部署機器學習。”數據科學家可以確保為模型提供經過清理和規範化的數據集以進行訓練,並確保根據數據集和要解決的業務問題使用正確的算法。

數據科學平臺RapidMiner公司創始人兼總裁Ingo Mierswa說,“數據科學可以在機器學習領域之外應用。數據科學是人工智能、機器學習和深度學習,以及數據準備在商業環境中的實際應用。數據科學的目標是從數據中獲取見解,預測未來發展並提出行動(有時甚至自動執行這些行動),這是通過人工智能和機器學習之類的工具來實現的。”

從根本上說,數據科學家從多個來源收集並準備數據集,然後應用某種功能從中提取見解。在某些情況下,他們可能會涉足機器學習。在其他情況下,可能需要進行更基本的分析。 ISG公司自動化和創新總監Wayne Butterfield說,“至少在我看來,數據科學只是對數據的操縱。”

何時使用機器學習

當面對解決方案隱藏在大量數據中的情況時,機器學習將成為得力的工具。Mierswa說:“機器學習擅長處理該數據,只需花費工作人員一小部分的時間就可以從中提取模式,並獲得其他方面無法獲得的見解。”

例如,機器學習(由數據科學提供信息)為金融服務中的風險分析、欺詐檢測和資產組合管理、基於GPS的旅行預測,以及針對亞馬遜和Netflix的產品和內容的推薦提供支持。

Butterfield說,“機器學習適合於已經存在大量標註良好的歷史數據或者可以非常快速地模擬數據的問題。如果企業沒有足夠的數據可以進行訓練,那麼使用機器學習就會花費很多時間。”

密歇根理工大學計算機學院的計算機系統副教授、計算機與網絡系統研究所所長Timothy Havens說,“機器學習模型只與他們學習的數據質量一樣好,而現在存在許多類型的問題,其中存在大量數據。”

Butterfield解釋說,“某些問題非常適合機器學習。例如,數據科學(不包括機器學習)多年來已被應用到預測和計劃中,但準確性有限。由於現在企業可以構建可以考慮多個數據源的複雜算法,例如天氣、歷史疾病模式、外部事件、過去的需求,因此企業可以獲得更加準確的預測,而且不僅僅是每天一次,也可能是每小時一次。”

在金融服務中,機器學習和數據科學可以為保險和防止欺詐提供強大的解決方案。在IT應用中,可以改善網絡管理。醫療保健組織可以應用機器學習和數據科學來提高診斷準確性,確定最佳價格和數量組合或預測患者結果。在客戶體驗管理中,他們一起改善客戶互動,預測客戶生命週期價值,並估計客戶流失。零售商可以利用它們來預測需求。優化定價並細分客戶。在製造業中,數據科學和機器學習可用於使供應鏈自動化並改善計劃。

當數據科學足夠的時候

圍繞著人工智能的技術應用,每個業務問題都開始看起來像是一個向它投入一些機器學習的機會。但是在許多情況下,機器學習可能無法正常工作,或可能會造成更大的破壞。

Everest Group副總裁Anil Vijayan說,“有時採用數據科學就足夠了。由於界限模糊,很難將數據科學和機器學習明確區分。最終,大多數算法都使用統計技術。並不是每個問題都需要人工智能來解決。在許多情況下,使用傳統數據科學可能不僅足夠,而且效率更高。”

Vijayan說,傳統的數據科學技術(不需要採用機器學習)在輸出依賴於相對較少的參數的情況下可能更有效,而且這些參數不會隨時間發生太大的變化。此外,當輸出和參數之間的關係被很好地理解並且不太可能改變時,只採用數據科學就足夠了。


分享到:


相關文章: