簡單易懂的深度學習指南之實用技巧!

在上一節的學習中,我們主要認識了什麼是深度學習,深度學習有哪些成功的應用以及深度學習的優點與缺點,總體來說就是讓我們深度的瞭解何為深度學習,就如文字開頭所說的“人們往往為技術而興奮。但深度學習是企業用來解決實際問題的工具。僅此而已,毋庸誇大,也無需貶低。”

對於還不瞭解什麼是深度學習的朋友可以先閱讀 學習一下。

本篇文章我們不在對深度學習的基礎做講解了,而是介紹Cloudera數據和機器學習的統一平臺,並提供六個實用技巧,幫助您的組織開始進行深度學習。

話不多說,開始我們今天的學習吧!

Cloudera 的深度學習

Cloudera是數據和機器學習的統一平臺。使用Cloudera,您可以深度學習您的數據,而不是相反。

對於當今複雜的技術環境,企業需要選擇和靈活性。 Cloudera 具有多種方式來訓練和部署深度學習模型,無需新的孤島或數據遷移。

Cloudera 數據科學工作臺

Cloudera 數據科學工作臺(CDSW)可實現快速,簡單,安全的自助數據科學。缺 省條件下就是安全及合規的,支持完整的 Cloudera 認證、授權、加密和治理。

CDSW 為數據科學家提供了一個基於瀏覽器的開發環境,適用於 Python,R 和 Scala。用戶可以在自定義設置中下載和實驗最新的庫和框架,並輕鬆地與同行共 享項目。該軟件包括內置的調度,監控和郵件警報。

乾貨|簡單易懂的深度學習指南之實用技巧!

圖:Cloudera 數據科學工作臺

最新的 CDSW 版本支持 GPU 的設備。 GPU 是加速計算密集型工作負載的專用處理器。 GPU 特別適合於深度學習模型的訓練步驟。 CDSW 使數據科學家可以將傳統硬件用於數據準備和發現等任務,並在 GPU 加速的機器上訓練深度學習模型。

CDSW 用戶共享可用的 GPU 資源。用戶請求特定數量的 GPU 實例,最多可達一個節點上的總數。 CDSW在運行期間將GPU分配給作業。項目可以使用隔離版本的庫,甚至通過 CDSW 的可擴展引擎功能,使用不同的 CUDA 和 cuDNN 版本。

使用CDSW的數據科學家可以使用任何具有Python,R或Scala API的深度學習框架,包 括 TensorFlow,Keras,Theano,Microsoft Cognitive Toolkit(CNTK),Caffe,PyTorch,DL4J,Apache MXNet,Torch 和 BigDL。

如何開始進行深度學習

在最近的數據科學和機器學習 Hype Cycle 報告中,Gartner 將深度學習定位成“膨脹中期望的高峰”:

在這個過份狂熱和不現實的預測階段中,技術領導者的廣泛宣傳活動取得了一些成功,但更多的是失敗,因為技術被推向極限。唯一賺錢的企業是會議組織者和 雜誌出版社。

關於深度學習的炒作給企業架構師同時帶來機會和風險。一方面,廣為傳播的成 功案例增加了高管的興趣尋求深度學習獲得競爭優勢。另一方面,過度的熱情可 能導致組織機構投資昂貴而無用,或將股價拉低,因而從長遠角度,削弱了從深度學習中獲利的能力。

乾貨|簡單易懂的深度學習指南之實用技巧!

與大多數新技術一樣,快速變化的標準使投資具有挑戰性。谷歌發佈了用於深度 學習的 TensorFlow 軟件並在 2015 年 11 月開放源代碼;在幾個月內,它成為開源生態系統中最為積極開發的機器學習項目。自從谷歌發佈以來,亞馬遜,微軟和英特爾都已經發布了深度學習的開源項目。雖然 TensorFlow 是當今最受數據科學家歡迎的深度學習框架,但是我們並不確認它會永久保持這種狀態。

鑑於深度學習的力量和潛力,我們有幾個務實的提示。

專注於解決業務問題。谷歌,微軟和百度並沒有因為深度學習很酷,或者因為諮詢顧問告訴他們創新是重要的,而成為深度學習的重磅力量。他們這樣做是因為他們有緊迫的業務問題,深度學習為解決這個問題提供了一個辦法。

深度學習也可能是您企業機構的正確工具。但是,如果您沒有仔細地定義業務問題, 概括出捕獲和管理數據的策略,並先嘗試使用簡單的技術,您可能會構建一個沒 人會用的深度學習功能。

仔細選擇試點項目

。如果您的機構沒有接觸過深度學習,計劃的長期成功可能取決於您最初幾個項目的結果。深度學習最有可能對以下項目產生影響:

  • 圖像和視頻分類或標記
  • 對象識別
  • 手寫識別
  • 語音識別
  • 語音翻譯
  • 文字處理

這些問題通常具有上述我們認為的深度學習的屬性:高基數結果,維度和未標記 的數據。

嘗試用深度學習改進現有的以常規技術為基礎的模型,大多數時間都會產生令人 失望的結果。為了獲得更好的結果,數據科學家將向建模過程引入新的數據。例如, 醫院通過添加醫療專業人員所記錄的患者數據來提高預測再住院模型的準確性。

首先整理數據。大概很有衝動讓你的團隊一頭扎進訓練深度學習的模型吧。這種做法可能有助於學習。但請記住,在每一個深度學習的成功故事背後,都有一個數據的成功故事。

成功的深度學習應用基於三個不同流程的定義數據流:

  • 初步模型訓練
  • 模型的更新
  • 推論

如何設計這些流程將決定您的應用的成功。例如,儘管可以將大型數據集複製到 一個離線平臺進行初始訓練,但是對於模型的更新,因為要不斷重複執行,而可 能變得成本高昂。在今天快節奏的業務中,模型的頻繁更新是機器學習所有分支 的常態。除非您允許這樣做,否則您的項目可能會成為高維護費用“孤兒”。

同樣,除非您的團隊已經想清楚如何使用一個深度學習模型來進行推論,否則您 很有可能會創建一個沒有人用的偉大模型。使用該應用的業務可能需要具有服務 級別保證的低延遲推論。您的深度學習項目規劃要考慮這一點,否則項目將失敗。

擁抱開源。數據科學家更喜歡開源軟件。所有最廣泛使用的深度學習框架都是開源的。市場上有一些商業選擇,但沒有證據表明它們性能優於開源框架。

利用傳遞學習。除非您的機構已經有從頭開始構建深度學習模型的豐富經驗,否則預先訓練的模型是開始的最佳方式。檢查公開的模型庫,如 Caffe Model Zoo。如果您找到一個近似於您要解決的問題的模型,先不要改變,運行它以建立精確度基線。使用傳遞學習建立在現有的模型上,而不是從頭開始。傳遞學習減少了對大量訓練數據集和計算能力的需求。

不要創建新的孤島。您的組織投資數百萬美元無數時間來消除阻礙整合的孤島。絕對不要再創造一個新的孤單。一些供應商認為,深度學習是新鮮事物與眾不同,因而需要一個全新的高級分析平臺。請記住:將數據帶入深度學習平臺遠遠難於將深度學習帶入您的數據平臺。

關於 Cloudera

Cloudera基於最新的開源技術提供用於機器學習和分析,優化於雲端的現代化平臺。全球領先的組織機構都信任 Cloudera,通過高效地捕捉、存儲、處理和分析海量數據來幫助他們解決最具挑戰性的業務問題。

乾貨|簡單易懂的深度學習指南之實用技巧!

慧都大數據專業團隊為企業提供Cloudera大數據平臺搭建,免費業務諮詢,定製開發等完整服務,快速、輕鬆、低成本將任何Hadoop集群從試用階段轉移到生產階段。

歡迎諮詢慧都在線客服,我們將幫您轉接大數據專家團隊,併發送相關行業資料給您!

上一篇:


分享到:


相關文章: