74%企業已採用數據科學平臺!IDC揭祕加速數據分析的核心要訣

本文轉自:智東西

看點:數據科學部署挑戰多?IDC揭秘中國市場現狀,實例教學企業加速高級數據分析。

在數據和算法重新定義的世界中,數字化轉型正構成傳統企業的新競爭力,但實際被收集和利用的數據,遠比人們想象中少。

74%企業已採用數據科學平臺!IDC揭秘加速數據分析的核心要訣

有效數據量少、模型開發效率低、專業技術人才匱乏,這些問題在企業應用數據分析面前形成了難以跨越的天塹。一邊中國市場上超半數的企業已經採用機器學習方法,實現高級數據分析預測,另一邊機器學習、數據科學的普及之路仍荊棘叢生。

在這一背景下,IDC發佈《數據分析新速度:加速數據科學轉變成商業洞察》白皮書,重新審視數據科學的定義與生態,對機器學習、數據科學在中國市場的落地現狀進行全面調研。如需查閱此白皮書,可直接點擊下方“瞭解更多”下載。

數據爆炸時代:加速AI落地中的困境

在大數據、人工智能等新興技術的助推下,數據科學從常規數據分析發展到高級預測分析與智能預測,其定義正在被重新審視。

本白皮書中,IDC將機器學習與圖算法為主的工作負載定義為數據科學,其核心技術即經典機器學習技術,正在企業用戶中開始復興。據IDC調研,

當前中國市場上74%的企業已採用包含機器學習的數據科學平臺,其他企業均表示在未來24個月內有計劃採用這一平臺。

在當前金融應用場景中,80%的分析預測模型採用機器學習模型,支撐預判欺詐風險、優化量化投資等業務應用。而每成功識別一筆欺詐交易行為,每準確預測一次市場行情變化,對企業的經濟利益可能是百萬級甚至上億級。

還有在零售場景,隨著個性化服務需求升級,更多零售企業正通過機器學習形成線下線上融合的用戶畫像追蹤,實現千人千面精準營銷,顯著提升用戶粘度。

數據科學在文娛、教育、電信、製造、醫療、政府等、媒體、能源、交通、地產等行業中均得到廣泛應用。根據IDC提供的數據,中國企業在深度學習和機器學習方面的投入持續增加,高級數據預測分析、經典機器學習相關的市場規模在2018年達到3.0億美金,預計到2022年將達到29億美金。

74%企業已採用數據科學平臺!IDC揭秘加速數據分析的核心要訣

2018-2022年中國人工智能應用市場規模(單位:百萬美金)

不過企業要想應用機器學習,還需先解決很多挑戰。

首先,數據準備和建模耗時長。其次,數據資源嚴重匱乏。IDC調研發現,目前只有一線互聯網公司擁有超數千PB級別數據,大部分企業的數據量僅在1TB-20TB之間。另外企業積累的大部分數據不能直接用於模型訓練,被注入到AI模型的數據不足1%。此外,數據科學工作負載開發效率不高。許多剛涉足機器學習應用的企業,對底層算力和基於硬件的優化缺乏清晰的認知,尚未意識到加速計算給企業開發效率帶來的價值。

74%企業已採用數據科學平臺!IDC揭秘加速數據分析的核心要訣

企業採用加速方案後的效果

要在應用機器學習時繞開這些瓶頸,選擇合適的數據科學平臺則至為關鍵。

數據科學平臺選型:門檻低,速度快

DC在白皮書中,就平臺選擇的考量因素給出許多具體可行的建議。

例如使用機器學習平臺開發模型時,應與企業實際業務需求充分匹配。

IDC發現,大部分企業已採用加速方案,其中採用GPU加速的居多,佔比達50%。

74%企業已採用數據科學平臺!IDC揭秘加速數據分析的核心要訣

企業採用機器學習平臺時使用到的加速方案情況

其中,NVIDIA在2018年10月推出RAPIDS開源GPU加速平臺正得到越來越多企業的應用。

NVIDIA RAPIDS平臺致力於加速大規模數據分析和機器學習工作負載,該平臺建立在NVIDIA CUDA-X AI平臺之上,提供了一系列面向機器學習、深度學習和高性能計算的專用GPU加速庫,這些庫與NVIDIA Tensor Core GPU無縫地配合工作,可加速從數據準備、模型訓練到預測的整個端到端流程,大大提升AI任務執行效率和模型精度,同時降低基礎架構TCO。

當前百度、阿里雲、IBM、Oracle、Kinetica、H2O、SAP、SAS、Databricks等公司都已採用NVIDIA RAPIDS平臺加速數據科學研究。

應用無處不在,精度效率雙提升

從應用角度來看,在國內金融、零售、雲計算等多個行業場景中,RAPIDS均已展現出色的加速能力。

1、案例一:提升端到端量化投資預測效果

在金融領域,如何提升開發效率是量化投資工具面臨的主要挑戰。

寬邦科技打造的AI量化投資平臺BigQuant旨在讓金融業務人員都能零門檻地使用AI提升投資效率和效果,每月為金融機構和10萬C端用戶提供數百萬次機器學習模型訓練。

採用NVIDIA RAPIDS平臺後,其GBDT模型在特徵工程提取環節速度提升100倍,聚類算法速度提升200倍,同時系統預測準確度也得以提升。


2、案例二:顯著提升理賠審核能力

銀行做信用評分時,通常用XGBoost在Spark上進行運算,完成一次端到端模型迭代一般需要幾天,新的用戶行為特徵也不能實時更新到模型訓練中,會影響後期的精度。

平安科技引入NVIDIA RAPIDS在NVIDIA DGX-2超級計算機上進行模型運算,將模型運算速度提升40倍,模型訓練時間從周壓縮到分鐘,不僅大大節省人力成本。

平安科技副總工程師、聯邦學習技術部總經理王健宗表示,RAPIDS平臺“不僅大大提升了效率,對於精度的提升也指日可待”。


3、案例三:大幅提速數據準備

雲計算廠商也在藉助RAPIDS平臺提升任務執行效率,國內首家提供RAPIDS加速庫服務的公有云廠商是阿里雲。

機器學習算法往往產生大量數據傳輸,至今仍難以實現並行化。隨著服務器系統引入GPU加速的機器學習算法以及NVIDIA NVLink、NVSwitch等技術,模型訓練現可輕鬆分佈在多個GPU和多個節點間,幾乎不會產生延遲。

實例上,使用GPU加速的XGBoost訓練任務可提速20倍以上。

74%企業已採用數據科學平臺!IDC揭秘加速數據分析的核心要訣

結語:加速數據分析正滲透到更多行業

數據科學應用的程度正拉大企業間的競爭差距和收益差距,數字化程度好的銀行、航空公司、酒店等機構,收入及稅前利潤明顯高於數字化落後的同類機構。

企業如果不想在智能化趨勢中落後於人,不僅希望有更易上手的數據科學平臺,而且需要採用更好的加速方案來縮短開發週期。

IDC預計到2021年,90%的新智能系統將嵌入以決策為中心的加速計算架構,能自動檢測和評估當前形勢並作出應對決策。這將幫助更多企業優化生產效率,更為遊刃有餘地去適應客戶需求以及競爭環境的快速變化。

如需查閱此白皮書《數據分析新速度:加速數據科學轉變成商業洞察》,可直接點擊下方“瞭解更多”下載。


分享到:


相關文章: