九章雲極:數據科學平臺賦能傳統企業


九章雲極:數據科學平臺賦能傳統企業 | 愛分析活動

數據科學平臺的本質是在數據上加載算法

近日,愛分析在京舉辦了2019愛分析·中國人工智能高峰論壇。愛分析邀請了九章雲極 CEO方磊進行了題為《數據科學平臺賦能傳統企業》的主題演講。

方磊講解了數據科學平臺的含義,用途,落地案例以及未來發展方向等內容。

現將方磊的演講實錄分享如下。

方磊:謝謝大家,謝謝愛分析的邀請。今天和大家分享數據科學的背景情況,以及怎麼幫助企業實現企業級AI的案例。

在數據上直接加載算法,是數據科學平臺的核心

這張圖是中國大數據的圖譜,今年有了一些變化,在左下角出現了數據科學這麼一個領域,這個變化讓我們很開心。因為不僅我們在這個領域之內有一席之地,更重要的是從平臺這個層面,數據科學在整個生態裡也牢牢地佔據了一席之地。

九章雲極:數據科學平臺賦能傳統企業 | 愛分析活動

什麼是數據科學?數據科學的邏輯在哪裡?和機器學習,深度學習著怎樣的關係?今天我就給大家介紹一下數據科學。

我認為數據使用分為四大方面,分別是數據科學及機器學習平臺、BI及可視化、數據倉庫和數據治理,我們分別來解釋一下。

數據倉庫包括數據中臺的建設,解決的是集中化的存儲問題;數據治理解決的是數據格式意義的問題;關於BI及可視化,我們都知道有很多業務的數據是很難理解的。舉個例子,計算一家保險公司的客戶數量可能不是一個數字,因為投保的人和理賠的人並不是同一個人,會導致投保和理賠的部門理解的“客戶”是不一樣的。。當你理解了你的數據,用BI給決策者和運營人員看這個數據結果,這就是BI及可視化。

最後是數據科學和機器學習平臺,與前者的區別簡單來說就是一個是將客觀事實展現出來,由你來做決策,另一個則是自我訓練模型,由模型直接決策。

剛才主持人提到2017年Gartner做了數據科學的象限,這個象限很簡單。數據科學是一個比較大的範疇,其核心是各類數據以後會使用算法加載到數據上解決具體業務問題。有很多算法甚至都無法稱之為人工智能算法,比如說關於資產配置的組合風險評價,這些都不屬於機器學習的範疇。

在數據上加載算法,這就是數據科學的核心

對數據的分析經歷了1990年前後的基礎數據存儲到2000年基於數據倉庫BI的探索,再到2015年經過增強分析年代,核心就是圍繞數據科學,利用算法在數據上進行更深度的分析。

再看一下國外廠商在數據科學領域的表現,其中有一個叫alteryx的上市公司很不錯,還有兩個分別是Dataiku與DataRobot。

九章雲極:數據科學平臺賦能傳統企業 | 愛分析活動

作為數據科學廠商,我剛才說了核心是數據上加載算法,你的產品形態體現為建模平臺,所以建模能力的要求就很重要。構建AI的方法有很多種,最開始出現的是寫代碼,我們稱為編碼型。第二種,因為水平差一些寫不了代碼,那就預先寫好一些代碼再配置一下,這個叫可視化編程,通過拖拉拽解決問題。第三種,是給數據自動生成模型,什麼都不管,這叫自動機器學習。以上這三種方法不斷降低企業AI構建的門檻,整個行業的發展方興未艾。

“工具”、“平臺”再到“大腦”,讓企業越來越智慧

具體落地肯定也有很多挑戰,說前景的時候比較容易激動,說落地的時候肯定也是很有壓力的。第一個挑戰就是技術發展太快,我們都知道今天的AI技術層出不窮,應接不暇,學都來不及。第二點,建模的困難度導致對人力依賴很大,如果你有優秀的數據科學家,你要珍惜,千萬不要讓他被挖走了。企業的模型管理水平也還處於早期,對模型生命週期的管理不健全,模型的穩定性和生命週期管理都是非常空白的。

關於模型管理,能找到的最新的公開文獻是2011年的美聯儲的監管文獻,從2011年到今天,十年的時間都找不到一篇關於模型管理的權威文獻,這種空白也是一種挑戰。另外,資產的積累也是非常困難的,你的人員,新的AI創新的組織怎麼積累。

我們有幾個思考,第一個是開放性和封閉型的思考,第二個是如何建立有效的模型,第三是關於工具和平臺的思考。

關於工具和開放已經是個老話題了,大家都很熟悉技術棧,包括我們中間件的框架都在改變。數據科學對於以前大家比較熟悉的SPSS,SAS這樣一些分析軟件也從封閉式的軟件走向開放,所以開放是一個大潮,勢不可當。

我們為什麼要開放呢?舉一個例子,因今天很多人討論NLP,對於自然語言的處理,我們經過了很多模型,最近幾年更是加速迭代。有一些新的技術,你發現性能是一個指數級的增長,如果你不是開放式的平臺是非常難以涵蓋的,所以這對很多企業來說是非常大的挑戰。大家知道架構師的工資更高,因為寫個好的架構比寫一個好代碼更重要。

什麼是開放性的架構,我們總結了幾點,第一點是能跑各種各樣的環境,我們知道數據科學家會用很多語言,對於不同的語言、框架、環境、服務,甚至最後支持的硬件都要做非常開放式的支持。我們碰到的客戶有一些專用的各種XPU,各種各樣的加速器都會使用,儘管很多加速器未必是標準的。使用各種各樣的算力和加速器,一定要保持非常開放的架構才能容納計算架構,包括模型服務。而且模型服務這個生態裡有非常多的公司,很多服務是應用廠商開發的,很難對他做統一的管理,很多模型做出來,甚至不是主流的深度學習框架訓練的。

九章雲極:數據科學平臺賦能傳統企業 | 愛分析活動

我們碰到過這樣的客戶,他們用了一些更先進的,基於可解釋性更強的貝葉斯編程模型,這樣的模型運行和現在主流模型是不一樣的,你怎麼提供一個框架支持他。對於編碼的方式,建模的方式怎麼打通,自動機器學習最方便,同時也最受限,這些東西怎麼放在一起進行轉換,都是你在構建自己的數據科學系統,或者是數據科學團隊的時候要思考的問題。

平臺和工具的選擇方面,很多人問我是不是開源就足夠了,這是分階段的,當你還在第一階段,使用開源工具很多情況是滿足需求的。下個階段,使用機器學習的算法解決業務問題。當你解決業務場景就要從開源技術走向工具,因為你面臨著模型的部署、上線、監控,全生命週期的管理,當你從一個智能場景走向多場景的時候,必將面臨大規模的模型服務的性能和穩定性問題,可擴展性以及團隊協同工作的問題,你要做一個智慧營銷2.0,有十幾個場景一起做,一定從工具上升到平臺。

再往前走是什麼?從平臺上升到所謂的大腦,有更多的外部數據,外部模型,供應商和諮詢公司都能給你提供,不只是一個大場景,也不只做營銷,還可能做各種業務。所以我們給出個線路圖,我們認為開源技術是開放性的根本,同時我們看到一個報道,70%關於數據科學和人工智能解決方案都是基於商業軟件開發的,這給我們發出了一個信號,商業軟件領域還是大有可為的。

全世界都在降低壁壘,未來是知識融合

為什麼持續性地降低壁壘,壁壘到底體現在哪裡?數據科學大軍中有不同的人,包括業務分析師,數據科學家,還有模型與算法運維工程師,這些人要懂機器學習,懂得寫代碼的話,這個要求就太高了。不同崗位的人有不同的職位需求,他們會使用不同的技能,確實需要提供一個工具集,甚至是一個平臺,幫助他們完成他們的使命。

九章雲極:數據科學平臺賦能傳統企業 | 愛分析活動

大圖的意思,包括上文提到的美國的三個公司,他們持續做了一件事情就是降低壁壘,也是我們做的事情。降低壁壘之後是什麼呢?我們的判斷是要解決知識融合,因為降低壁壘是指讓技術變容易,容易之後最重要的是取得業務價值,關鍵是知道使用新技術幫助我增加了多少營收,減少了多少損失。進入業務之後就會發現有非常多的業務需要支撐,上一位嘉賓講知識圖譜講的很好,當你要解決具體業務問題時不只需要機器學習算法,也需要使用知識圖譜,也需要使用數據中臺,八仙過海才能把業務解決好。

之前一個嘉賓也提到了,做視覺檢測,我們也有客戶解決這樣的需求。而九章不太一樣的是我們自己做的比較聚焦,我們提供數據科學平臺和模型,整個系統最終由合作伙伴給客戶交付。大的邏輯和大家看到的很多情況類似,我們也能看到數據科學平臺做的數據+算法這個事邏輯很清晰,有很多數據和圖片,我們加載一些算法,這裡面使用了深度學習的能力,讓我們可以在每條產線上訓練出來更適合產線的模型,進一步提高準確率。

最後提一下數據科學平臺肯定有未來,它將會帶來很多新的趨勢,低成本,低使用門檻的情況下,大家的需求是更加標準化的產品,而且非常強大的自動機器學習。即使我要開發,也希望是有低代碼的,可視化的開發能力。

積累效應上,所有的人都希望自己的產品、平臺、自己開發的系統,比如場景倉庫,算法倉庫,能夠擁有一些積累效應,另外還有知識融合積累你的業務知識,總而言之是個積累,讓你可以更好地進行擴展,重複使用。

還有一個具有網絡效應的就是聯邦學習,我們現在很多時候對數據抓的很嚴,不能交換數據了。我們能看到一個銀行如果想在自己已有客戶中推薦基金,就希望使用基金公司的模型,因為基金公司有幾千萬的客戶,他知道什麼東西賣給誰更合適,但是賣還是隻能通過銀行賣,那就沒法直接使用基金公司的模型。這個裡面有很大的市場需求,可能會使用聯邦學習的技術。

將來可能會進入一個時代,大家都通過訓練自己的模型,並且交換一些模型的部分,這樣的場景將會在不就的未來成為現實。

這是我今天的分享,謝謝大家。

九章雲極:數據科學平臺賦能傳統企業 | 愛分析活動


九章雲極:數據科學平臺賦能傳統企業 | 愛分析活動


分享到:


相關文章: