2019年大數據技術應用發展趨勢

2019年大數據技術應用發展趨勢

2019年大

當前最火熱的新興科技莫過於人工智能,而國內的大數據公司也紛紛轉戰AI戰場。某種程度上,大數據已不再是科技界的話題寵兒。在Gartner的Hype Cycle中,大數據技術也已經進入到了Plateau of Productivity的商業化應用階段。

任何新興科技總會經歷創新萌芽到期望幻滅的週期,這並不奇怪。就2018年行業應用現狀來看,大數據正逐步成為企業的標準化應用技術:從早期嘗試搭建分佈式集群、到數據採集彙總、到數據加工與開發、再到大數據的應用場景落地,企業數據架構已經全面接納、融合了分佈式平臺,並經歷了從集中式、到混合式的探索期。

在這裡我還是要推薦下我自己建的大數據學習交流裙:667367234, 裙 裡都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發黨,不定期分享乾貨(只有大數據開發相關的),包括我自己整理的一份2018最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小夥伴。

大數據技術的成熟應用也間接推動了技術社區的發展。Hadoop\Spark已經被大部分企業所接納,事實標準的地位愈加穩固;Spark 2.4的發佈能夠看出對微批(micro-batch)處理的優化和Avro格式的數據支持。在流計算領域,Kafka Streams逐漸被企業所採納作為低延遲的選型方案;Flink和Spark Streaming仍是採用最多的計算框架,與實時機器學習結合應用於風控、營銷、信貸等場景端。此外,2018年容器技術和機器學習隨著AI的潮流開始規模化應用於零售、金融、政府等領域,如Kubernetes/Docker、TensorFlow。

2019年大數據領域的技術及應用的發展總體上仍將處於一個穩步迭代的創新週期。在新興開源技術的嘗試方面,企業將更趨於理性和審慎;大數據計算引擎、大數據PaaS及工具和組件成為科技部門的標配;結合AI技術,大數據應用將大量落地,併產生業務價值。

根據技術市場和企業客戶需求的觀察,我總結了2019年大數據技術發展趨勢。總體來說,數據資產管理、增強分析、智能化數據基礎設施、面向AI的分佈式框架看、數據安全管理是大數據技術應用領域的幾個關鍵方向。

2019年大數據技術應用發展趨勢

1.數據資產管理

隨著大數據與人工智能在行業中的應用進入深水區,企業將越來越重視數據資產管理方法論體系建設——即從架構、標準、研發、質量、安全、分析到應用的統一,從而實現技術到業務價值的轉化和變現。

一個比較奇怪的現象是:雖然越來越多的企業嘗試採用了大數據技術、也在業務場景中嘗試運用AI技術,但行業整體上仍缺少數據資產管理的方法論體系。換句話說,技術的應用超前於規則、標準和制度。事實上,仍然沒有太多企業將數據作為資產進行有序、價值的整理,而只是把數據治理工作作為一項必須完成的任務來執行(監管要求等原因)。

2019年數據資產管理將仍是企業數據部門面臨的難點與挑戰。即使是大型、領先的互聯網公司和科技型企業,在數據資產管理這一課題上仍在不斷探索新的方法,如全鏈路智能管理體系、數據資產的貢獻度、資產定義與研發管理的有機整合、數據基線度量與質量規範的工具化、可視化等。

2.增強分析

Gartner把增強分析(Augmented Analytics)定義為:側重於增強智能的特定領域,使用機器學習來轉換分析內容的開發、消費和共享方式。增強分析功能將迅速推進到主流應用,作為數據準備、數據管理、現代分析、業務流程管理、流程挖掘和數據科學平臺的關鍵特性。

近兩年自助式BI分析工具和算法平臺已經屢見不鮮,但在實際行業應用中帶來的業務價值並不大。究其原因,我認為一方面是常規的自助式BI分析和算法平臺仍未脫離工具範疇,離實際的業務場景距離仍然較遠。換句話說並沒有深度集成到業務流程當中;另一方面是從BI到AI仍需要解決數據抽取、數據預處理、數據融合的問題,這需要佔據數據科學家大量的時間。如何解決普通業務用戶也能快捷便利的訪問數據並進行驗證分析是實現自動化分析的一大難點。

增強分析是數據科學的深化應用。通過將機器學習算法自動化實現數據準備,簡化數據處理過程,實現分析及洞察的自動化,為傳統業務人員提供了更便捷的通過數據和算法實現業務分析的可能性。

3.AI驅動的數據基礎設施

在這裡我還是要推薦下我自己建的大數據學習交流裙:667367234, 裙 裡都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發黨,不定期分享乾貨(只有大數據開發相關的),包括我自己整理的一份2018最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小夥伴。

2018年基本可以稱之為人工智能的元年。多數企業佈局了機器學習、深度學習技術的人力、工具和基礎設施,有一些行業解決方案也逐步落地。不過在真實世界中,搭建基於AI的生態系統,重點並非算法本身,“AI驅動業務價值”這一命題意味著高昂的成本和資源投入。

Google在其論文《Hidden Technical Debt in Machine Learning Systems》中提到:真實世界中的AI系統只有一小部分依賴於機器學習算法,其依賴於大量複雜的基礎設施。在數據配置、數據採集、特徵提取、數據校驗、資源管理、分析工具、服務基礎設施、監控工具均需要高昂的開銷。在多數領域,AI驅動的生產力仍未實現規模效應,如何解決數據基礎設施的自動化。

2019年大數據技術應用發展趨勢

Only a small fraction of real-world ML systems is composed of the ML code, as shown by the smallblack box in the middle. The required surrounding infrastructure is vast and complex.

從今年的大數據平臺和工具市場來看,越來越多的構建AI解決方案工具,從AI建模、AI算法框架的工具,逐步演化為面向數據開發、流程調度、A/B實驗、數據分析、服務管理等工具,從而實現AI驅動的數據基礎設施。這種趨勢意味著過去專業的數據科學家、數據工程師與開發人員合作實現AI解決方案,逐漸轉變為開發者可以通過AI驅動的數據基礎設施(如開發測試工具、建模工具、分析工具等),獨立實現AI應用的開發過程;而數據科學家更專注於算法本身的構建及優化。

4.面向AI的分佈式計算框架

隨著AI成為科技領域的寵兒,以及機器學習技術的進步,對於面向AI的分佈式計算系統的需求變得更加迫切。一種激進的聲音是Hadoop/Spark已死,市場需要性能更好、擴展性更強、更適應AI時代的計算引擎解決方案。但這種論調看看也就罷了。Hadoop/Spark陣營的開源分佈式社區已成為大數據處理的事實標準,在行業中的應用也在不斷深化,各類商業化版本也在為滿足更多的行業解決方案而迭代。不過,由於Hadoop/Spark設計的初衷並不是為了構建AI應用,在性能、任務並行、任務狀態可變、異構計算(如GPU與CPU)等方面均有一定的問題和瓶頸。

目前開源社區已經有一些面向AI的分佈式計算框架,比如UC Berkeley的Ray項目。與MapReduce和Spark這類並行跑批處理架構不同,AI分佈式架構要求支持更細細粒度任務依賴,比如小數據量訓練、靈活任務依賴、以及異構計算的優化。而大數據商業化公司、Hadoop發行版廠商如Cloudera(現已於Hortonworks合併),也勢必在AI和機器學習應用領域進行產品調整和重構,以提供更多的基於雲端的AI解決方案。

2019年大數據技術應用發展趨勢

5.數據安全即服務

安全與隱私保護是這兩年提及較多的關鍵詞,尤其在GDPR(General Data Protection Regulation)發佈之後,敏感信息約束和數據安全檢查成為互聯網、移動端的用戶數據管控的難點。在過去,數據安全管理在很多企業搭建大數據平臺和應用時容易忽視的點,如安全定級、隱私分級、數據打標、加密與脫敏、自動化訪問授權等。

在未來一到兩年,企業將越來越重視數據安全管理的應用,在信息安全上的投資預算增長迅速。Gartner曾預測在2019年全球企業在信息安全產品及服務上的投資將達到1240億美元,同比增8.7%。這個數字我認為略顯保守,低估了數據安全和隱私保護領域應用前景。事實上在2017-2018年,國內大數據市場已經出現了不少專注於數據安全領域的供應商,提供隱私訪問控制、數據加密脫敏、信息風險監測、數據沙箱等產品應用。這一領域的賽道目前規模還不大、市場比較分散,細分領域的廠商多以客戶本地化部署為主。隨著DevSecOps(開發、安全與運維)和大數據安全分析平臺等理念逐步被市場所採納,數據安全即服務的雲託管服務將更為普及,而基於機器學習的數據安全預測和分析引擎也將出現,應用於數據加密、脫敏、打標、事件分析、惡意文件檢測、SIEM系統等領域。

關注微信公眾號:程序員交流互動平臺!獲取資料學習!

數據技術與應用發展趨勢:數據資產管理、增強分析、智能化數據基礎設施、面向AI的分佈式框架、數據安全即服務。


分享到:


相關文章: