從三個方向去預測大數據發展的未來趨勢

技術的發展,讓這個世界每天都在源源不斷地產生數據,隨著大數據概念被提出,這個技術逐漸發展成為一個行業,並被不斷看好。那麼大數據行業的未來發展如何?三個方向預測大數據技術發展未來趨勢:

(一)社交網絡和物聯網技術拓展了數據採集技術渠道

經過行業信息化建設,醫療、交通、金融等領域已經積累了許多內部數據,構成大數據資源的“存量”;而移動互聯網和物聯網的發展,大大豐富了大數據的採集渠道,來自外部社交網絡、可穿戴設備、車聯網、物聯網及政府公開信息平臺的數據將成為大數據增量數據資源的主體。當前,移動互聯網的深度普及,為大數據應用提供了豐富的數據源。

從三個方向去預測大數據發展的未來趨勢

另外,快速發展的物聯網,也將成為越來越重要的大數據資源提供者。相對於現有互聯網數據雜亂無章和價值密度低的特點,通過可穿戴、車聯網等多種數據採集終端,定向採集的數據資源更具利用價值。例如,智能化的可穿戴設備經過幾年的發展,智能手環、腕帶、手錶等可穿戴正在走向成熟,智能鑰匙扣、自行車、筷子等設備層出窮,國外 Intel、Google、Facebook,國內百度、京東、小米等有所佈局。

企業內部數據仍是大數據主要來源,但對外部數據的需求日益強烈。當前,有 32%的企業通過外部購買所獲得的數據;只有18%的企業使用政府開放數據。如何促進大數據資源建設,提高數據質量,推動跨界融合流通,是推動大數據應用進一步發展的關鍵問題之一。

總體來看,各行業都在致力於在用好存量資源的基礎之上,積極拓展新興數據收集的技術渠道,開發增量資源。社交媒體、物聯網等大大豐富了數據採集的潛在渠道,理論上,數據獲取將變得越來越容易。

(二) 分佈式存儲和計算技術夯實了大數據處理的技術基礎

大數據存儲和計算技術是整個大數據系統的基礎。

在存儲方面,2000 年左右谷歌等提出的文件系統(GFS)、以及隨後的 Hadoop 的分佈式文件系統 HDFS(Hadoop Distributed File System)奠定了大數據存儲技術的基礎。

與傳統系統相比,GFS/HDFS 將計算和存儲節點在物理上結合在一起,從而避免在數據密集計算中易形成的 I/O吞吐量的制約,同時這類分佈式存儲系統的文件系統也採用了分佈式架構,能達到較高的併發訪問能力。

在計算方面,谷歌在 2004 年公開的 MapReduce 分佈式並行計算技術,是新型分佈式計算技術的代表。一個 MapReduce 系統由廉價的通用服務器構成,通過添加服務器節點可線性擴展系統的總處理能力(Scale Out),在成本和可擴展性上都有巨大的優勢。

(三) 深度神經網絡等新興技術開闢大數據分析技術的新時代

大數據數據分析技術,一般分為聯機分析處理(OLAP,OnlineAnalytical Processing)和數據挖掘(Data Mining)兩大類。

OLAP技術,一般基於用戶的一系列假設,在多維數據集上進行交互式的數據集查詢、關聯等操作(一般使用 SQL 語句)來驗證這些假設,代表了演繹推理的思想方法。

數據挖掘技術,一般是在海量數據中主動尋找模型,自動發展隱藏在數據中的模式(Pattern),代表了歸納的思想方法。

傳統的數據挖掘算法主要有:

(1)聚類,又稱群分析,是研究(樣品或指標)分類問題的一種統計分析方法,針對數據的相似性和差異性將一組數據分為幾個類別。屬於同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。企業通過使用聚類分析算法可以進行客戶分群,在不明確客戶群行為特徵的情況下對客戶數據從不同維度進行分群,再對分群客戶進行特徵提取和分析,從而抓住客戶特點推薦相應的產品和服務。

(2)分類,類似於聚類,但是目的不同,分類可以使用聚類預先生成的模型,也可以通過經驗數據找出一組數據對象的共同點,將數據劃分成不同的類,其目的是通過分類模型將數據項映射到某個給定的類別中,代表算法是 CART(分類與迴歸樹)。企業可以將用戶、產品、服務等各業務數據進行分類,構建分類模型,再對新的數據進行預測分析,使之歸於已有類中。分類算法比較成熟,分類準確率也比較高,對於客戶的精準定位、營銷和服務有著非常好的預測能力,幫助企業進行決策。

(3)迴歸,反映了數據的屬性值的特徵,通過函數表達數據映射的關係來發現屬性值之間的一覽關係。它可以應用到對數據序列的預測和相關關係的研究中。企業可以利用迴歸模型對市場銷售情況進行分析和預測,及時作出對應策略調整。在風險防範、反欺詐等方面也可以通過迴歸模型進行預警。

傳統的數據方法,不管是傳統的 OLAP 技術還是數據挖掘技術,都難以應付大數據的挑戰。首先是執行效率低。傳統數據挖掘技術都是基於集中式的底層軟件架構開發,難以並行化,因而在處理 TB 級以上數據的效率低。其次是數據分析精度難以隨著數據量提升而得到改進,特別是難以應對非結構化數據。

在人類全部數字化數據中,僅有非常小的一部分(約佔總數據量的 1%)數值型數據得到了深入分析和挖掘(如迴歸、分類、聚類),大型互聯網企業對網頁索引、社交數據等半結構化數據進行了淺層分析(如排序),佔總量近 60%的語音、圖片、視頻等非結構化數據還難以進行有效的分析。

所以,大數據分析技術的發展需要在兩個方面取得突破,一是對體量龐大的結構化和半結構化數據進行高效率的深度分析,挖掘隱性知識,如從自然語言構成的文本網頁中理解和識別語義、情感、意圖等;二是對非結構化數據進行分析,將海量複雜多源的語音、圖像和視頻數據轉化為機器可識別的、具有明確語義的信息,進而從中提取有用的知識。

目前來看,以深度神經網絡等新興技術為代表的大數據分析技術已經得到一定發展。

神經網絡是一種先進的人工智能技術,具有自身自行處理、分佈存儲和高度容錯等特性,非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據,十分適合解決大數據挖掘的問題。

典型的神經網絡模型主要分為三大類:第一類是以用於分類預測和模式識別的前饋式神經網絡模型,其主要代表為函數型網絡、感知機;第二類是用於聯想記憶和優化算法的反饋式神經 網絡模型,以 Hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織映射方法,以 ART 模型為代表。不過,雖然神經網絡有多種模型及算法,但在特定領域的數據挖掘中使用何種模型及算法並沒有統一的規則,而且人們很難理解網絡的學習及決策過程。

隨著互聯網與傳統行業融合程度日益加深,對於 web 數據的挖掘和分析成為了需求分析和市場預測的重要段。Web 數據挖掘是一項綜合性的技術,可以從文檔結構和使用集合中發現隱藏的輸入到輸出的映射過程。

目前研究和應用比較多的是 PageRank 算法。PageRank是Google算法的重要內容,於2001年9月被授予美國專利,以Google創始人之一拉里·佩奇(Larry Page)命名。PageRank 根據網站的外部鏈接和內部鏈接的數量和質量衡量網站的價值。這個概念的靈感,來自於學術研究中的這樣一種現象,即一篇論文的被引述的頻度越多,一般會判斷這篇論文的權威性和質量越高。

需要指出的是,數據挖掘與分析的行業與企業特點強,除了一些最基本的數據分析工具外,目前還缺少針對性的、一般化的建模與分析工具。各個行業與企業需要根據自身業務構建特定數據模型。數據分析模型構建的能力強弱,成為不同企業在大數據競爭中取勝的關鍵。


分享到:


相關文章: