大數據和數據挖掘的區別?

育兒奶爸


隨著大數據的興起,隱藏在大數據背後的相關技術也逐漸被揭開神秘的面紗,其中,數據挖掘即是大數據應用過程中非常重要的環節。以下是國內領先的移動大數據服務商極光大數據的副總裁陳宇針對數據挖掘技術的簡析,並對比總結了大數據時代下的數據挖掘技術相較於傳統數據挖掘的突出優勢。

數據挖掘技術概要

從海量的數據庫中選擇、探索、識別出有效的、新穎的、具有潛在效用的乃至最終可理解的模式以獲取商業利益的非平凡的過程就是Fayyad和Piatetsky-Shapiror在1996年提出的數據挖掘的定義。這個定義有三個要點:處理海量的數據;揭示企業運作中的內在規律;為企業運作提供直接決策分析,並帶來巨大經濟效益。

技術不斷演進,社會不斷髮展,對於數據挖掘的定義也發生了一些變化。例如對於數據量級的變化,從海量已經到了巨量。在1996年的時候,人們是無法想象2017年我們將會處理如此巨大的數據。而數據處理的樣本規模也在從採樣發展到全量,例如極光大數據在處理關鍵人的同軌分析特徵識別的時候,會處理幾百億的位置信息軌跡,從中提煉出具有相同軌跡的設備信息,從而通過設備信息關聯出自然人的相互關係等等。

同時,相對於1996年,數據應用發掘企業的內在規律已經拓展到了社會運行特徵、人群行為特徵、經濟發展特徵等等各個方面。而數據挖掘的目的也不僅是為了經濟效益,也對社會生產力提升和管理水平提升提供了相應支持。

數據挖掘過程的關鍵點

傳統數據挖掘過程一般採用如下過程:

數據挖掘的過程

在大數據時代,數據挖掘的過程本質相同,但是有如下差異:

大數據時代數據挖掘的差異

1.從結構化數據到非結構化數據。傳統的數據挖掘都是依據數據庫裡面的數據進行分析,在大數據時代,數據來源多種多樣,對於這些非結構化數據的加工是大數據數據挖掘的重要特徵。因為非結構化數據處理的成功與否決定了大數據數據源的質量好壞,而這並不是算法可以解決的。

2.從抽樣數據到全量數據。傳統數據挖掘受制於數據處理能力,只能使用少量的抽樣數據進行分析。在大數據技術環境下,完全可以實現全量數據的分析,效率甚至可能高於抽樣數據的分析。

3.從因果關係到相關性分析。大數據分析通過事件和多種因素進行相關性分析,通過數據挖掘和機器學習的算法找到其關聯關係,並運用迴歸分析從而實現預測。

數據挖掘的任務按照目標可以分為4類:

1) 分類:通過分析訓練集的數據,為每一個分類建立分類分析模型,用這個已知的規律對其他數據進行分類

2) 迴歸:建立因變量和自變量之間關係的模型

3) 聚類:將對象集合分成由類似的對象組成的多個類的過程

4) 關聯規則:尋找給定數據集合中各個因子之間的關聯關係

人們經常見到的“邏輯迴歸模型”、“神經網絡模型”、“遺傳算法”、“決策樹”等等都是監督學習過程的挖掘算法。這類算法在機器學習和深度學習裡面大量使用,是大數據公司必備的專業技能。極光大數據作為國內領先的移動大數據服務商,在這方面的實際案例頗多,例如極光大數據團隊利用神經網絡算法預測個人前往某一個特定區域的概率和時間,準確度可以達到80%以上;他們還利用神經網絡算法和隨機森林算法對個人喜歡的移動應用進行推薦下載和推薦產品;此外,極光大數據團隊還自主開發了空間軌跡相似度STS(spatial trajectory similarity)算法進行同軌分析等。

數據挖掘技術隨著大數據時代的到來已變幻出更強的功能特徵,而在大數據服務商的精耕細作下,也必將為各行業帶來進步的動力。


哦落伍0215745


  數據挖掘基於數據庫理論,機器學習,人工智能,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的算法,源於機器學習的神經網絡,決策樹,也有基於統計學習理論的支持向量機,分類迴歸樹,和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。

  大數據是最近幾年提出來,也是媒體忽悠的一個概念。有三個重要的特徵:數據量大,結構複雜,數據更新速度很快。由於Web技術的發展,web用戶產生的數據自動保存、傳感器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(一般而言,數據挖掘的實施基於一臺小型機或大型機,也可以進行並行計算)。Google提出了分佈式存儲文件系統,發展出後來的雲存儲和雲計算的概念。

  大數據需要映射為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然需要採用一些數據挖掘技術,區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中,有些算法需要調整。

  此外,大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大數據時代,可能得到的是總體,而不再是總體的不放回抽樣。

  以山西開礦的煤老闆為例:

  開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。

  之後是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機,運輸機。

  之後是加工,洗煤,煉丹,等等。

  最後才是轉化為銀子。

  數據行業十分類似:

  挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。

  之後是數據挖掘,要把這些埋藏的數據挖掘出來。

  之後是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。

  直到這一步,才創造了價值。

  所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶佔成為煤老闆吧,下一個蓋茨興許將在這裡誕生。

  接下來好好說。如果說硬要說相似度的話,那麼重合度的確是有很高。因為大數據乾的事情其實就是數據挖掘做的事情。

  數據挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那麼說,這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說,大數據很大程度上是數據挖掘的一個好聽的名字。

  其實也不能一概否定「大數據」,至少通過媒體的熱炒,讓很多人知道了「數據」的重要性。只是很多人都不知道怎麼做大數據,因為這個東西本來就是虛的嘛。如果想了解大數據,那麼踏踏實實的做法是學習一下「數據挖掘」和「機器學習」相關的知識。


西線學院


不久前剛從貴陽採訪大數據回來,接觸貴陽大數據管理者多位,大數據企業十數家,著實被掃盲一通,也有新的認知。大數據是泛概念,包括數據的採集、收集、過濾、篩選、開掘、應用、使用、反饋,等等等等。數據先得大,越大越好,越大越有空間與餘地,先是越多越大越好,如國庫糧倉,多了大了,迴旋的餘地才大 。然後是分門別類的篩選、過濾,有粗選,有細分,留以待用。第三步是根本用戶要求和需求,開掘應用,利用數據作用於現實的生產、生活,對其產生影響,促進生產、生活的改變與改善。最後是在作用於生產、生活後,使用後的情況的數據收集與反饋,實現數據運行中的閉合循環,以此為依據進一步完善數據庫,並促進開掘應有的再升級……如此往復無限……乃大數據和數據開掘之本、之實。


陳言微事


個人理解,嚴格講不是大數據和數據挖掘區別,是大數據分析和數據挖掘的區別,大數據分析是宏觀分析,主要屬於應用範疇,是目前針對各行各業進行的數據進行採集,歸納,整理分析的過程,而數據挖掘相對微觀,主要屬於技術範疇,在大數據的基礎上進行深層次應用,分析,課題研究與計算,兩者基礎不同,分析的角度也不同。打個比方,在醫療領悟,對各種數據進行採集,並對某一病例進行快速查找屬於大數據分析問題,而針對該病種大量本數據進行分析研究算法,得出該病種的數據技術特徵,屬於數據挖掘的範疇,大數據分析相對廣義,可以包含數據挖掘,而數據挖掘則比較狹義,偏向於具體分析。


應言無語


大數據不是一個很明確的概念,比較泛,挖掘在一定程度上是分析的概念,不知道你想知道了解啥,沒必要糾結於概念或者名詞的差異,如果你想做點實用的現在的產品也很多,數據挖掘的模型軟件或者大數據處理平臺,只要能解決問題帶來增值價值的就會一直存著



回到本質看還是要解決什麼問題

這是上半年國際數據中心公司IDC關於大數據分析和認知智能的一些預測,都是一些比較流行的技術趨勢正在逐漸推廣應用

以後的事業會很極端一端是純數字另一端是人的情感,這就是數字時代


愛己健康


數據挖掘是大數據的一部分。大數據通常包含以下過程:數據的蒐集與清洗過濾,數據進行轉換形成智能報表,利用機器學習算法從數據中得到有價值的模式和信息,數據挖掘就是屬於最後一類。


分享到:


相關文章: