01.13 大數據5大關鍵處理技術


大數據5大關鍵處理技術

大數據已經逐漸普及,大數據處理關鍵技術一般包括:大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用大數據檢索、大數據可視化、大數據應用、大數據安全等)。

一、數據採集

如何從大數據中採集出有用的信息已經是大數據發展的關鍵因素之一。因此在大數據時代背景下,如何從大數據中採集出有用的信息已經是大數據發展的關鍵因素之一,數據採集才是大數據產業的基石。那麼什麼是大數據採集技術呢?數據採集(DAQ): 又稱數據獲取,是指從傳感器和其它待測設備等模擬和數字被測單元中自動採集信息的過程。

數據分類新一代數據體系中,將傳統數據體系中沒有考慮過的新數據源進行歸納與分類,可將其分為線上行為數據與內容數據兩大類。

▷線上行為數據:頁面數據、交互數據、表單數據、會話數據等。

▷內容數據:應用日誌、電子文檔、機器數據、語音數據、社交媒體數據等。

▷大數據的主要來源(人、環境、物體等,互聯網,物聯網等):

1)商業數據

2)互聯網數據

3)傳感器數據

數據採集與大數據採集區別

傳統數據採集

1. 來源單一,數據量相對於大數據較小

2. 結構單一

3. 關係數據庫和並行數據倉庫

大數據的數據採集

1. 來源廣泛,數據量巨大

2. 數據類型豐富,包括結構化,半結構化,非結構化

3. 分佈式數據庫


傳統數據採集的不足

傳統的數據採集來源單一,且存儲、管理和分析數據量也相對較小,大多采用關係型數據庫和並行數據倉庫即可處理。

對依靠並行計算提升數據處理速度方面而言,傳統的並行數據庫技術追求高度一致性和容錯性,根據CAP理論,難以保證其可用性和擴展性

大數據採集新的方法

▷系統日誌採集方法

很多互聯網企業都有自己的海量數據採集工具,多用於系統日誌採集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均採用分佈式架構,能滿足每秒數百MB的日誌數據採集和傳輸需求。

▷網絡數據採集方法

網絡數據採集是指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。

該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,並以結構化的方式存儲。

它支持圖片、音頻、視頻等文件或附件的採集,附件與正文可以自動關聯。

除了網絡中包含的內容之外,對於網絡流量的採集可以使用DPI或DFI等帶寬管理技術進行處理。

▷其他數據採集方法

對於企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式採集數據。


二、大數據預處理

高質量的決策必須依賴高質量的數據,而從現實世界中採集到的數據大多是不完整、結構不一致、含噪聲的髒數據,無法直接用於數據分析或挖掘。數據預處理就是對採集到的原始數據進行清洗、填補、平滑、合併、規格化以及檢查一致性等。這個處理過程可以幫助我們將那些雜亂無章的數據轉化為相對單一且便於處理的構型,以達到快速分析處理的目的。

通常數據預處理包含三個部分:

數據清理、數據集成、變換以及數據規約。

一)、數據清理

並不是所有的數據都是有價值的,有些數據並不是我們所關心的內容,有些甚至是完全錯誤的干擾項。因此要對數據過濾、去噪,從而提取出有效的數據。

數據清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音數據處理(數據中存在著錯誤、或偏離期望值的數據)、不一致數據處理。

大數據5大關鍵處理技術

遺漏數據可用全局常量、屬性均值、可能值填充或者直接忽略該數據等方法處理;

噪音數據可用分箱(對原始數據進行分組,然後對每一組內的數據進行平滑處理)、聚類、計算機人工檢查和迴歸等方法去除噪音;對於不一致數據則可進行手動更正。

大數據5大關鍵處理技術

二)、數據集成與變換

數據集成是指把多個數據源中的數據整合並存儲到一個一致的數據庫中。這一過程中需要著重解決三個問題:模式匹配、數據冗餘、數據值衝突檢測與處理。

由於來自多個數據集合的數據在命名上存在差異,因此等價的實體常具有不同的名稱。如何更好地對來自多個實體的不同數據進行匹配是如何處理好數據集成的首要問題。

數據冗餘可能來源於數據屬性命名的不一致,在解決數據冗餘的過程中,可以利用皮爾遜積矩Ra,b來衡量數值屬性,絕對值越大表明兩者之間相關性越強。對於離散數據可以利用卡方檢驗來檢測兩個屬性之間的關聯。

大數據5大關鍵處理技術

數據集成中最後一個重要問題便是數據值衝突問題,主要表現為來源不同的統一實體具有不同的數據值。

為了更好地對數據源中的數據進行挖掘,數據變換是必然結果。其主要過程有平滑、聚集、數據泛化(使用高層的概念來替換低層或原始數據)、規範化(對數據)以及屬性構造等。

大數據5大關鍵處理技術

三)、數據規約

數據規約主要包括:數據方聚集、維規約、數據壓縮、數值規約和概念分層等。

假若根據業務需求,從數據倉庫中獲取了分析所需要的數據,這個數據集可能非常龐大,而在海量數據上進行數據分析和數據挖掘的成本又極高。使用數據規約技術則可以實現數據集的規約表示,使得數據集變小的同時仍然近於保持原數據的完整性。在規約後的數據集上進行挖掘,依然能夠得到與使用原數據集近乎相同的分析結果。


三、存儲及管理技術

在大數據時代的背景下,海量的數據整理成為了各個企業急需解決的問題。

雲計算技術、物聯網等技術快速發展,多樣化已經成為數據信息的一項顯著特點,為充分發揮信息應用價值,有效存儲已經成為人們關注的熱點。

為了有效應對現實世界中複雜多樣性的大數據處理需求,需要針對不同的大數據應用特徵,從

多個角度、多個層次對大數據進行存儲和管理。

一)大數據面臨的存儲管理問題

●存儲規模大

大數據的一個顯著特徵就是數據量大,起始計算量單位至少是PB,甚至會採用更大的單位EB或ZB,導致存儲規模相當大。

●種類和來源多樣化,存儲管理複雜

目前,大數據主要來源於搜索引擎服務、電子商務、社交網絡、音視頻、在線服務、個人數據業務、地理信息數據、傳統企業、公共機構等領域。

因此數據呈現方法眾多,可以是結構化、半結構化和非結構化的數據形態,不僅使原有的存儲模式無法滿足數據時代的需求,還導致存儲管理更加複雜。

●對數據服務的種類和水平要求高

大數據的價值密度相對較低,以及數據增長速度快、處理速度快、時效性要求也高

,在這種情況下如何結合實際的業務,有效地組織管理、存儲這些數據以能從浩瀚的數據中,挖掘其更深層次的數據價值,需要亟待解決。

大規模的數據資源蘊含著巨大的社會價值,有效管理數據,對國家治理、社會管理、企業決策和個人生活、學習將帶來巨大的作用和影響,因此在大數據時代,必須解決海量數據的高效存儲問題。


二)我國大數據的存儲及處理能力挑戰

當前,我國大數據存儲、分析和處理的能力還很薄弱,與大數據相關的技術和工具的運用也相當不成熟,大部分企業仍處於IT產業鏈的低端。


我國在數據庫、數據倉庫、數據挖掘以及雲計算等領域的技術,普遍落後於國外先進水平。

在大數據存儲方面,數據的爆炸式增長,數據來源的極其豐富和數據類型的多種多樣,使數據存儲量更龐大,對數據展現的要求更高。而目前我國傳統的數據庫,還難以存儲如此巨大的數據量。

因此,如何提高我國對大數據資源的存儲和整合能力,實現從大數據中發現、挖掘出有價值的信息和知識,是當前我國大數據存儲和處理所面臨的挑戰。


三)大數據存儲管理技術

近年來,企業也從大數據中受益,大幅度推動支出和投資,並允許他們與規模更大的企業進行競爭。

所有事實和數字的存儲和管理逐漸變得更加容易。以下是有效存儲和管理大數據的三種方式。

●不斷加密

任何類型的數據對於任何一個企業來說都是至關重要的,而且通常被認為是私有的,並且在他們自己掌控的範圍內是安全的。

然而,黑客攻擊經常被覆蓋在業務故障中,最新的網絡攻擊活動在新聞報道不斷充斥。因此,許多公司感到很難感到安全,尤其是當一些行業巨頭經常成為攻擊目標時。

隨著企業為保護資產全面開展工作,加密技術成為打擊網絡威脅的可行途徑。將所有內容轉換為代碼,使用加密信息,只有收件人可以解碼。

如果沒有其他的要求,則加密保護數據傳輸,增強在數字傳輸中有效地到達正確人群的機會。

●倉庫存儲

大數據似乎難以管理,就像一個永無休止統計數據的複雜的漩渦。

因此,將信息精簡到單一的公司位置似乎是明智的,這是一個倉庫,其中所有的數據和服務器都可以被充分地規劃指定。

然而,有些報告指出了反對這種方法的論據,指出即使是最大的存儲中心,大數據的指數增長也不再能維持。

然而,在某些情況下,企業可能會租用一個倉庫來存儲大量數據,在大數據超出的情況下,這是一個臨時的解決方案,而LCP屬性提供了一些很好的機會。

畢竟,企業不會立即被大量的數據所淹沒,因此,為物理機器租用倉庫至少在短期內是可行的。這是一個簡單有效的解決方案,但並不是永久的成本承諾。

●備份服務 - 雲端

除了所有技術的發展,大數據增長得更快,以這樣的速度,世界上所有的機器和倉庫都無法完全容納它。

因此,由於雲存儲服務推動了數字化轉型,雲計算的應用越來越繁榮。數據在一個位置不再受到風險控制,並隨時隨地可以訪問,大型雲計算公司(如谷歌雲)將會更多地訪問基本統計信息。

如果出現網絡攻擊,雲端將以A遷移到B的方式提供獨一無二的服務。


三)結論

目前原有的存儲模式以及跟不上時代的步伐,無法滿足數據時代的需求,導致信息處理技術無法承載信息的負荷量。

這就需要對數據的存儲技術和存儲模式進行創新與研究,跟上數字化存儲的技術的發展步伐,給用戶提供一個具有高質量的數據存儲體驗。

根據大數據的特點的每一種技術都各有所長,彼此都有各自的市場空間,在很長的一段時間內,滿足不同應用的差異化需求。

但為了更好的滿足大數據時代的各種非結構化數據的存儲需求,數據管理和存儲技術仍需進一步改進和發展

可能有些中小企業無法自己快速的獲取自己的所需的數據進行分析,這就需要到了第三方的數據平臺進行大數據分析


四、大數據分析及挖掘技術

數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

一)數據挖掘對象:根據信息存儲格式,用於挖掘的對象有關係數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時態數據庫、異質數據庫以及Internet等。

二)數據挖掘流程

1)定義問題:清晰地定義出業務問題,確定數據挖掘的目的。

2)數據準備:數據準備包括:選擇數據–在大型數據庫和數據倉庫目標中 提取數據挖掘的目標數據集;

3)數據預處理–進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。

4)數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在淨化和轉換過的數據集上進行數據挖掘。

5)結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。

三)數據挖掘分類

直接數據挖掘:目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變量(可以理解成數據庫中表的屬性,即列)進行描述。

間接數據挖掘:目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關係。

四)數據挖掘的方法

1、神經網絡方法

神經網絡由於本身良好的魯棒性、自組織自適應性、並行處理、分佈存儲和高度容錯等特性非常適合解決數據挖掘的問題,因此近年來越來越受到人們的關注。

2、遺傳算法

遺傳算法是一種基於生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。遺傳算法具有的隱含並行性、易於和其它模型結合等性質使得它在數據挖掘中被加以應用。

3、決策樹方法

決策樹是一種常用於預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。

粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易於操作。粗集處理的對象是類似二維關係表的信息表。

4、覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則捨去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。

5、統計分析方法

在數據庫字段項之間存在兩種關係:函數關係和相關關係,對它們的分析可採用統計學方法,即利用統計學原理對數據庫中的信息進行分析。可進行常用統計、迴歸分析、相關分析、差異分析等。

6、模糊集方法

即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。

大數發掘技術,目前,還需要改進已有數據挖掘和機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。

五)著重突破技術

1. 可視化分析

不論是分析專家,還是普通用戶,在分析大數據時,最基本的要求就是對數據進行可視化分析。經過可視化分析後,大數據的特點可以直觀地呈現出來,將單一的表格變為豐富多彩的圖形模式,簡單明瞭、清晰直觀,更易於讀者接受。

2. 數據挖掘算法

數據挖掘算法是根據數據創建數據挖掘模型的一組試探法和計算。為了創建該模型,算法將首先分析用戶提供的數據,針對特定類型的模式和趨勢進行查找。

並使用分析結果定義用於創建挖掘模型的最佳參數,將這些參數應用於整個數據集,以便提取可行模式和詳細統計信息。

大數據分析的理論核心就是數據挖掘算法,數據挖掘的算法多種多樣,不同的算法基於不同的數據類型和格式會呈現出數據所具備的不同特點。各類統計方法都能深入數據內部,挖掘出數據的價值。

為特定的分析任務選擇最佳算法極具挑戰性,使用不同的算法執行同樣的任務,會生成不同的結果,而某些算法還會對同一個問題生成多種類型的結果。

3. 預測性分析

大數據分析最重要的應用領域之一就是預測性分析,

預測性分析結合了多種高級分析功能,包括特別統計分析、預測建模、數據挖掘、文本分析、實體分析、優化、實時評分、機器學習等。

從紛繁的數據中挖掘出其特點,可以幫助我們瞭解目前狀況以及確定下一步的行動方案,從依靠猜測進行決策轉變為依靠預測進行決策。它可幫助分析用戶的結構化和非結構化數據中的趨勢、模式和關係,運用這些指標來洞察預測將來事件,並作出相應的措施。

4. 語義引擎

非結構化數據的多元化給數據分析帶來新的挑戰,我們需要一套工具系統地去分析,提煉數據。語義引擎是語義技術最直接的應用,可以將人們從繁瑣的搜索條目中解放出來,讓用戶更快、更準確、更全面地獲得所需信息,提高用戶的互聯網體驗。

5. 數據質量和數據管理

大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理無論是在學術研究還是在商業應用領域都極其重要,各個領域都需要保證分析結果的真實性和價值性。

可能有些中小企業無法自己快速的獲取自己的所需的數據進行分析,這就需要到了第三方的數據平臺進行大數據分析。

五、大數據應用

大數據技術能夠將隱藏於海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。

最後,是展現,主要是可視化,現在有很多工具,可以直接展現出各種靜態和動態效果,非常酷炫。在此不做描述。


大數據5大關鍵處理技術


大數據5大關鍵處理技術


分享到:


相關文章: