在大數據時代,怎麼入行大數據,成爲一名合格的數據分析師?

在大數據時代,數據分析、數據挖掘工作面臨著機遇與挑戰, 近年來,業界、學術界興起了大數據討論,一夜間大數據時代到來了。大數據給學術界帶來了新的思潮,大數據正在顛覆著很多傳統行業的模式,帶來變革。

大數據必將成為商業、政府、科研、教育、醫療等各行業面臨的一個挑戰。在大數據時代,數據分析、數據挖掘工作面臨著機遇與挑戰,本文從數據分析的角度,結合國內外相關研究,試圖回答大數據是什麼,如何應對大數據的問題。

在大數據時代,怎麼入行大數據,成為一名合格的數據分析師?

一、認識大數據

(一)大數據的宗旨:經過分析的數據才有價值

大數據要發揮作用必須經過分析,這是由大數據的4V特性(數據量大、數據類型多、要求處理速度快、低密度)決定的。也就是說,數據都是高維、低密度的,從單個數據中難以看出規律。因此,必須經過分析,針對高維進行降維,提煉大量低密度信息中的價值,才能發揮作用。否則,大數據背景下,反而更容易使得“活”信息混跡在大量“死”數據中被淹沒。面向大數據的分析要“簡單、迅速、規模化”。

(二)大數據的目標:實現基於數據的決策與資源配置

大數據最終要實現科學決策,基於信息對稱的有效資源配置。隨著大數據分析技術的發展,可利用數據來源從線下封閉的數據庫、數據倉庫擴展到開放性的O2O(Online To Offline)融合數據,可分析數據結構從原來以數值為主的結構化數據發展到涵蓋文本、視頻、音頻等多媒體數據。從而,大數據將逐步改變我們的決策目標和社會資源配置方式。基於數據的科學決策是一貫追求的目標。然而,信息不對稱是常態,因此傳統決策目標是建立相對滿意而非最優(決策科學家Simon提出),資源配置效率基於市場優於基於計劃。大數據背景下,迅速獲取分析更多輔助決策信息成為可能,因此決策目標可實現向最優的無限逼近,實現基於數據的“計劃”資源配置將更有效率。

(三)大數據的角度:個性化服務+中觀指數+宏觀連結

目前發展大數據,主要有基於數據為客戶提供個性化營銷服務、預測中觀行業或區域趨勢指數、基於連結的宏觀資源配置方案等角度。這不僅僅體現在阿里小微融資的個性化風控決策、高端品牌在線特賣品牌和定價動態決策(基於阿里巴巴網商活躍度指數和零售商品價格指數)、Discern group企業發展戰略諮詢報告上,還體現在阿里巴巴商務智能指數(預測經濟發展態勢)和基於公共氣象數據的各行業資源配置優化服務上。

互聯網金融是大數據發展各角度的前沿陣地。在金融領域,要實現從金融互聯網向互聯網金融的快速轉型。傳統模式下的金融企業開展網上業務,如:網上銀行、網上理財,並不是真正的互聯網金融。互聯網金融是指通過互聯網新技術為客戶實現搜索或風控等服務增值,比較有代表性的是,消除供求雙方結構不對稱的P2P貸款,提高存取效率的保值理財產品餘額寶。

(四)大數據的關鍵點:保證數據質量

要發展大數據分析,首先要保證數據質量。錯誤的輸入必然導致錯誤的輸出。沒有數據質量,一切都是浮雲。數據質量沒有保證,是不敢用的。數據質量是一項耗時、費力的基礎工作。

保證數據質量要求數據採集與清洗過程中秉持兩大原則:相關性和低噪聲。第一,大數據,數據並非越“大”越好,而是相關數據越“大”越好。特別是,在數據採集中,要以採集儘可能多的“相關”數據為目標,而非不加篩選越多越好。第二,大數據,首先數據獲取時要保證不存在誘導傾向的干擾因素,同時進行去噪處理。

保證數據質量要建立數據的數據。針對數據質量建立數據標籤,才有進步。有了對數據質量的數據,數據才能被決策者更為安全科學有效地使用。

(五)大數據競爭的核心:分析人才的競爭

大數據時代,作為一種資源,數據不再是稀缺資源。互聯網、門戶網站、社交網站、微博、微信等新媒體積累了大量數據,缺乏的是對這些數據的分析人員。缺乏專業的分析人才,即使守著數據的“金山”,也只能望“山”興嘆。因此,美國Turbo Financial Group採用最新的大數據分析技術聚焦被FICO遺忘的15%人群建模,阿里提出建立大數據分析的開放式平臺,希望能夠集結更多專家智慧,同時培養阿里分析人才,挖掘阿里數據“金礦”。

在大數據時代,怎麼入行大數據,成為一名合格的數據分析師?

二、把握大數據

大數據對社會生活帶來方方面面的影響,我們如何把握大數據時代的機遇,需要慎重對待大數據帶來的挑戰。總結起來,主要有三個方面:

(一)大數據時代,數據整理和清洗工作

(1)數據整理和清洗工作是數據分析的基礎。大數據專家根據經驗,普遍認為該工作是一項基礎性工作,耗時多且簡單,佔到數據分析工作量的60%以上,是數據分析前提和基礎。在此基上,數據分析工作需要對數據進行標識,進行深度分析,撰寫專題報告,確保結果可以執行,最終落實到決策和實施。

(2)大數據時代,需要充分藉助IT技術管理數據質量工作。在大數據時代,人工逐筆發現、解決數據質量問題的方式成本高、效率低,不可持續。要儘量規範化、系統化、自動化管理數據質量工作,將節省下的人力資源投入到新問題的研究中。

(二)大數據時代,數據分析的特點

(1)採用倒金字塔模式分配“思考、工作、分享”的時間比重。數據分析工作包括三部分:“思考”,分析實際問題,將實際問題轉化成數學模型,提出解決方案的過程;“工作”,將解決方案程序化,得出結果的過程;“分享”,將分析的結果,轉化為決策,付諸實施的過程。在時間分配上,金字塔結構或柱形結構的分佈形式不是最佳結構,倒金字塔結構比較合理。即,思考的過程花得時間長些,可以減少後期工作量,少走彎路。

(2)通過數據分析進行科學決策。很多人存在誤區,認為數據分析就是做報表、寫報告。在大數據時代,數據分析不僅僅停留在此,需要進行深度分析,建立數據化決策的流程。要尊重數據、認識數據,但不迷信數據。在尊重數據、尊重事實的前提下,減少主觀因素的干擾,快速做出數據化決策,這是一種能力。 (3)大數據時代,數據分析的要義是――簡單、迅速、規模化。數據分析的結果要簡潔、易懂;數據分析的時間要短,儘可能的自動化地出結果,要快速的滿足客戶的需求;數據分析的方法能夠實現大批量規模化。優秀的數據分析師應具有全局的預見性,一有問題可以馬上把該問題打成很碎、很多的問題,甚至把一個問題克隆出很多問題,從而與業務人員建立信任,降低工作量。

(4)從“死”信息中,分離出“活”的信息。大數據有數據量大的問題――產生大量的“死”數據。錯誤數據是指數據與實際情況不一致,異常數據是指數據正確但數據遠離群體的大多數,這類數據情況的處理手段比較成熟。而大數據時代,大量數據是不活躍主體,即“死”數據。因此,需要從高維低密度數據中,提取“活”的信息,發現規律。防止由於“死”信息的存在,導致分析結果不能正確反映“活”的群體特徵。

在大數據時代,怎麼入行大數據,成為一名合格的數據分析師?

(三)大數據時代,數據分析師的培養

(1)培養核心技術人才,確保長期競爭力。美國在建立全國醫療系統時,將系統外包給了加拿大的一家公司,系統運行的第一天就出現了崩潰。美國政府為此對該模式進行了反思,概括起來有三點:①外包公司設計時只顧滿足甲方的眼前利益,不會為甲方的長遠利益考慮;②項目外包造成美國技術骨幹人員斷層,導致出現問題後自身無法解決;③採用該模式導致美國沒有了核心技術。

因此,在採用項目外包模式的同時,需要掌握其核心技術。在大數據時代,從數據分析、信息管理、IT技術三個方面保持核心競爭力。需要培養和保持業務、產品設計、數據分析、數據架構等方面的骨幹隊伍。

(2)建立專業化的大數據分析團隊。大數據分析的核心是數學建模,基礎是實際業務,結果是自動化程序。在實際工作中需要正確、合理的使用數學建模的思維,構建以數學模型做為基礎的數據分析,建立量化管理風險的理念。深刻認識並正確駕馭大數據分析,大數據分析的方法是處於不斷髮展過程中的,需要根據實際問題,結合實際數據,靈活構建模型。

在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、雲計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智能的未來!


分享到:


相關文章: