到底什麼是大數據,大數據職業的具體工作內容是什麼?

用戶6327850624959


什麼是大數據?

我們如果從字面意思理解的話,大家的第一反應就是龐大的數據規模,其實大數據的這個大不光是大量/大規模的意思,還有複雜多樣等方面的意思。所以咱們可以從以下幾點來總結大數據的“大”。

1、海量數據

大數據的大量性是指數據量的大小。

2、複雜多樣

大數據的多樣性是指數據的種類、關係和來源是多樣化的,數據可以是結構化的、半結構化的以及非結構化的,數據的呈現形式包括但不僅限於文本,圖像,視頻,HTML頁面等等。

3、高增長率

大數據的高速性是指數據增長快速,處理快速,每一天,各行各業的數據都在呈現指數性爆炸增長。在許多場景下,數據都具有時效性,如搜索引擎要在幾秒中內呈現出用戶所需數據。企業或系統在面對快速增長的海量數據時,必須要高速處理,快速響應。

4.、價值密度低

大數據的低價值密度性是指在海量的數據源中,真正有價值的數據少之又少,許多數據可能是錯誤的,是不完整的,是無法利用的。言簡意賅的說,有價值的數據佔數據總量的密度極低,當你提煉時,那簡直就是大浪淘沙。

5.、真實性

大數據的真實性是指數據的準確度和可信賴度,代表數據的質量。

所以,我們可以理解什麼是大數據:符合以上特徵的海量數據,往往在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,所以大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理數據庫、數據挖掘、分佈式文件系統、分佈式數據庫、雲計算平臺、互聯網和可擴展的存儲系統。

大數據的價值所在

大數據的核心價值,我覺得需要從企業的經營管理、業務運作層面去分析,可以把數據的價值分為兩個方面,一方面是給企業創造營收,另一方面是給企業節省成本。具體體現在以下三個維度上:

1、數據輔助經營管理、戰略、業務決策

比如,為企業管理者提供基礎的數據統計和各維度的分析報表,以便支撐全面瞭解企業經營情況、戰略執行情況、業務運轉情況;為風控人員提供用戶、交易、履約等維度的分析報告來輔助風控策略的優化;為產品經理提供分析報告可輔助其完善產品功能和改善用戶體驗;為運營人員提供分析報告可輔助其發現運營問題並確定運營的策略和方向。所以一般對於一箇中大型企業來說,都會自己的BI系統。

2、數據驅動業務

通過數據產品、數據挖掘模型實現企業產品和運營的智能化,從而極大的提高企業的整體效能產出。最常見的應用領域有基於個性化推薦技術的精準營銷服務、廣告服務、基於模型算法的風控反欺詐服務徵信服務等。

3、數據對外變現

基於業務本身或從第三方渠道整合的數據,通過對數據進行查重、清洗、質檢等處理,從而封裝成數據產品,來對外提供數據服務,從而獲得現金收入。在當今大數據時代,市場上其實很常見,比如:各種大數據公司利用自己掌握的大數據,提供風控查詢、核驗、反欺詐、徵信等服務;提供引流、精準的智慧營銷等服務;提供數據接口平臺等服務。

大數據職業的選擇思路

針對大數據職業的選擇思路,我覺得可以結合三方面去考慮,一是喜好,人只有選擇自己最感興趣的細分領域,才能經得住折磨和考驗,才能耐得住性子深耕做好。比如你對大數據方向的數據挖掘崗位感興趣。二是擅長,不見得你感興趣的就是你擅長的,所以也要審視一下感興趣的那個點的技能要求,你是否擅長。三是趨勢,你所感興趣和擅長的領域在行業大環境中是否是未來發展趨勢。

大數據職業具體工作內容

至於大數據職業的具體工作內容,這個得看是什麼崗位了。

比如數據挖掘工程師,其就需要掌握數據建模、算法實現、BI和機器學習等技能。

比如大數據架構師,其就需要掌握技術架構選型與設計、算法設計、大數據開發和數據分析與挖掘等技能。

比如數據科學家,其就需要掌握數據模型設計與開發、數據分析方法、數據挖掘等技能。

從以上不同崗位的要求能看出,大數據也是一門綜合學科,而其中對數學模型的理解與設計、算法、數據挖掘要求較高,所以當你在選擇大數據方向的職業時,還是要從自己最擅長的技能分支去考慮,只要精通掌握其中一個分支,就能發揮自身價值,做出成績。

信息創造價值,學習使人進步。

我是泰瑞聊科技,為您打開科技生活,感謝您閱讀與關注!


泰瑞聊科技


綜合網絡解釋加上自己的理解給出了大數據的定義。

大數據就是數據規模達到海量級、極快的速度流轉、數據類型和來源多種多樣、價值密度低而且能夠反映事物真實性的數據就是大數據。

大數據的工作內容包括以下幾個方面:

數據採集

調查顯示,未被使 用的信息比例高達99.4%,很大程度都是由於高價值的信息無法獲取採集。因此在大數據時代背景下,如何從大數據中採集出有用的信息已經是大數據發展的關鍵因素之一。

數據清洗

將不規整數據轉化為規整數據,剛剛採集到的原生數據,格式還無法滿足我們對數據處理的基本要求,需要對其進行預處理,轉化為我們後面工作所需要的較為規整的數據。

數據存儲

是將經過清洗、集成和歸約的數據存儲在空間中,方便後續數據分析使用的一種技術。面對海量數據,傳統的數據庫存儲方式已經無法滿足人們對數據存儲的訴求,可以採用分佈式文件系統進行存儲。

數據分析統計

利用各種類型的全量數據(不是抽樣數據),設計統計方案,得到兼具細緻和置信的統計結論。數據建模是數據分析的成果。

數據反饋

通過海量歷史數據的計算與分析,可以預知未來可能發生的某些故障或風險,比如對不同消費者群體多年消費行為的分析,可以判斷得出某些類別或特定商品的銷量走勢等。


智慧生活一點通


大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟件工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

互聯網是個神奇的大網,大數據開發也是一種模式,你如果真想了解大數據,可以來這裡,這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者瞭解這方面的內容,如果只是湊熱鬧的話,就不要來了。

大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、 GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到 其內在規律。

大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和諮詢是紛繁複雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。

大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單臺的計算機進行處理,必須採用分佈式計算架構,依託雲計算的分佈式處理、分佈式數據庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。


愛寫推文的數碼極客


究竟什麼是大數據,每個人都可能給出不同的答案,就我而言,大數據是對海量數據的收集、存儲、處理、分析和應用的技術。

(一)大數據不僅僅是大量的數據

數據是大數據的基礎,沒有數據也就沒有大數據這一說法,但是,個人認為,僅僅是海量數據仍然難以稱為大數據,還需要數據的廣度。維修數據而言,單獨的換件時間數據幾乎沒有太大的作用,但是當換件數據與故障數據、配件參數數據結合在一起綜合分析時,其價值將翻好幾倍。也就是說,在大數據技術中,需要的數據不僅量大,還需要廣,即需要覆蓋整個業務的數據。

(二)大數據的技術生態圈

大數據架構的IaaS、PaaS和SaaS的三層劃分基本得到大部分企業的認同。IaaS層主要提供基礎設施支撐,涉及的技術主要是虛擬化技術,當然還可能會包括多租戶、計費、安全訪問控制等。PaaS層提供應用支撐,這一層囊括了當前流行的大部分大數據技術,如分佈式文件系統HDFS、HBASE、hive、sqoop、MR、storm、yarn、spark、MQ等等;PaaS層提供了大數據分析所必須的幾乎所有的軟件支撐,同時,一些分析算法和模型也往往放在這一層。SaaS層主要是業務應用,涉及的技術根據框架和業務需求來定,當然,可視化技術是必不可少的。

數據採集部分不同的企業的架構劃分略有不同,在此我們不在討論其放在哪一層,我們僅僅談一下數據採集相關的技術。數據採集用到的技術包括:ETL工具、flume、網絡爬蟲等等。在搜索方面,開源的搜索引擎主要就是lucene、solr和elasticsearch。

(三)大數據相關的職業

根據大數據架構可以比較清晰的看出其涉及的職業:

1.虛擬化產品類。專注於底層虛擬化平臺或者產品的研發、營銷工作。

2.數據採集類。專注於各類數據的採集,通過出售數據和服務盈利。

3.設備類。專注於存儲設備、網絡設備的研製、營銷工作。

4.大數據架構師。專注於PaaS和SaaS層應用的架構的設計。

5.算法工程師。專注於大數據分析相關算法研究。

6.數據分析師。專注於基於業務的大數據分析和模型構建。

7.大數據工程師。基於PaaS層軟件接口結合實際業務需求,進行二次開發的工程師。

8.大數據諮詢師/顧問。為企業大數據在某行業的發展提供建議和方向。如智慧城市、健康醫療、氣象大數據等等。


天碼行空


大數據是指在信息系統中一定範圍內的關鍵信息,難以通過常規方式進行採集、處理和管控的數據集合。由於其具有數據量大、類型多樣以及增長迅速的特點,因此是一種需要應用雲計算等新興技術,才能有效進行分析、利用的信息資產。

要了解大數據職業的具體工作內容,首先需要知道大數據產業的基本運轉流程,因為在整個產業鏈的各個環節均涉及相應的大數據職能,當然不同的角色也有不同的定位。下面以醫療健康大數據為例進行簡要敘述。

數據的採集

信息時代,信息就是財富,數據的獲取是大數據應用的基礎。醫療健康行業的數據主要集中在各級醫療衛生機構,包括患者的診療、用藥、耗材、費用等重要信息。採集這些信息一是需要統一數據標準,保證數據可用性,二是要搭建穩定的採集途徑,保證數據的可靠性,三是要形成規範的管控機制,保證數據的安全性。

數據的保存

大數據的有體量大、增長迅速的特點,一般需要建立大型的數據中心才能實現,其要求是:一要有極大的數據吞吐與存儲能力,二是要具備實時不間斷運行的能力,三是要具備嚴格的網絡安全及攻擊防控能力。

數據的應用

發展醫療健康大數據的目的,就是要通過海量的醫療基礎信息進行整合、分析,指導醫療決策、提升診療能力、改善服務質量、促進醫學科研及疾病防治等。舉例來說,依託雲計算及大數據平臺,通過數據分析,我們可以計算出流感的爆發時間、範圍、症狀等等,從而提前做出應對、防範,以減少發病率。又如,對某一藥品的使用情況進行監測,應用大數據分析可以準確、快速地提取成千上萬的診療數據,從而得到藥效、副作用及用藥劑量等多方面的評價數據。可見,醫療大數據的廣泛應用將極大提升醫療救治能力,顯著改善人民健康水平。

總之,大數據關係到社會的方方面面,需要各層次、各行業、各單位的支撐、協作才能有效地發展!

以上是本人對於大數據的一些認知,歡迎各路高手拍磚、指教!


信息走進生活


大數據從誕生開始到現在,概念已經從數據的維度定義開始變成現在一種思維方式了。就是努力用各種相關的周邊數據來幫助自己的業務進行提升。


分享到:


相關文章: