偶爾與身處傳統行業的朋友聊到大數據,朋友說,對大數據懷有一種“敬畏”的心理,認為它很神奇,神奇到似乎可以點石成金無所不能。但身處這個行業,在敬畏它的同時,卻不時會被一種深深的無奈所包裹,切實感覺到在夢想面前,大數據也有太多的無能為力。所以今天,我們來聊一聊
大數據的”無所不能“與”無能為力“。
大數據的“無所不能”
無論是傳統工業時代,還是大數據時代,信息是決策的基礎:更優的決策,需要更多、更及時的信息——大數據的價值核心,是“消除信息不對稱”,即提升人或程序對事物的認知。
因此,大數據可以做很多事情:
在市場營銷中,大數據可以幫助市場人員瞭解客戶群體的特徵、偏好和購買傾向——只將廣告投給需要的人,可以節約被浪費的廣告費,卻不降低廣告的效果;
在金融風控中,大數據可以幫助業務人員瞭解顧客群體的收入水平、資產情況、借貸歷史、違約風險——不向高風險顧客發放貸款,或事先對可疑人員進行核查、採取措施,可以有效降低壞賬率,提升資產質量;
在零售經營中,大數據可以幫助領導層瞭解各商圈的人流量情況、人群特徵、周邊環境、競品策略等(是比現場調研更全面、更高效且成本更低的市場分析方案)——選擇人流量、人群消費水平更符合本企業定位,且競品並沒有深入挖掘的地點開設新店,意味著在起步階段就跑在了前面;
在物流運輸中,大數據可以幫助經營人員瞭解各地需求、線路業務量、節點負荷和處理效率——線路規劃、節點佈局及資源配置、關鍵節點優化,都可以有效的提升物流效率。
除了以上為企業帶來切實利益的大數據應用,伴隨著機器學習、人工智能的發展,大數據也為我們展開了更宏偉的藍圖:
語音識別和文本挖掘,使得人與機器的自然交互突飛猛進,各種智能交互機器人層出不窮;
圖像識別和處理技術,結合線路規劃、智能決策等大數據應用,讓無人駕駛站在了時代的風口上;
對各種疾病發展過程、影響因素的分析,及人體狀態的監測、感應,形成了健康監護和智慧醫療的前提;
……
一言概之,大數據為“信息獲取”開闢了無數的通道,引領我們一路高歌猛進,依靠大數據,我們對周圍的世界、對自身、對事物之間的關係都有了更深入的認知,也有了以前想都不敢想的各種處理方案,讓我們“無所不能”。
但理想總是“豐滿”,現實卻是“骨感”,看上去“無所不能”的大數據,本身就帶著諸多的“無能為力”。
大數據的“無能為力”
數據質量
伴隨“多”的是“無序”,伴隨“更多的信息”而來的,可能是“信息冗餘”。數據質量,是數據應用之初與生俱來的問題。
要判斷移動設備的常駐城市,可能從數據源A得到的是北京,從數據源B得到的天津,而我們壓根兒沒有明確的標準,來判斷數據源A和B到底哪個正確,因為,正是因為不知道才需要尋求外部數據源幫助!
也許你會說,找已知樣本測試就可以了。但事實上,很多數據且不說能不能找得到樣本,即便能找得到,用作標準的樣本本身有多大可信性,也是一個需要驗證的問題。
隱私與安全
伴隨著大數據的應用,越來越多的數據被“濫用”,隱私被洩漏的問題被曝光。數據應用的程度越高,經過的驗證和磨礪越多,準確性越高,所受的監管也就越強,使用過程中所受限制就越多。
對於數據應用方來說,面臨的可能是不斷的尋找數據源、驗證數據有效性、接受監管並調整、尋找新的數據源的過程。
站在數據應用方角度,面臨客戶隱私與數據安全,會時不時的有深深的“無力感”;但站在整個社會責任的角度,數據隱私與安全則是必須要守住的底線。
邊界與壁壘
我們數據應用中的很多設想,都建立在各方數據可無縫打通和關聯的基礎上,但實際數據應用中,因為數據產生於不同的企業主體、有不同的處理流程和架構,“關聯”並不是“無縫”的。
千辛萬苦找到了適合的數據源,可能因為雙方ID無法打通,導致數據根本無法使用;
戰略合作訓練了效果很好的模型,可能因為雙方數據都無法出各自機房而無法實際投產,尋找繞行路線卻又大大犧牲了效果;
數據與場景的結合,可能因為合作雙方理解差異導致數據的誤用……
如何減少大數據的“無能為力”
首先,建立數據流通標準。“標準”可以在很大程度上解決“質量”的問題,也可以讓供需雙方更好的對話,降低數據流通的成本;
其次,劃定數據安全基線。有“基線”,就有了“基線”範圍內的自由和法律保護,將“隱私與安全”作為每一個市場玩家的底線,就不會在安全加碼時束手無措倍受打擊;
再次,構建數據流通平臺。“平臺”可以有效承載數據流通的標準,同時更好的打破供需雙方的邊界壁壘,實現供需有效結合。
TalkingData智能數據服務商城,致力於為數據供應方和數據需求方提供平臺,實現數據流通過程中的標準化交付、質量評估、實時計量等公共能力,降低數據交易流通成本。
讓理解照進現實,實現大數據的“無所不能”,我們一直在努力。
閱讀更多 TalkingData 的文章