小孩子,小問題;大孩子,大問題

小孩子,小問題;大孩子,大問題

最近,我曾和一個同事聊起子女的話題,對於在子女培養過程中所面臨的各種挑戰,我們彼此分享了各自的一些故事。同事正處在子女培養的起步階段,他的孩子一個一歲,一個三歲,而我則接近孩子培養的最後階段(當然,我希望是這樣),我的子女都已經長大成人,分別是18歲和21歲。在我們討論的過程中,我想起一句話“小孩子,小問題;大孩子,大問題”,同時回想起在子女成長過程中我們所採取的不同教育方式。彼此交流引發了我的思考:這是不是類似於小規模數據質量和大規模數據質量的問題?對於這兩種情況,我們是不是需要不同的處理方法?

隨著大數據項目變得越來越普遍,這些項目對越來越多的企業也產生了越來越大的影響。同子女培養一樣,數據量越大,數據質量問題帶來的影響也越大。對於100萬條數據記錄而言,1%的錯誤相當於有1萬條壞記錄;然而,對於10億條數據記錄而言,1%的錯誤就相當於有1000萬條壞記錄。那真是一場災難!

大數據的質量問題表現為很多種方式:

信心被侵蝕——數據的準確性會受到質疑,用戶將不再願意使用那些依賴大數據環境輸出結果的系統,直到他們打消對數據質量的疑慮;

效率低下問題增多——重複工作和數據返工意味著用於假設驗證、洞察力獲取和創新的時間會變少;

有缺陷的決策——錯誤決策不僅會影響企業的未來,還會對個體層面造成負面影響,例如:基於壞數據進行的醫療決策,以及操控道路上無人駕駛汽車等情況。

重新回到我的問題上,就像培養小孩子和大孩子一樣,對於大數據質量問題,我們是否需要一種不同的方法呢?答案是肯定的。與“小規模數據”不同,進入你的大數據環境的數據,其規模、複雜度和速度所呈現的數量級使對這些數據進行全面清洗,只能是不切實際的幻想,而且回報也是微不足道的。因此,企業可以採取的大數據質量處理方法包括:

決定需要清洗哪些數據——無需對那些快要失去意義的數據要素進行清洗,也無需對那些你認為足夠好並能準確反映一般趨勢的數據進行清洗;

實現過程自動化

——為業務用戶和數據科學家提供預先設定的數據質量規則,並應用可能的人工智能技術,使他們可以理解數據的特性,識別問題,並採取補救措施;

實現標準化和複用——部署數據治理服務,進而集中管理通用的數據質量規則,對特定的數據域進行優化,並在整個企業內共享;

持續監控——隨著新數據的流入,你需要對數據質量進行剖面分析和度量,讓業務和IT人員能夠清楚地瞭解任何趨勢問題,從而使他們可以做出有針對性的響應。

對於大數據環境中的數據質量問題,採取合適的處理方法可確保數據能夠滿足其所在的使用場景對質量等級的要求。正如在培養大孩子時必須採取正確處理方法一樣,你需要相信他們在生活中做出的選擇和決定。


本文作者:Informatica銷售與市場運營部Donal Dunne。Donal Dunne曾在創業公司和財富500強企業工作多年,在軟件銷售、銷售運營與市場營銷行業擁有20餘年的豐富經驗。


分享到:


相關文章: