唯品會大數據架構[轉]

What——大數據&數據倉庫



什麼是大數據?

* 廣義的大數據是指:無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的、海量的、複雜的數據集合。業界通常用4個V(即Volume、Variety、Value、Velocity)概括大數據的特徵——

一是數據體量巨大(Volume)。

二是數據類型繁多(Variety)。相對以往便於存儲的、以文本為主的結構化數據,非結構化數據越來越多,包括網絡日誌、音頻、視頻、圖片、地理位置信息等,這些多類型的數據,對數據的處理能力提出了更高要求。

三是價值密度低(Value)。以視頻為例,一部1小時的視頻,在連續不斷的監控中,有用數據可能僅有1~2秒。如何通過強大的機器算法,更迅速地完成數據的價值“提純”,成為目前大數據背景下亟待解決的難題。

四是處理速度快(Velocity)。這是大數據區分於傳統數據挖掘的最顯著特徵。

什麼是數據倉庫?

數據倉庫的概念創始人W.H.Inmon在《建立數據倉庫》中定義:面向主題的、集成的、相對穩定的、隨時間不斷變化的數據集合,用以支持經營管理中的決策制定過程。數據倉庫的目的,是構建面向分析的集成化數據環境,為企業提供決策支持。

大數據&數據倉庫

現在大部分情況下其實大家說的是狹義的大數據,就是專門指處理大數據的新技術,新工具,例如分佈式計算,分佈式存儲等。數據倉庫是為企業提供決策支持的戰略集合,而大數據是技術,是工具。

唯品會大數據架構[轉]

Why——為何要建設好數據倉庫

大數據的運用,是金融得以快速發展的基礎。而良好的數據倉庫架構,可以協助這些應用快速實施,優化資源利用。

唯品金融在建設之初,就清楚地知道充分利用大數據的重要性。大數據的應用,體現在金融用戶整個生命週期中——

唯品會大數據架構[轉]

在貸前階段,通過對所有客戶的分析和算法模型計算,我們分析哪些客戶更有金融產品需求,有針對性地在廣告資源和營銷資源上進行重點投放;

在風控審核階段,需要防止不符合要求的客戶通過審核,基於大數據構建授信評分模型、欺詐模型來控制風險;

在營銷階段,需要識別高價值用戶,利用大數據根據用戶的瀏覽和購買行為,對用戶進行畫像描述,在運營廣告位投放針對性的運營信息,促進用戶的開通和使用;

在貸後管理階段,根據客戶的購買行為及還款行為,提前預測還款風險情況,提前溝通,使壞賬始終維持在較低水平。

How——如何做好數據倉庫分層

在現代數據倉庫建設中,分層理論已得到廣泛應用,它的價值包括但不限於:便於數據管理、清晰數據結構、便於數據血緣追蹤、減少重複開發、簡化複雜問題、屏蔽原始數據異常。

唯品會大數據架構[轉]

唯品金融的數據倉庫,分為如下三層——基礎層、中間層、應用層

唯品會大數據架構[轉]

1、基礎層(DW)

基礎層,也叫DW層,是最接近數據源中數據的一層。數據源中的數據,經過抽取、轉換、加載(即ETL)之後,裝入DW層。本層數據,大多是按業務系統的分類方式分類的,這樣可以快速的和業務系統進行對應。

但是,這一層面的數據卻不完全等同於業務原始數據。在源數據裝入這一層時,要進行一定的清洗(例如去掉明顯偏離正常水平的信息)、去重、提髒、業務提取、單位統一、砍字段(例如用於支撐前端系統工作但是在分析中不需要的字段,敏感信息字段)、業務判別等多項工作。

2、中間層(DM),是數據倉庫的核心

從DW層中獲得的數據,按照主題建立各種數據模型。中間層建設原則如下——

* 中性,共享:中間層的主題要足夠抽象,不針對特定的應用而設計;

* 靈活,可擴展:當業務發生變化時易於擴展,適應複雜的實際業務情況;

* 穩定性強:能夠在長時間內保持其穩定性,滿足下游集市、分析、挖掘等的使用;

* 規範,易讀:分主題進行模型設計,易於讓使用人員理解和使用。

3、應用層(ST),這一層提供數據產品使用的結果數據

在這裡,主要提供給數據產品和數據分析使用的數據,當然也有將集市層單獨劃分一個層次的設計,集市下面才是應用。我們之所以把集市劃為應用,是因為集市與應用結合得非常密切,所有的預處理數據在DM層已處理好,集市層直接運用結果計算數據即可。

最終的應用一般會存放在redis、mysql等系統中,供線上系統使用,也可能會存在Hive或者hbase中,供數據分析和數據挖掘使用。 我們經常說的報表數據,一般放在這裡。

總結

在互聯網金融大數據建設中,數據分層建設是一個重要環節,它決定的不僅是一個層次的問題,還直接影響到後續血緣分析、特徵自動生成、元數據管理等一系列建設。層級劃分精簡,減少了數據處理流程,弱化了傳統數據倉庫數據模型設計的規範限制。能夠快速構建大數據生產系統、響應業務分析需求、迭代大數據分析能力、適應互聯網公司業務發展節奏。但在建設之初,一定要把架構搭好,並做好數據源管理,且充分了解行業發展。



本文分享了筆者對唯品金融數據倉庫的設計思路,未必適合所有行業公司。但方法是靈活的,理念是共通的,歡迎感興趣的朋友,分享心得,交流經驗。

原文地址:https://zhuanlan.zhihu.com/p/45123018


分享到:


相關文章: