車企爭搶的這片「湖」,究竟藏著什麼祕密

如今,大數據開發與應用已成為各大企業爭相佈局的重點領域,但由於數據實時性不強、數據加密程度較弱、計算資源隔離等因素,往往陷入大數據應用困局。

對此,上汽集團數據業務部研發了數據湖產品,具有數據存儲大容量低成本、數據保真度高、方便引流到外圍應用等優點,致力於打破這一困局,構建上汽集團的數據中臺。

那麼,上汽數據湖產品到底有多厲害?記者為此採訪了上汽集團數據業務部技術總監談晟。

車企爭搶的這片“湖”,究竟藏著什麼秘密

Q: 什麼是“數據湖”?

談晟:數據湖是未經處理和包裝的原生狀態數據水庫,不同源頭的水體(數據)源源不斷流入數據湖,為企業帶來各種分析、探索的可能性。

上汽數據湖並不是一個純技術概念,而是數據管理的一種方法論。原始數據無需加工整合,可直接入湖,由最終使用者按照自己的需要進行數據處理。上汽數據湖是一種利用低成本技術來捕捉、提煉、儲存和探索大規模的長期的原始數據的方法與技術實現,其建設思路從本質上顛覆了數據倉庫建設方法論。

我們的產品之所以稱為“上汽數據湖”,一方面是繼承了“數據湖”的概念,另一方面則是以製造行業為背景,建設成了具有上汽特色的大數據應用與管理平臺。

Q: 上汽數據湖具體有哪些應用?

談晟:主要應用有幾個方面:一,人工智能平臺應用,基於TensorFlow(谷歌基於DistBelief進行研發的第二代人工智能學習系統)集群,支持GPU加速,實現即開即用;

二,開發環境與生產環境平行部署,基於Docker實現便攜插拔式應用,即插即用;

三,個人文件處理,可實現無門檻上傳、自動解析、自動回傳到PC;

四,海量數據、數據倉庫,即插即用的獨享KylinCube系統,標準JDBC接口,支持Tableau,PowerBI等數據可視化軟件;

五,實時報表/ETL平臺:採用分佈式內存數據庫,能夠達到實時數據更新,超低延時查詢等。

Q: 與其他車企相比,上汽數據湖的核心競爭力在哪?

談晟:據瞭解,其他車企也非常重視數據湖類型產品的使用與投入,但資深人力不足,普遍過於依靠外部供應商,對於同類產品更多是被動地接受使用,因此存在無實時性大數據、安全性無保證、計算資源管理能力不足的缺陷。

上汽數據湖產品的核心競爭力在於:一,數據實時接入,異構數據庫數據融合,可以實現每秒100萬級數據接入;二,高性能的查詢,數據湖可以將查詢性能提升100倍,還包括數據快照及數據回溯、百億級數據亞秒級查詢等;三,金融級的數據加密,包括單位格級別權限管理、金融級自動化數據加密、敏感數據脫敏等;四,便攜科學計算應用,包括科學家/分析師專屬工作臺、計算與存儲分離、容器化資源管理等。

此外,降本增效也十分關鍵。據統計,友商每TB的數據量最廉價的也要花費10萬元,如果用數據湖大概只要2500元,算上之前部署和後期維護成本,如果用數據湖來取代傳統的大數據分析系統,至少可以節省70%以上的建設成本,而且數據量越大,這一比例會越高。

Q: 在汽車行業,上汽數據湖處於怎樣的水平和地位?

談晟:縱觀中國市場整個汽車行業,上汽數據湖產品具有相當程度的領導性,成為各大車企建設數據湖應用的風向標。

目前,已有多家車企與上汽尋求合作,利用上汽數據湖產品快速搭建起具有行業特色的大數據應用。在上汽集團內部,上汽數據湖產品團隊已多方位做出技術能力輸出,幫忙上汽大眾、上汽通用、上汽乘用車、上汽商用車、安吉智行、上汽匯眾等多家企業完成上汽數據湖的部署與應用。


分享到:


相關文章: