支付寶健康碼中的大數據技術

從1月開始的疫情讓很多人的生活都按下了暫停鍵。許多行業已經遭遇不小創傷,尤其是餐飲、住宿、旅遊、娛樂等行業。

支付寶健康碼中的大數據技術

但是在互聯網行業,由於信息技術的特殊性,利用互聯網實現遠程辦公,遠程工作成為了這一波疫情中很突出的一道風景線。

而在高度細分的IT產業中,最為引人注目的就是大數據技術人員!為什麼這麼說呢?且聽我慢慢道來。

支付寶健康碼中的大數據技術

舉例來說,經歷了3個月的疫情影響,國內很多城市已經開始陸續解封,各地復工的人員也越來越多,但是國外疫情卻開始大規模蔓延,疫苗開發實現全體免疫還有待時日。

所以為了防止好不容易控制住的疫情出現反彈,各類基於大數據的應用層出不窮,在這些應用中使用最廣泛的就是“健康碼”這個應用。

我們來看下“健康碼”技術原理,大家就明白為什麼會大數據的人現在會這麼搶手了。

支付寶健康碼中的大數據技術

一、數據源

首先要說第一點數據源,“健康碼”的生成包含了個人基礎信息,例如人臉識別,同時結合了公安、移動運營商、衛健委、高鐵、機場、高速公路道口等信息,由於此次公共衛生事件涉及10多億人,而且每個人每天都會產生新的生活軌跡,所以在大數據時代,面對各種各樣的數據“洪流”,如果希望從中提取出有效信息,就如同在高壓水槍下喝一口水一樣困難。

這樣就凸顯了大數據技術的重要性。

二、狀態機

第二點則是狀態機,用過健康碼的同學都知道這個碼會有三種顏色,紅黃綠,大部分人的碼是綠色的,代表健康,可以出入很多公共設施,例如商城,地鐵或辦公寫字樓。

同時隨著檢疫手段的不斷提高,最近又開始公佈有無症狀感染者等信息的披露,一旦發現有相關人員感染確診,那麼在指定時間和感染者有接觸的相關人員也必須進入自我隔離狀態,從碼的角度來說就是會變成黃色。

那麼這種數據的獲取和處理就不是傳統的靜態數據的篩查,而是實時的動態數據的比對和監控,使用非大數據技術想完成這個功能,基本是天方夜譚。

那大數據技術是如何來做到的呢?

支付寶健康碼中的大數據技術

首先從採集的角度來看,此次健康碼的數據源不是靜態數據源,而是動態數據源。

如果說雙十一隻是每年一次的平臺壓力測試,那麼健康碼則是每天都是平臺的壓力大考,利用數據接入層的負載均衡接入能力,後臺每天都會產生數以億計的數據量。

其次,從存儲角度來看,利用大數據技術的海量存儲功能,接近PB級別數據存儲和擴容的能力,這也是傳統技術無法做到的。

三、數據整合

其三,也是重中之重,僅僅把數據存儲下來可不能解決健康碼要解決的問題,關鍵是要數據分析和數據整合

所以利用大數據技術中最重要的ETL和流處理能力,不管是採用Spark架構的內存計算模型還是利用Flink的流處理模式,集合上千臺服務器的計算能力,讓我們的數據進行實時的比對,實時的處理成為了可能。

也正因此,越來越多的企業開始高薪高福的吸引大數據專業技術人才。作為中國互聯網行業需求最旺盛的六類人才之一,初級大數據工程師的薪水就達15k,有三年以上工作經驗的資深開發架構師更是高達年薪50-60萬。

據麥肯錫報告,目前大數據人才缺口在百萬人以上。年前,馬雲曾說“大數據時代已經到來,數據的風口,你把握好機會了嗎?”

大數據學習路線如果做成思維導圖的話,大概是這樣子:

支付寶健康碼中的大數據技術

除了思維導圖,更有業內大數據大牛免費直播及學習配套資料等福利贈送!希望可以助你一臂之力!

掃碼即可免費領取所有福利

具體福利如下:

4.7-4.9 晚上8點

支付寶健康碼中的大數據技術支付寶健康碼中的大數據技術
支付寶健康碼中的大數據技術

那麼怎麼免費參加呢?

高清導圖&直播視頻&重磅資料庫
掃碼免費領取!支付寶健康碼中的大數據技術

掃碼二維碼,免費領取回覆“IT”,快速通過


分享到:


相關文章: