數據分析沒思路?疫情分析是最好的實戰教材

這些天新冠病毒肺炎疫情成了全世界關注的焦點,網上的各類言論滿天飛,有散佈焦慮的、有監督紅會的,有買賣中藥的、也有各類陰謀論的,很多文章毫無數據支撐,卻得到了大量轉發和支持。我認為,在這個數據時代,沒有數據支撐的“大新聞”八成都是為了騙關注或者收智商稅。這些天我也讀了不少有關疫情分析的文章,突然發現,對疫情的數據分析思路與我平時工作中的數據分析簡直如出一轍,這不就是我平時做的那些工作嘛!很多朋友說想入門數據科學,但是沒有思路,所以這篇文章從數據科學的思維方式和獨立思考的角度來談談如何解決疫情分析這個實際問題。建議對於數據科學感興趣的在校學生、剛入行的數據分析師包括數據產品經理、數據運營、算法新人以及所有與數據相關的崗位都可以讀讀這篇文章,將一些數據分析思路與自己的實際工作比對一下,看看如何辯證的分析數據。

數據分析沒思路?疫情分析是最好的實戰教材

數據建模:思路比工具重要

當前任何學科的研究離不開各類數據分析工具或軟件,各類科技新名詞又層出不窮,比如大數據、深度學習、Python等等,這些名字聽起來高大上,給新人一種難以接近的距離感。一些朋友認為做數據,就是學習如何使用這些工具。我卻認為這是本末倒置了,數據科學的本質不是這些工具,而是建模思路,或者說是基於我們已有的知識來做出假設,解釋現象。

比如,現在需要分析的一個重要數據是,到底有多少人感染了新型肺炎,官方給出的數據目前在2萬左右,武漢六七千右(2月4日前)。關於這個數據,一些網絡的個案報道似乎與之不符,比如早些天武漢發熱門診排隊人數太多幾乎無法就醫住院,比如財經雜誌的那篇《統計之外的人:他們死於“普通肺炎”?》。對於確診人數這個問題,現在沒有誰能預測對,因為人類還沒有完全掌握這個病毒的全部知識,都是基於一些已有的信息和觀測來建模,病毒對我們來說是一個未知數。因此,在建模過程中,都需要做一些假設,基於假設和已有信息來做推斷。

現在的問題在於,湖北的醫療條件非常緊張,很多實際病人無法就診,導致這個數據無法反應真實情況。那麼如何推算實際數據呢?幾位分析師都一致將目光聚焦到了國外撤僑的數據上。因為湖北的資源有限,但是撤僑的幾個發達國家資源肯定是充足的,這個人群一下飛機就經歷了非常嚴格的醫學隔離、篩查和跟蹤,因此這個數據相對來說是最可信的。下圖來自鳳凰網唐駁虎的分析:

如果只是一個國家的僑民如此,那還可能是偶發性病例,但東西方多個不同國家僑民的被感染比例都差不多,這就相當程度能說明問題了。

數據分析沒思路?疫情分析是最好的實戰教材

各國家撤僑確診數據

作者從日本數據出發,以撤僑人數中各類症狀出現的比例,反推出了每十萬人的感染可能。這種建模方法使用撤僑數據估算整體感染人數,其假設是病毒在武漢隨機傳播,人群中有一定概率會被傳染上。作者通過這種方法,初步推論為:目前900萬在城人口的武漢,可以估測,攜帶病毒、且有明顯症狀需要治療的人數在1.5萬人左右,其中重症人數應在3000人左右。

數據分析沒思路?疫情分析是最好的實戰教材

從日本數據反推

有了前面的一個大概的估計,我們已經知道湖北和武漢的醫療資源可能無法確認很多病例。新華社1月30日文章稱,湖北每日的檢測能力是6000,但僅武漢一地可能就有五位數的感染人群,加上大量疑似病例,這個檢測能力很有可能是不夠的。知乎用戶chenqin就說,海水不可斗量,去看斗的數量有什麼意義呢?在國內發佈的確診數據上分析、擬合、預測,調用各類高大上的深度學習算法,可能得到的都是錯誤結論。

這裡我並不評論這種方法去估算疫情到底有多準,只是想談談這個分析思路和方法。用日本的“小數據”,反推湖北的“大數據”,這在很多數據分析業務場景上是非常常見的。雖然我們現在有了大數據工具,可以收集每個人的數據,但是:第一,我們沒有時間從大數據中把每個人都撈出來檢查一遍;第二,大盤數據有各種各樣的偏差,不同類型的人群在數據表現上的差異極大,找到一個置信的數據集比較難。這兩個點是所有數據分析師實際工作都會面臨的難題。在實際工作中,不是說使用某某大數據工具就能解決所有問題,而是要將問題化解和抽象,提取置信數據,反推一些結論。這裡並沒有用什麼高大上的人工智能技術,一個Excel就能計算出來。

思考的快與慢:不要因直觀感受而妄下結論

最近幾天的確診數據飆升,看著這成千上萬的確認人數,有些人又不淡定了。飆升的數據是一個直觀感覺,如何解讀這個直觀的數據呢?許多分析師認為,在當前的防控措施下,短期內武漢的確診人數越多越好!

為什麼說越多越好呢?面對這個數據,我們要結合各類信息,拋開直觀感受,分析數據背後的邏輯。首先我們要了解病毒的傳播原理,它主要依賴宿主進行繁殖,同時主要通過呼吸道傳播。第二,我們要了解國家現在的防控措施:把病毒關在武漢,集中圍剿,其他地區像打地鼠一樣,各個擊破。等過了潛伏期,病毒沒有了宿主,也就不可能大範圍的蔓延了。所以說,越快將所有潛在病毒攜帶者確認並隔離,越能把病毒集中控制住。

數據分析沒思路?疫情分析是最好的實戰教材

這種分析思路恰恰與我們工作中很多場景很相似,很多數據乍一看非常難看,直接把這個數字呈現給老闆肯定是要捱罵的。比如,之前的項目中,我們在一個產品的基礎上,推出了另一個相似的產品,老闆一直質疑,新產品是否把老用戶搶走了,反而讓外面的競品有了可乘之機。一開始,新產品本身的數據也確實不樂觀,用戶停留時長很短,僅憑直觀感覺,不去依賴一些其他信息,得出的結論就是負面的。但是我們的數據分析師花了大量時間進行AB試驗,對比各類數據後發現,新老產品加起來的總用戶停留時長在明顯增加,競品的用戶停留時長在縮短,這說明了:新產品基本沒有爭搶老產品的用戶,反而是新老產品合在一起搶走了競品的用戶。

回到疫情問題上來,短期內武漢及周邊地區出現爆發式增長可以理解,國家也正在整合資源集中解決這一地區的問題,但是如果包括北京上海在內的其他地區的確認病例不斷增長,那形勢就非常嚴峻了,說明病毒沒有被很好控制住,正在人群中傳播。

諾貝爾經濟學獎得主丹尼爾·卡內曼在他的書《思考,快與慢》中指出,很多直觀感受讓人的大腦立即產生了一個結論,但這個結論往往是錯誤的,我們要避免掉入這些思維陷阱。這正是數據分析工作需要注意的:我們要透過現象看本質。

數據分析的終極目標:決策支持

數據分析的終極目標是為了提供更優的決策支持,否則都是在作秀。這次疫情下,國家也提出了科研機構應該集中力量進行抗擊疫情,而不是為了發論文而發論文。那麼,在疫情這個場景下,我們的數據分析如何支持決策呢?

從現有的一些經驗上來說,新型肺炎比SARS致死率低,傳染性高,比一般流感傳染性低,致死率高。現在的恐慌在於,病毒造成了對醫療資源的擠兌。肺炎一般是一種需要住院救治的病,以當前的武漢為例,大量的患者急需醫院床位,但醫院的容量有限,無法短時間內接收如此多的患者,這種資源的擠兌造成了恐慌。這種現象背後的問題是,地方的醫療體系能提供多大救治能力,轉換成數據來表達就是:患病人數和當地人口數的比值。一般當地醫療機構的配置是和當地人口數是正相關的。患病人數除以當地人口數,換算為每100萬人口中患病人數更能反映一個地區的疫情嚴重程度。比如,兩個地區都確診100例患者,一個地區人口1000萬,有十家三甲醫院,幾百張床位,另外一個地區人口200萬,只有一兩家三甲醫院,幾十張床位和有限的醫學專家,那大量的患者可能住不到醫院,不能住院的潛在危險就是攜帶病毒並且繼續傳播。

很多專家都基於現有數據對上面的指標進行了分析,北大新聞和社會學專家劉德寰和自媒體【數據化管理】作者黃成明均提出使用這種方法來分析當前各地區的形勢。這兩位作者分析,除了湖北壓力極大外,都提到了江西新餘,本文寫作時已經有59例,百度百科上顯示這個城市2017年人口數為120萬,三甲醫院只有一所,我這個北方人都沒有聽說過這個地級市。而如果只看病例數量,新餘根本不會進入決策者的視野。

數據分析沒思路?疫情分析是最好的實戰教材

數據分析沒思路?疫情分析是最好的實戰教材

以上兩圖均來自【數據化管理】

數據分析要用來支撐決策。無論在哪個領域,資源都是有限的,決策者必須將有限資源用在有限的方向上。有了這些數據,可以快速定位需要重點支持的方向,將有限資源放在最需要的地方。

數據可視化:讓數據能說話

我們不能忽略數據可視化的強大表達能力。微博大牛@江南劍心2 將天津的數據做成了可視化視圖,這張圖抽絲剝繭,展示了天津所有案例的基本信息,能夠幫助人們瞭解病毒的傳播特點。圖中,紅色為輸入型,藍色為非輸入型。病毒從輸入型人群傳播到非輸入型人群,一目瞭然。從這張圖中,我們一眼就能瞭解病毒在天津的傳播路徑,其中兩個聚集性案例為:

  1. 工作單位聚集傳播,包括鐵路員工和天津寶坻百貨大樓的案例。2月3日晚一篇堪比推理小說的文章披露了百貨大樓內,一個有過疫情地旅行歷史的病例如何將病毒傳播到了百貨大樓幾個售貨員身上。
  2. 家庭親屬傳播,幾個家庭皆因輸入型病例而被感染。
數據分析沒思路?疫情分析是最好的實戰教材

如果我們在工作單位上拿出這種高質量的圖表呈現給老闆,有力地支撐一些結論,一定得到老闆的稱讚和提拔。

小結

數據本身不會說話,數據分析也不是使用一些高大上的工具,而是建立一套思維方式,解釋現象和預測未來,幫助我們做決策。數據分析新人總覺得沒入手點,實際上是因為我們缺少相關實戰經驗,也不願用心瞭解數據以及業務場景。疫情正是一個最好的實戰教材,我們可以學習一些網絡上一些博主對疫情的分析,看看他們如何收集並分析數據,如何下結論以及如何用可視化方案做展示。

  1. 【財經雜誌】:統計數字之外的人:他們死於“普通肺炎”?
  2. 【鳳凰網】唐駁虎:日本撤僑報告,透露了病毒根本秘密
  3. 【鳳凰網】:病例繼續暴增過萬,有點慌?恰恰相反!
  4. 【劉德寰】:武漢之外,還有哪些城市疫情嚴重? ——被忽視的疫情統計數字
  5. 【數據化管理】:最新疫情趨勢數據,一個5線城市竟然是湖北之外"最"嚴峻的地區 | 截止到2月2日


分享到:


相關文章: