01:前言
全文的觀點從技術討論出發,儘量客觀中立,觀點及行為為員工自發,不代表本人所在公司及團隊。
需要說明的是這次數據是涵蓋所有的疫苗數據,並不是針對此次問題疫苗定向蒐集的數據,所有數據皆來自於政府相關網站的公開數據。
02:數據採集源
因為有一些數據實在太難找了,只能來看一下近兩年的數據,並且不考慮疫苗增補名單數據(太零碎了)。
所以這次整理的數據並不完善,所以把所有蒐集到的數據全部同步到了GitHub(https://github.com/fuckcqcs/fuckcqcs),有需要可以自取或者提issue和pr。
因為時間跨度較大,所以沒有把批次的信息納入本次的統計範圍。本文主要從技術層面蒐集了此次問題疫苗事件相關企業生產的各類疫苗在各省份的銷售情況。
採集關鍵詞
- 省名 第二類疫苗 採購
- 省名 第二類疫苗 公示
- 省名 第二類疫苗 產品及價格
- 省名 第二類疫苗 供應商
- 省名 第二類疫苗 中標目錄
- 省名 第二類疫苗 參考價
- 省名 第二類疫苗 入圍結果
採集結果整理如下
- 北京市,來源:北京市2018-2019年免疫規劃用第二類疫苗採購項目
- 天津市,來源:天津市2018-2020年第二類疫苗集中採購項目擬中標/擬中選結果
- 上海市,來源:2018 年度上海市第二類疫苗集團採購項目中標目錄
- 重慶市,來源:重慶市第二類疫苗供應商入圍採購-採購結果預公示
- 河北省,來源:河北省疾病預防控制中心2018年度第二類疫苗省級集中採購項目中標公告
- 山西省,來源:2018年度山西省第二類疫苗集中採購入圍企業產品及價格
- 遼寧省,來源:遼寧省第二類疫苗平臺招標採購公告
- 吉林省,來源:2017年度吉林省第二類疫苗集中採購企業產品議價結果名單
- 黑龍江省,來源:黑龍江省2018年第二類疫苗掛網採購中標企業產品及價格審核結果
- 江蘇省,來源:江蘇省第二類疫苗集中採購中標產品
- 浙江省,來源:浙江省2018年第二類疫苗中標目錄
- 安徽省,來源:安徽省2018年第二類疫苗集中採購目錄
- 福建省,來源:福建省2018年第二類疫苗集中採購目錄_湄洲島
- 江西省,來源:1228江西省2018年度第二類疫苗入圍品種目錄
- 山東省,「找不到」
- 河南省,來源:2017年河南省二類疫苗供應商入圍資格採購項目中標結果公告
- 湖北省,來源:2017年湖北省第二類疫苗集中採購成交產品
- 湖南省,來源:湖南省第二類疫苗集中採購文件
- 廣東省,來源:2018年度廣東省第二類疫苗成交品種目錄
- 海南省,來源:海南省第二類疫苗品種目錄(第一批)
- 四川省,來源:2017年度第二類疫苗掛網陽光采購結果
- 貴州省,來源:貴州省第二類疫苗集中採購報價解密結果
- 雲南省,來源:雲南省疾病預防控制中心二類疫苗公開招標入圍項目入圍公告
- 陝西省,來源:陝西省2018年二類疫苗集中採購項目入圍供應商磋商結果
- 甘肅省,來源:甘肅省第二類疫苗供應資格採購項目中標公示
- 青海省,來源:所有的第二類的價格信息全部轉到:223.220.250.135:8038 無法查看
- 臺灣省,暫無
- 內蒙古自治區,2018年內蒙古自治區第二類疫苗集中採購入圍企業產品及價格
- 廣西壯族自治區,2017年度廣西壯族自治區第二類疫苗直接掛網採購擬入圍產品目錄(電子版)
- 西藏自治區,實在找不到
- 寧夏回族自治區,2016年寧夏回族自治區第二類疫苗公開招標預中標結果
- 新疆維吾爾自治區,《自治區2017年第二類疫苗入圍品種及價格目錄》20170828.xls
- 香港特別行政區,暫無
- 澳門特別行政區,暫無
綜上,除去港澳臺 ,山東,青海以及西藏以外,只蒐集到了28個省級行政區的二類疫苗數據公示情況。
單單是檢索,下載的過程,就花了7個多小時,主要遇到了一些問題:
- 某些網站需要註冊登錄才可以查看;
- 有些網站缺乏維護被掛了黑鏈;
- 搜索框有,但是實際並不能搜索;
- 有些只有圖片,沒有文字;
- 有些只在純公告但無具體數據;
- 找不到信息的有:
- 山東省,只看到新聞說建了可追溯的展示平臺,但本次暫未找到;
- 青海省,所有的第二類的價格信息需要賬號登錄進相關係統才能訪問;
- 西藏,暫時沒能搜索到相關數據。
如圖,最終獲取到28個省份的數據(圖中漏掉了河北)。
03:數據整理
由於本人不是專業的醫學行業人士,所以統一把數據整理成以下的csv格式。
通用名,來源,生產企業,申報企業,省,中標年份
name,src,create_company,report_company,prov,year
各項含義如下:
- 通用名 :藥名 -> name
- 來源:國產/進口 -> src
- 生產企業 -> create_company
- 申報企業:如果為空再填充為生產企業 -> report_company
- 省 -> prov
- 中標年份 -> year
期間因為整理非XLS的文件消耗了大量的時間,暫時只能先把成型的數據集提取出來。
目前處理結果如下:
- 數據標準csv(14)
- 吉林省,四川省,天津市,寧夏回族自治區,安徽省,山西省,廣東省,新疆維吾爾自治區,江蘇省,江西省,海南省,貴州省,遼寧省,黑龍江省
- 等待整理的數據(13)
- 上海市,雲南省,內蒙古,北京市,廣西省,河南省,浙江省,湖北省,湖南省,甘肅省,福建省,重慶市,陝西省
如圖所示:
亮綠色是容易獲取的數據;暗綠色的可以獲取的數據;黑色的是沒有獲取到數據。
04:數據分析
直接採用Pandas+Echart進行處理。首先把所有的csv整合,共有1529條數據,對所有的生成企業進行統計分析:
count 167.000000
mean 9.143713
std 15.839281
min 1.000000
25% 1.000000
50% 3.000000
75% 9.000000
max 98.000000
共 167 個廠家,其中中位數是3,最高是98,很明顯這是一個偏態分佈。順手看一下箱線圖:
也就是說,絕大多數的藥,都由大廠生產。我們輸出前10個看看,長春長生位列第2。
生產廠家數量北京科興生物製品有限公司98長春長生生物科技有限責任公司91華蘭生物疫苗有限公司72玉溪沃森生物技術有限公司57上海生物製品研究所有限責任公司56大連雅立峰生物製藥有限公司51長春生物製品研究所有限責任公司50華北製藥金坦生物技術股份有限公司46遼寧成大生物股份有限公司44北京智飛綠竹生物製藥有限公司43
我們再來看看各個省份中,長春長生等佔據的百分比:
[{'name': '天津', 'value': 14.0625},
{'name': '遼寧', 'value': 17.647058823529413},
{'name': '黑龍江', 'value': 13.274336283185843},
{'name': '安徽', 'value': 9.75609756097561},
{'name': '新疆', 'value': 16.94915254237288},
{'name': '江蘇', 'value': 14.563106796116504},
{'name': '江西', 'value': 12.179487179487179},
{'name': '山西', 'value': 16.52173913043478},
{'name': '吉林', 'value': 17.857142857142858},
{'name': '貴州', 'value': 14.17910447761194},
{'name': '廣東', 'value': 13.445378151260504},
{'name': '四川', 'value': 16.93548387096774},
{'name': '寧夏', 'value': 17.5},
{'name': '海南', 'value': 14.285714285714285}]
長春長生等在14個有數據的省份供應商中均佔有一席之地:
亮紅色接近20%;暗紅色接近10%;黑色的是沒有獲取到數據。
對比下從官網下載的公司銷售策略圖:
做到這裡已經花了整整14小時,才將將整理了一半的省份。所以目前的數據並不完整,僅供參考,後面空了可能會繼續整理更新到Github(https://github.com/fuckcqcs/fuckcqcs)上。
05:後記
除了在朋友圈和微博刷屏表達我們的憤怒,或許我們還能做點什麼,這也是我的出發點。最初的文章裡面有些措辭不是太中性,抱歉,本只想在自己能力範圍內做一點事情。
如果說有什麼建議的話,希望相關部門在數據公示方面後續能繼續加強吧。
閱讀更多 菜鳥學Python 的文章