各大平臺疫情地圖的原始數據從何而來?說說如何進行數據抓取

2020年註定是不平凡的一年,繁華的春節街市失去了往昔的熱鬧,突如其來的新冠肺炎疫情牽動著國人的心。想必很多人每天早上睜開眼睛後做的第一件事,就是點開某個新媒體APP上的疫情地圖,看看全國各省市的疫情數據。

在互聯網飛速發展的今天,大數據、雲計算、人工智能等技術為疫情防控提供了強有力的支撐,而其中對疫情信息實時、準確、全面、生動的傳遞,更是實現了疫情信息最大化的透明度。這能夠讓億萬國人充分了解疫情發展的真實情況,並能夠做好必要的個人防護和充分的心裡準備,從而有效降低了疫情的蔓延,也保持了最大限度的冷靜與理性。

我們跟蹤了眾多新媒體平臺,對各個平臺的疫情大數據服務進行了一些梳理,各個平臺上提供的基礎功能幾乎一致,包括:

1.疫情數據:顯示累計和每日新增的確診/疑似/死亡/治癒病例數的全國及分省、市數據,並通過疫情地圖以及各種形式的圖表進行展示;

2.最新進展:聚合最新的重要疫情信息,且多為官方發佈的、不容錯過的重要內容;

3.同程查詢:可根據出行日期,車次/車牌/航班號及城市等,查詢出已確診病例的具體行程信息,以方便個人防控;

4.闢謠鑑真:對一些流傳較廣的疫情信息或防控方法進行真偽鑑別;

5.發熱門診:提供各省市醫療機構的信息,可以是文字或地圖形式;

6.本地疫情:根據用戶所在城市,顯示本地的確診信息及本地相關的疫情內容;

7.科普知識:關於個人防護,心理健康,疾病常識等方面的知識。

那麼,各個新媒體平臺上的這些疫情數據和相關內容是從何而來的?為什麼有些平臺上的數據略有差異?各個新媒體平臺是如何獲取和處理這些數據的?

首先,各個新媒體平臺上的疫情核心數據,幾乎都是從國家及各地衛健委官網上,通過爬蟲技術基於其每日發佈的疫情通報文章提取出來的。之後,再對這些數據進行彙總以及通過地圖、走勢圖等可視化的圖表形式展示出來,方便大家查閱。

如下圖,在湖北衛健委官方網站上,是以文字信息的形式發佈的疫情核心數據:

各大平臺疫情地圖的原始數據從何而來?說說如何進行數據抓取

而到了各大新媒體平臺上,數字還是那些數字,但展現形式則變得更形象了,如下圖:

各大平臺疫情地圖的原始數據從何而來?說說如何進行數據抓取

至於其它各類信息的來源,也幾乎都是一些官方渠道提供的文字信息或可公開查詢的信息,數據來源會更加豐富,除了衛健委的官方網站,可能還包括其它政府部門、醫療機構、學術機構、權威媒體甚至意見領袖的網站或自媒體等。這些新媒體平臺獲取到這些信息以後,再進行加工處理,從而形成了其它的一些欄目,如最新進展、同程查詢、發熱門診、闢謠鑑真等等。

例如在海南衛計委官網上發佈了文字形式的確診病例的行動軌跡,如下圖:

各大平臺疫情地圖的原始數據從何而來?說說如何進行數據抓取

而在各大新媒體平臺上,經過整理,則變成了相同行程查詢小工具,如下圖:

各大平臺疫情地圖的原始數據從何而來?說說如何進行數據抓取

至於不同的新媒體平臺,數據略有差異,則是因為不同平臺進行數據抓取和加工的策略有所不同。例如有的新媒體平臺,只抓取截止到前一日24點的全國數據,一天更新一次;而有的新媒體平臺,則會不定時地抓取一些各省最新發布的數據,並隨時將其補充進去。

所以說,許多互聯網企業,並不能真正地產生數據,而只是官方數據的搬運工、集成商和加工者。除了這些疫情大數據外,還有如企業信用查詢、天氣預報查詢、航班信息查詢、交通違章查詢等等許多領域,也都有一些耳熟能詳的互聯網公司,在做著類似的事情。

其實,只要有需要,任何企業也都可以批量、實時、準確地獲取這些公開的信息。當然,對於一些非互聯網企業來說,獲取這些公開信息的目的,不是為了經過加工以後,打造成面向普通用戶的互聯網產品,而是可以與自己公司的業務和產品相結合,為自己的客戶提供更全面的增值服務。

那麼,該如何進行數據抓取呢?市面上有很多非常成熟的數據抓取工具,而抓取過程也非常簡單,通常來說只需要如下三步:

第一步:確定數據源規則

例如前面的那些衛健委網站,其所發佈的信息內容的網址就是數據源。這些網址的名稱通常都是有一些規律的,例如包含日期數字等。而通過數據抓取工具,可以定期、定時、自動、批量地檢索所有可能的網頁,並從中提取出有與採集規則相匹配的數據。當然,除了抓取源頭的數據,也可以去抓一些新媒體平臺經過加工的二手數據,因為這些二手數據已經是經過處理的了,數據的格式可能更為整齊並便於抓取。

第二步:確定數據採集規則

由於抓取的數據需要存儲到數據庫中,而數據庫通常都是需要提前確定數據格式的。因此,需要按照預先設計的數據格式,建立數據採集規則和數據模板,並在抓取數據的過程中,按照規則進行數據的提取,這樣才能進行後面的數據保存。例如數據源中的文字內容是“xx年xx月xx日,xx省新增確診病例xxxx例”,那麼在數據採集規則中,就需要包含日期字段、省份字段、新增確診病例字段,並在抓取的時候對各個字段進行內容填充。例如在“,”後和“省”之間的文字就是省份名稱,可以填充到這條信息的省份字段中,以此類推。(如果覺得不準確,也可以設定將“日,”和“省新”之間的文字抓取為省份名稱,等等)。不過,想配置出準確完善的採集規則,可能需要了解一點最基本的HTML語言,以便通過網頁分析,準確提取出所需要的信息。

第三步:保存到數據庫

前兩步完成以後,只要企業的網絡正常,數據庫正確進行了創建和配置,那麼就可以很容易地將採集到的數據保存到企業的數據庫中,並加以利用了。

各大平臺疫情地圖的原始數據從何而來?說說如何進行數據抓取

​以上只是進行公開信息採集的基本方式。此外,還有一些網站,為了方便大家採集自己公開出來的信息,會把自己的數據主動通過API開放出來,企業只需要找到並調取這些API,就可以直接獲得結構化的數據。同時,也會有一些專門用於採集某些特定網站和特定內容的“傻瓜式”爬蟲工具,會把第一步和第二步要做的工作,提前幫用戶做好,用戶不需要關心數據源和採集規則,而只需要配置一下數據庫即可使用了。

最後,需要強調的是,進行數據採集,必須嚴格遵守法律法規和相應的版權聲明,對於政府或企業聲明禁止抓取或必須獲得授權才能轉載的內容,以及不宜公開的內容(如由於設計漏洞而意外暴漏出來的內容),不要進行抓取,以免承擔嚴重的法律後果。

歡迎朋友們關注、評論、轉發。如商業轉載或其它,請聯繫:keji5u(科技無憂訂閱號)


分享到:


相關文章: