多語言災難響應消息數據集
一組於災難響應相關的信息,涵蓋了多種語言,適用於文本分類、相關的自然語言處理任務。
該數據集將會包含30類與災難響應相關的信息,這些類別包括:發出信息者的意圖(例如:尋求援助、提供援助),援助主題(例如:水、食物、藥品),運輸或物流相關類,和某個人是否在傳遞一手信息、是不是直接證人。這些類別可以作為任一現存語言的預測標籤。
不同類別反映了人員和組織在災難發生後需要的不同類的的信息。災難過後,由於不同組織會對不同方面作出回應,沒有統一的標準評判哪些信息是重要的。比如,某個組織可能專注於飲用水情況,而另一個組織則側重於確保道路暢通。不同信息的優先級也常隨時間而變化。因此,不同的子類可以映射到不同的需求和回應,這些子類所屬的廣泛的大類則用於標記數據集。
數據主要分為三種類型:直接發送給救災組織的消息,社交媒體上流傳的消息,以及災難相關文章的標題。這些數據裡有大約20%與災難無關,但與其他相關數據來自於相同的文章和消息。這些不相關的數據使得研究人員能夠評估他們從風格相似的數據中區分相關與不相關信息的能力。
數據集鏈接
https://www.figure-eight.com/dataset/combined-disaster-response-data/
相關報道
https://www.figure-eight.com/datasets/
閱讀更多 大數據文摘 的文章