【數據】新聞分類數據集

數據集是機器學習無法忽視的話題,我們根據數據集的類型,收集一些常用的數據集,方便大家快速找到自己需要的數據集。

AG News

Character-level convolutional networks for text classification

來自 ComeToMyHead(一個學術新聞搜索引擎) 2000多個新聞源的新聞文章。這個數據集包括 120000 條訓練樣本和 7600 條測試樣本。每一條樣本是一短文本,有4個類別。


20 Newsgroups

http://qwone.com/~jason/20Newsgroups/

20ng 包含 20 個不同主題的新聞組文章。這個數據集有不同的版本用於不同的用途:文本聚類、文本分類等等。一個常見的版本包含 18821 條樣本。


Sogou News

How to fine-tune bert for text classification?

這個數據集混合了 SogouCA 和 SogouCS 兩個的新聞語料庫。新聞的分類標籤由URL中的域名決定。比如說 http://sports.sohu.com 就是指 sports 這個類別。


Reuters News

https://martin-thoma.com/nlp-reuters

Reuters-21578 是從1987年的 路透社財經新聞 裡收集的。ApteMod是Reuters-21578的多類版本,包含10,788個文檔。它有 90 個分類,7769 條訓練文檔和 3019 條測試文檔。還有許多其他數據集都來自於該數據集的不同子集,例如R8,R52,RCV1和RCV1-v2。


其他常見數據集

  • Bing news

Concept-based short text classification and ranking

  • NYTimes

Rtexttools: Automatic text classification via supervised learning

  • BBC

Practical solutions to the problem of diagonal dominance in kernel document clustering

  • Google news

Google news personalization: scalable online collaborative filtering


參考文獻

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: