中文 自然語言處理 語料

中文 自然語言處理 語料/數據集

ChnSentiCorp_htl_all

7000 多條酒店評論數據,5000 多條正向評論,2000 多條負向評論。 waimai_10k

某外賣平臺收集的用戶評價,正向 4000 條,負向 約 8000 條。 online_shopping_10_cats

10 個類別,共 6 萬多條評論數據,正、負向評論各約 3 萬條,包括書籍、平板、手機、水果、洗髮水、熱水器、蒙牛、衣服、計算機、酒店。 weibo_senti_100k

10 萬多條,帶情感標註 新浪微博,正負向評論約各 5 萬條。 simplifyweibo_4_moods

36 萬多條,帶情感標註 新浪微博,包含 4 種情感,其中喜悅約 20 萬條,憤怒、厭惡、低落各約 5 萬條。 dmsc_v2

28 部電影,超 70 萬 用戶,超 200 萬條 評分/評論 數據。 yf_dianping

24 萬家餐館,54 萬用戶,440 萬條評論/評分數據。 yf_amazon

52 萬件商品,1100 多個類目,142 萬用戶,720 萬條評論/評分數據。


dh_msra

5 萬多條中文命名實體識別標註數據(包括地點、機構、人物)。

ez_douban

5 萬多部電影(3 萬多有電影名稱,2 萬多沒有電影名稱),2.8 萬 用戶,280 萬條評分數據。 dmsc_v2

28 部電影,超 70 萬 用戶,超 200 萬條 評分/評論 數據。 yf_dianping

24 萬家餐館,54 萬用戶,440 萬條評論/評分數據。 yf_amazon

52 萬件商品,1100 多個類目,142 萬用戶,720 萬條評論/評分數據。


中文 自然語言處理 語料/數據集


分享到:


相關文章: