中文 自然語言處理 語料/數據集
ChnSentiCorp_htl_all
7000 多條酒店評論數據,5000 多條正向評論,2000 多條負向評論。 waimai_10k
某外賣平臺收集的用戶評價,正向 4000 條,負向 約 8000 條。 online_shopping_10_cats
10 個類別,共 6 萬多條評論數據,正、負向評論各約 3 萬條,包括書籍、平板、手機、水果、洗髮水、熱水器、蒙牛、衣服、計算機、酒店。 weibo_senti_100k
10 萬多條,帶情感標註 新浪微博,正負向評論約各 5 萬條。 simplifyweibo_4_moods
36 萬多條,帶情感標註 新浪微博,包含 4 種情感,其中喜悅約 20 萬條,憤怒、厭惡、低落各約 5 萬條。 dmsc_v2
28 部電影,超 70 萬 用戶,超 200 萬條 評分/評論 數據。 yf_dianping
24 萬家餐館,54 萬用戶,440 萬條評論/評分數據。 yf_amazon
52 萬件商品,1100 多個類目,142 萬用戶,720 萬條評論/評分數據。
dh_msra
5 萬多條中文命名實體識別標註數據(包括地點、機構、人物)。
ez_douban
5 萬多部電影(3 萬多有電影名稱,2 萬多沒有電影名稱),2.8 萬 用戶,280 萬條評分數據。 dmsc_v2
28 部電影,超 70 萬 用戶,超 200 萬條 評分/評論 數據。 yf_dianping
24 萬家餐館,54 萬用戶,440 萬條評論/評分數據。 yf_amazon
52 萬件商品,1100 多個類目,142 萬用戶,720 萬條評論/評分數據。
閱讀更多 AI踐行者 的文章