【挑戰】文本分類的挑戰與機遇

在深度學習的幫助下,文本分類在過去幾年中取得了許多重大的進步。並且已經提出了幾種新穎的思想(例如 neural embedding,注意力機制,self attention,Transformer,BERT 和 XLNet),這些思想在過去十年中取得了飛速發展。儘管取得了不錯的進展,但仍然有許多挑戰需要解決。本文介紹了其中一些挑戰,並討論我們認為將有助於推動該領域發展的研究方向。

更具挑戰性的新數據集

儘管近年來已經公佈了許多用於 常見文本分類任務 的大規模數據集,但是仍然需要 更具挑戰性的新數據集,例如具有 多步推理的QA(QA with multi-step reasoning) 和 針對多語言文檔(multi-lingual documents) 的文本分類。推出滿足這些挑戰性任務的 大規模標記數據集, 有助於推動這些領域的研究。


【挑戰】文本分類的挑戰與機遇


為常識建模

將 常識 整合到深度學習模型中,一定程度上能夠提高 模型性能 和 泛化能力,這樣的模式和人類 利用常識執行不同任務 的方式相同。例如,配備常識性知識庫的問答系統 可以回答有關現實世界的問題。

常識 還有助於解決信息不完整情況下的問題。利用廣泛存在的 常見對象或概念 的知識,人工智能系統可以像人們那樣 對未知事物 基於“默認”假設 進行推理。儘管已經有工作利用該思想進行了情感分類研究,但仍需要進行更多研究以 探索如何在神經模型中有效地建模和使用常識


可解釋的深度學習模型

儘管深度學習模型在具有挑戰性的基準上取得了令人鼓舞的性能,但大多數模型都是無法解釋的,仍然存在許多懸而未決的問題。

例如:

1. 為什麼一個模型在一個數據集上的表現優於另一種模型,而在其他數據集上卻表現不佳?

2. 深度學習模型到底學到了什麼?

3. 能在給定的數據集上達到一定精度的最小神經網絡架構是什麼?

儘管 注意力和自我注意力機制 為回答這些問題提供了一個新角度,但仍缺乏對這些模型的基本行為和動力學的詳細研究。更好地理解這些模型的理論方面 可以幫助開發針對各種文本分析場景的更優的模型。


更高效的模型

現在大多數的神經語言模型都 需要大量的資源(內存、顯存、算力) 來進行訓練和推理。這些大模型必須簡化和壓縮,才能滿足移動設備那 計算和存儲 的約束。我們可以通過使用知識蒸餾構建 學生模型 或通過使用 模型壓縮技術 來完成。開發與任務無關的模型簡化方法是一個活躍的研究主題。


Few-Shot / Zero-Shot Learning

大多數深度學習模型是需要 大量域標籤 的監督模型。實際上,為每個新域收集此類標籤成本非常高。與從頭訓練模型相比,對諸如BERT和OpenGPT之類的預訓練語言模型(PLM)進行微調所需要的域標籤要少得多,從而為開發 新的 基於預訓練模型的 zero-shot/few-shot learning 提供了新的角度。


參考文獻

  1. Deep Learning Based Text Classification: A Comprehensive Review
  2. Senticnet 4: A semantic resource for sentiment analysis based on conceptual primitives
  3. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers


分享到:


相關文章: