盜版資源變少?這個比人還“眼尖”的 NLP 模型立下汗馬功勞

盜版資源變少?這個比人還“眼尖”的 NLP 模型立下汗馬功勞

作者 | 阿里文娛高級開發工程師千起

出品 | AI科技大本營(ID:rgznai100)

盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

背景

隨著5G時代來臨,新媒體行業快速發展,盜版傳播平臺多樣化、形式多樣化,版權方難以通過有限的人力實現最大限度的維權。根據MUSO報告顯示2017年盜版網站訪問量達到3000億次。人工智能逐漸成熟,盜版監測覆蓋難、查找難的問題將迎刃而解。

那麼如何運行將人工智能技術運用到盜版監測中?我們先從一個例子開始:下面是一個普通用戶查找盜版資源的過程:

盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

上面的例子中有兩個操作:

搜索查找+結果篩選。其中“結果篩選”是用戶閱讀搜索結果,並確認當前結果是否包含盜版內容。 這一過程在人工智能領域叫識別,因為用戶閱讀的是文字,所以我們叫它:自然語言識別。

普通用戶可以很容易的判斷出“哪些搜索結果包含盜版內容?”,那麼機器是怎樣模擬閱搜索結果呢?下面我們分析3個典型的盜版搜索例子。

盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

盜版搜索結果分析

1、 用戶搜索盜版影片示例

盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

2、 “判斷難點“分析

1) 歸類“判斷難點”

(1) 名稱近似類:系列類影片、名稱包含類影片;

(2) 主題不相關類:結果是資訊、新聞、彩票、廣告等信息;

(3) 同名影片類:相同影片的歌曲、遊戲、戲劇、通用名詞等有歧義的信息;

(4) 變換類: 影片名稱縮寫、人工故意添加的干擾信息。

盜版資源變少?這個比人還“眼尖”的 NLP 模型立下汗馬功勞

2) 自然語言識別中怎樣處理這幾種情況?

(1) 名稱近似類:

答:回想一下人是怎樣處理的?如果一個人是它知道所有影片信息,那麼他就知道兩個影片是不一樣的。這類問題在自然語言中屬於
知識圖譜(Knowledge Graph,簡寫:KG)的範疇。(2) 主題不相關類:結果是資訊、新聞、彩票、廣告等等信息;答:普通人因為有一些背景知識,是知道哪些是屬於新聞類,哪些屬於廣告類。由於這些分類是有限的,所以自然語言中通常使用文本分類(Text classification)。常見的文本分類有二分類和多分類(輸出大於2種分類結果)。(3) 同名影片類:相同影片的歌曲、遊戲、戲劇、通用名詞等有歧義的信息;答:識別同名需要有兩步。第一步提取句子中的影片實體名稱,第二步辨別句子描述的是哪個領域的影片。這裡需要自然語言領域中的實體識別(Named-entity recognition,簡寫:NER)+文本分類。通俗講,實體識別是找中句子中的影片,而文本分類是區分這個句子說的是哪個領域的影片。(4) 變換類: 影片名稱縮寫、人工故意添加的干擾信息。答:這類問題和問題1)一樣,這類問題在自然語言中屬於
知識圖譜(Knowledge Graph,簡寫:KG)的範疇。模型需要背景知識,知道影片有哪些縮寫。盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

自然語言識別如何識別盜版呢?

在自然語言處理領域通過有三部分。分別為:文本預處理、特徵計算、模型訓練/預測。

  • 文本預處理:清洗樣本,並將文本格式、符號轉化為統一的形式;

  • 特徵計算: 將文本轉化為數字。這一步可以使用特徵工程,或者詞袋(oneHot)、文本嵌入(word embedding)模型、深度Transformer模型;

  • 模型訓練/預測:選擇合適的模型算法,訓練模型。模型方面可以使用決策樹類型(例如:XGBoost、LightGBM、Deep Forest等等),也可以使用深度網絡(例如:LSTM、BERT、Transformer-XL等等)。當然也可以使用多個模型(一個模型的輸出,作為一個模型的輸入)。

盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

那麼模型是什麼樣子的?

盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

下面是從樣本輸入到模型產出,落地一個模型需要做的步驟。

盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

總結

這篇文章中提到的方法已經落地到實際工程中,準確率可以達到超越人工盜版結果判斷水平。目前自然語言仍然有非常強的業務領域特點,不同業務領域會遇到不同的行業特定問題,而且前沿的模型提供原生的英文支持,所以在工程落地場景中,需要結合實際業務場景不斷的優化模型。

☞微信iOS版內測暗黑模式;涉嫌惡意舉報,社交平臺Soul運營合夥人被批捕;AWS推出基於Linux開源操作系統 | 極客頭條

☞現代編程語言大 PK,2020 年開發者關心的七大編程語言!

☞如何用CNN玩轉AlphaGo版的五子棋?

☞曾經摸魚的程序員,如今在武漢自願加班

☞區塊鏈和大數據一起能否開啟數據完整性的新紀元?

☞以太坊2.0、分片、DAG、鏈下狀態通道……概述區塊鏈可擴展性的解決方案!


分享到:


相關文章: