05.17 講內容:同源而生的反抄襲與自動洗稿

講內容:同源而生的反抄襲與自動洗稿

------本期內容導讀------

一樣的技術、一樣的革新,但是一個向左一個向右,卻是在做著相反相爭的事情。或許在這樣的具體領域,早已經不再是反抄襲與洗稿技術之間的相互鬥爭,而是人性、商業價值以及法律維護之間的比拼了

------以下正文詳情------

在人工智能正在積極探索嘗試內容寫作的同時,卻有一項與之關聯甚多的“灰色”技術應用卻已經悄悄地領跑:自動化洗稿。所謂洗稿,是一種對於刻意抄襲並設法逃避被查知行為的一種形象化稱呼,其詞義類似於“洗錢”——把不合法的收入通過一定手法改變成看似合法的收入。洗稿也就是把原本是別人寫的稿子,通過一定的方法改頭換面成看似自己原創的作品。

洗稿行為古已有之,它相對於赤裸裸的照稿抄襲,實際上的性質更加惡劣,抄襲只是基本的維法行為,而洗稿則在此基礎上加入更多掩飾、偽裝行為以期躲避管理或是制裁。換句話說,抄襲者有可能會是初犯或是偶犯,而洗稿者則一定會是累犯甚至是慣犯。

而頗顯諷刺的現象卻是,在互聯網時代,為了防抄襲而推進的技術研究成果,一轉身居然成就了更為猖獗與方便的“自動化洗稿”應用。簡單來解釋一下,當下主要應用的防抄襲系統,其原理主要是將目標文章與能收集到的原創文庫裡的文章進行檢索比對,發現重合度較高的文章時,還能細化到相似相重的具體段落、語句,並最終提交出綜合重合度數據,而高於某個標準的話,則被判定為抄襲。

在互聯網領域,之前幾年就曾經有過一個普通人不太熟悉、但是在特定人群有著極強需求的服務項目——論文查重:無論是完成畢業,還是評定職稱,要想自己的論文能夠順利通過,最好的辦法就是上論文查重的平臺網站進行一番檢查,只能最終查重比率低於一定的數值,才有可能不被導師或專家組判定為抄襲。

國內這方面比較領先的平臺,比如Paperpass,除了自己在比對庫的全面優勢之外,對於比對結果的增值服務更是一個特色。它不僅能告訴你你的論文查重率達到多少,還可以標出重複的內容以及與哪些文章相重,更可以藉助於語義的智能分析,作出修改的建議。

也就是說,系統既然能夠判定某些部分與他人論文相重複,那麼自然會有具體的判定標準以及算法,而只需要在不改變語句原意的前提下,通過改變語句表述順序、更換同義詞、調整敘事方式等手法,就可以避開判定重複率的算法。而恰恰就是這種原本只是想幫助論文作者降低查重率的輔助工具,只要改變一下目的,就會成為網絡自動洗稿的技術基礎。

正是網絡自媒體行業的紅火,讓許多人瞄準了這一市場,他們希望以最簡單的方式、最快的速度收割這一領域的紅利。所以,在最開始的大規模抄襲、搬稿被各大平臺的反抄襲系統阻擊之後,正所謂“道高一尺魔高一丈”,基於和反抄襲系統同一原理卻相反方向的洗稿系統在私下領域迅速發展,它們在大規模搜索抓取網絡上的熱文爆文之後,利用洗稿軟件,實際上就是對原文進行針對性地調整語句、詞語等方面,不僅可以躲避反抄襲系統的屏蔽,甚至對於原作者發現之後的維權起訴也造成了極大的干擾。

一樣的技術、一樣的革新,但是一個向左一個向右,卻是在做著相反相爭的事情。或許在這樣的具體領域,早已經不再是反抄襲與洗稿技術之間的相互鬥爭,而是人性、商業價值以及法律維護之間的比拼了。洗稿的人只是為了眼前的利益,為了自己的快速致富,既簡單、又保險,聽聽都覺得是一件非常有誘惑力的事情。

當然,對於任何一家平臺而言,在這場比拼中,反抄襲的系統不能落入下風。因為如果任由洗稿軟件的橫行,最後的結果便是大家都等著別人寫出好稿來進行洗一下甚至是洗多下,網絡間流行的都是那些顛來倒去、翻來覆去,拼命玩弄文字表達順序的偽原創稿,最終誰還去原創?誰還去認真寫文章。

還有最關鍵的一點,都在做人工智能、都在推崇自己的算法領先,反抄襲技術要是走不到反洗稿的高度與深度,還能妄談什麼自己的技術領先與人工智能的實現?


分享到:


相關文章: