05.17 讲内容:同源而生的反抄袭与自动洗稿

讲内容:同源而生的反抄袭与自动洗稿

------本期内容导读------

一样的技术、一样的革新,但是一个向左一个向右,却是在做着相反相争的事情。或许在这样的具体领域,早已经不再是反抄袭与洗稿技术之间的相互斗争,而是人性、商业价值以及法律维护之间的比拼了

------以下正文详情------

在人工智能正在积极探索尝试内容写作的同时,却有一项与之关联甚多的“灰色”技术应用却已经悄悄地领跑:自动化洗稿。所谓洗稿,是一种对于刻意抄袭并设法逃避被查知行为的一种形象化称呼,其词义类似于“洗钱”——把不合法的收入通过一定手法改变成看似合法的收入。洗稿也就是把原本是别人写的稿子,通过一定的方法改头换面成看似自己原创的作品。

洗稿行为古已有之,它相对于赤裸裸的照稿抄袭,实际上的性质更加恶劣,抄袭只是基本的维法行为,而洗稿则在此基础上加入更多掩饰、伪装行为以期躲避管理或是制裁。换句话说,抄袭者有可能会是初犯或是偶犯,而洗稿者则一定会是累犯甚至是惯犯。

而颇显讽刺的现象却是,在互联网时代,为了防抄袭而推进的技术研究成果,一转身居然成就了更为猖獗与方便的“自动化洗稿”应用。简单来解释一下,当下主要应用的防抄袭系统,其原理主要是将目标文章与能收集到的原创文库里的文章进行检索比对,发现重合度较高的文章时,还能细化到相似相重的具体段落、语句,并最终提交出综合重合度数据,而高于某个标准的话,则被判定为抄袭。

在互联网领域,之前几年就曾经有过一个普通人不太熟悉、但是在特定人群有着极强需求的服务项目——论文查重:无论是完成毕业,还是评定职称,要想自己的论文能够顺利通过,最好的办法就是上论文查重的平台网站进行一番检查,只能最终查重比率低于一定的数值,才有可能不被导师或专家组判定为抄袭。

国内这方面比较领先的平台,比如Paperpass,除了自己在比对库的全面优势之外,对于比对结果的增值服务更是一个特色。它不仅能告诉你你的论文查重率达到多少,还可以标出重复的内容以及与哪些文章相重,更可以借助于语义的智能分析,作出修改的建议。

也就是说,系统既然能够判定某些部分与他人论文相重复,那么自然会有具体的判定标准以及算法,而只需要在不改变语句原意的前提下,通过改变语句表述顺序、更换同义词、调整叙事方式等手法,就可以避开判定重复率的算法。而恰恰就是这种原本只是想帮助论文作者降低查重率的辅助工具,只要改变一下目的,就会成为网络自动洗稿的技术基础。

正是网络自媒体行业的红火,让许多人瞄准了这一市场,他们希望以最简单的方式、最快的速度收割这一领域的红利。所以,在最开始的大规模抄袭、搬稿被各大平台的反抄袭系统阻击之后,正所谓“道高一尺魔高一丈”,基于和反抄袭系统同一原理却相反方向的洗稿系统在私下领域迅速发展,它们在大规模搜索抓取网络上的热文爆文之后,利用洗稿软件,实际上就是对原文进行针对性地调整语句、词语等方面,不仅可以躲避反抄袭系统的屏蔽,甚至对于原作者发现之后的维权起诉也造成了极大的干扰。

一样的技术、一样的革新,但是一个向左一个向右,却是在做着相反相争的事情。或许在这样的具体领域,早已经不再是反抄袭与洗稿技术之间的相互斗争,而是人性、商业价值以及法律维护之间的比拼了。洗稿的人只是为了眼前的利益,为了自己的快速致富,既简单、又保险,听听都觉得是一件非常有诱惑力的事情。

当然,对于任何一家平台而言,在这场比拼中,反抄袭的系统不能落入下风。因为如果任由洗稿软件的横行,最后的结果便是大家都等着别人写出好稿来进行洗一下甚至是洗多下,网络间流行的都是那些颠来倒去、翻来覆去,拼命玩弄文字表达顺序的伪原创稿,最终谁还去原创?谁还去认真写文章。

还有最关键的一点,都在做人工智能、都在推崇自己的算法领先,反抄袭技术要是走不到反洗稿的高度与深度,还能妄谈什么自己的技术领先与人工智能的实现?


分享到:


相關文章: