03.04 文章的原创怎么判断?

打铁的汉子鼬


首先非常感谢在这里能为你解答这个问题,让我带领你们一起走进这个问题,现在让我们一起探讨一下。

1. 网站的权威度。   

网站在行业内的权威度,拿SOHU和一个普通的小网站来说。在同一个行业户或者栏目中,如果同时发布一篇文章或者先发布小站,在几个小时或者1天后再在SOHU中发布这篇文章,一般情况下SOHU获得的排名就比普通小网站要高,因为SOHU的权威。其他诸如GOOGLE,百度等同样。   

域名的注册时间,一个域名的注册时间越长,在百度和GOOGLE的权重就会越容易获得很高,GOOGLE现在甚至只对注册时间超过半年以上的网站给与较高的排名,另外GG的PR值一般情况下是3个月更新一次,一个全新的网站,在没有很多外部链接的时候。也是不可能获得很高的PR值的。而百度,则基本上认为是老域名就是原创的。     

3. 网页第一次被收录的时间。   

看一个文章是否原创,就看该网页被收录的时间,如果这篇文章在您的网站是4月1日好收录的,而在其他网站是在几十天甚至几个月之后才收录的,那么就很明显能判断出您的网站才是原创的内容,因为其他站原本没有这篇文章,搜索引擎无从收录,其他站长在您的文章被收录后才转载,这时候很明显他的网站的该页面的收录时间就会后于您的网站。   

4 网站的PR值。   

PR值是衡量一个网站在GOOGLE中的被重视程度,PR值的获得很大程度上同外部链接有关系,如果您的一篇原创文章被大量的其他站长转载,那么您的网站就可能获得很高的GOOGLE PR值,一般来说,原创文章的出处的网站,比其他转载的网站该页面的PR值要高很多。

在以上的分享关于这个问题的解答都是个人的意见与建议,我希望我分享的这个问题的解答能够帮助到大家。

在这里同时也希望大家能够喜欢我的分享,大家如果有更好的关于这个问题的解答,还望分享评论出来共同讨论这话题。

我最后在这里,祝大家每天开开心心工作快快乐乐生活,健康生活每一天,家和万事兴,年年发大财,生意兴隆,谢谢!




W轩视频


1.1 采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2 提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。 如何判断文章是否原创?来感受一下百度的标准

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

利用自动文章生成器等工具。


大爱部落


1.1 采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2 提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

2.3 网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。

首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;

其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;

最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。


宇宙男子


【人鱼薇沫】机器都判断不出真正的原创,因为只要做得高明,可以逃过机器的法眼,找出原主题进行简单修改,关键词不重叠,更改主谓宾的位置,或是替换其中主句子的意思就可以做到,但有些原创是无法复制的,任你再高明也抄袭不了。

至于如何保持这样的原创要做到以下几点。

1.独特的语言

幽默风格或是文词优美,长短句协调,精致的修辞,这些是经过作者反复多年锤炼获得的专属技能,每一个作者都有自已的独特风格。

我初写作的时候,老师说找到你自已的语言风格,我的风格其实是精简加华丽,偶尔闪现的珍珠拟的比喻,只有在写古风长篇小说中会出现。

那个风格是我儿时开始接触古风文字,成长后接触古风文化所带出来的,我也会写古韵的诗词,那种节奏感就是别人无法模仿的。


再加上我糅合了张爱玲和李碧华的独特语言和语境,这个风格我会持续下去。

所以想要原创,就要找到符合自已的风格。

最重要的是找到自已喜欢什么,擅长什么,然后从艺术中萃取营养,形成自已的气质、气场,平时说话时候也要培养,做到心与意统一和谐,最后写文章时才能兼顾文章结构和风格。

六神磊磊和刀小刀这方面就得地十分杰出,大家可以参考一下。


2.深度的思想


多阅读,多思考,把阅读产生的思想与大脑中的思想经过化学反应后,形成自已的独特见解。

我们看事情都有自已的一套准则,在正确的三观之上,发出属于自已的言论,这个言论要保持独特,与众不同。

比如:桌子、李月亮等知名媒体人,他们的每一篇文章都字字如金,思想完全凌驾于众媒体人之上,所以才能做顶级。


这种思想不是一天两天就能句形成的,需要长时间磨练,思考。

一些新闻作者思想更加深厚,像白岩松、水均益。

想做到这些,必要先清醒的认识自已,看到或听到新的观点能保持自我,能够判断是非。


3.独特的逻辑架构

想要把一篇文章写的新奇,吸引人眼球,普通的故事写出石破惊天的感觉,是需要经过严格设计的。


开篇的几十个字,中间的文章脉络,结尾的发人深思,都需要经过深思熟虑。

大家看有些文章标题吸引人,忍不住点进去,开篇也让人看得下去,再往下不知不觉就全看完了,看完后文章内容还记得十分清楚,到最后结尾的地方情感又有升华。

看的时候完全没有我所说的这些痕迹,只是觉得文字写得真好,深入人心。

但如果你有心,仔细地逐句去分析,就能看出我所写的这些结构了。

文章的最高境界就是自然、真实,了无设计感,但其实都是精心设计的。


以上的这些理论我都很懂,因为正在学习过程中,但是要做起来就十分有难度了,我光是设计一个小说的大纲与人物传记,已经搞了一周了。

拿给老师看,总是被推翻,正在不停地修改。

为何要用这么长的时间设计呢?因为之前写过好几个十万二十万就弃坑的半路文章,如果结构不稳,肯定坚持不到最后。


人鱼薇沫谈成长


主要从以下几个方面去考虑文章是原创还是抄袭。

1、观点抄袭:不引用别人的文献好像观点是自己的为严重抄袭;

2、句子抄袭:不重新组织别人的观点,照抄原话,不加引号,即使加了参考文献也是抄袭;

3、过多引用别人原话:即使加了引号,也算抄袭,比如三句以上;

4、句子重新组织,但是整个段落和别人的非常相似;

尤其关键动词几乎一样,句子结构也一样,也算抄袭;

5、图原样copy别人;

6、除了整段拷贝,以下处理后仍然属于剽窃;

(1)铲除其中几句;

(2)把句子顺序颠倒;

(3)增加几句;

(4)只改变一些动词和少量的词,但是整体结构一样。

扩展资料:

著作权法所称抄袭、剽窃,是同一概念(为简略起见,以下统称抄袭),指将他人作品或者作品的片段窃为己有。

抄袭侵权与其他侵权行为一样,需具备四个要件:

第一,行为具有违法性;

第二,有损害的客观事实存在;

第三,和损害事实有因果关系;

第四,行为人有过错。

由于抄袭物需发表才产生侵权后果,即有损害的客观事实,所以通常在认定抄袭时都指经发表的抄袭物。因此,更准确的说法应是,抄袭指将他人作品或者作品的片段窃为己有发表。

著作权侵权同其他民事权利一样,需具备四个要件,其中,行为人的过错包括故意和过失。这一原则也同样适用于对抄袭侵权的认定,而不论主观上是否有将他人之作当做自己之作的故意。

对抄袭的认定,也不以是否使用他人作品的全部还是部分、是否得到外界的好评、是否构成抄袭物的主要或者实质部分为转移。凡构成上述要件的,均应认为属于抄袭。



剑雪封侯君


文章原创怎么判断?这个问题好像确实成了一个问题,很多年前这不是一个问题,起码不是一个大问题,八、九十年代时,在我们头脑里抄袭人家的文章是比现实社会里偷盗更叫人感觉无耻的事情,可现在竟然连原创怎么判断都成问题了?

据我知道,现在法律方面判断是否抄袭,有其专门的一套计算、分析方式,比如主题思想方面多大程度的一致性,比如都是将爱情至上的,关键在于原创的文章,无论散文还是小说,都必然会有作者独特的感受、理念渗透在其中,只有抄袭的,才可能叫人在阅读时感受不到丝毫的不同,那么发表在后的那个,就可能是抄袭之作,而发表在前的那个就应该属于原创的。

语言结构方式的相似性多少,比如同样写一个傍晚时分一个男人碰到一个女人,其中场景的描写、人物的描写、人和人的对白台词等等,原创者每一个人都会不同,莫言写这样一个场景和两个人,和王安忆写这样一个场景和人物,其所惯用的遣词造句方式是不同的,我来写这样一个场景及其两个人时,所有的遣词造句方式也一定和莫言的王安忆的不同,很大不同,只要是一个写作了很长时间,其语言组织方式必定已经有了自己的一个模式,所以金庸的和古龙的,有明显的区别,即便是金庸和梁羽生的,同样描写一个大侠,其遣词造句方式仍然可以清楚的分辨出来。所以,如果看到两篇文章在遣词造句、描写方式上完全一样,一般来说,那发表在前的应该就是原创,发表在后的当然就是抄袭之作。

在内容方面,如果是议论文,那么观点可以是一样的,或者说差不多的,但是你论证这个观点的方式、所提供的论据,原创者必定有其自己的纯属个人论证方式和新鲜论据,比如论证的角度、提出的论据先后秩序等,长期写作议论文的人,应该也会形成自己的一个模式,比如看看我的悟空问答,你就会发现大多数我的长篇回答,其论证方式会和所有人不一样,起码会有很大不同,同时在使用论据的时候,也许论据内容大家都差不多,但是展示论据的顺序、展示论据的语言方式,就必定会有别人的不同。

假设是叙事文,比如小说、故事之类的,那么区别就会更明显了,即便是两篇一模一样讲上海二十多岁的一对男女恋爱故事,开篇方式就应该各有各的手法,剧情的构思也会有很大不同,然后情节推进、转折也必定各有各的方式方法,包括人物的姓名、主要人物的亲友构成、数量等等,相对来说,小说应该会比议论文更容易判断原创——只要两篇小说在故事情节、人物构成等方面相似度超过百分之三十以上,那基本上可以判断后发表者属于抄袭,相似度超过百分之五十,那就可以确定后发表者属于抄袭了。

——悟空问答里其实有不少人的回答是抄袭的,我经常会看到前面一个回答和后面一个回答相似度极高,去2019年时曾经想悟空问答“反馈”举报过几次,回复大多数是没有发现抄袭嫌疑,得了,少管闲事,有兴趣还是写我自己的,我的悟空问答你有兴趣想抄,尽管去抄吧,祝你赚大钱。头条号里的文章,那些散文和诗词,我认为你抄袭的话容易被人识破,我几十年写作至今,在语言结构、遣词造句方面已经高度个人化,其他那些议论文类的作品,那就随便啦,还是那句话,祝你好运,别叫人识破。


天淞子


这个很难判断的,从一下几点可以判断,不过很麻烦。

到目前为止,本人认为搜索引擎判断文章是否原创的标准已经运用的有以下几点:文章收录时间、网站上的链接、网站的权重。文章收录时间:你的文章是十年前就收录了,我的一篇一模一样的文章十年后才收录,当然你的文章是原创的了。但是如果收录时间距离较短的话就难以判断了,因为权重高的博客收录更快,我的文章五天前就发表了结果一直不收录,结果你转载了我的文章几分钟后就收录了,如果搜索引擎认为你的文章是原创的而我的是抄袭的,那我岂不是太冤了吗?网站上的链接:这个应该是判断原创标准最主要的一点了吧。如果你的文章结尾有一句:文章转载于某某SEO博客,或者网站中某些关键词上有链向该关键词的链接,那么判断你的文章是转载该博客的应该会比较准的。因为如果你链向了该文章的页面判断还是比较准的,如果链向该站域名的话判断还是很难的。总不能你文章链向了他的博客结果他转载你的文章都被搜索引擎认为是原创吧?网站的权重:这个做SEO的人应该更能理解一点。搜索引擎认为一个高权重、高PR的博客文章原创的可能性更大一些。其实还有一个标准可以判断文章是否原创,即查看网页的创建时间。例如你的文章是页面是去年创建的,我的是今年才创建的,并且文章内容一模一样,那么十有八九我是转载你的。如果还不能理解的话,就想想一下我们常用的 Word、Excel吧,是不是经常看到他们的最后修改时间呢?我们还经常用修改时间进行排列呢。相信这个记录修改时间的技术对百度和谷歌来说绝对不是问题,这个技术性问题应该随便一个程序员都可以解决的吧?不知道现在百度和谷歌有没有利用这种技术。当然这个技术也是有缺陷的,就是如果我的文章是原创的那么我可能会经常改动,那么我的文章的最后一次修改时间可能要比转载我的文章要晚,这个搜索引擎可以记录同一文章的所有修改时间来解决,这个技术上也很容易实现。但是这又遇到了两个问题:第一、这意味着多大的工作量?百度、谷歌索引的可不是一台电脑上的东西,也不是一个网站的东西,而是数千亿的页面,记录每次页面的修改时间不知道在工作量和搜索引擎服务器反应能力上意味着怎样的压力;另一方面即使判断出那个页面时最先创建的了,但是如果站长把最先创建的页面原内容删除替换成转载别人的文章,这又该咋判断啊?写了这么多,大家可看到了每种判断方式各有优缺点 ,搜索引擎应该也特别希望能做出正确的判断,不过先不说技术问题,光是判断标准就够令人抓狂的了。


紫色的小白菜


判断文章的原创度是通过搜索引擎把抓取到的我们发布的文章与它数据库内原有的文章做比较,如果重复度不超过它规定的一个百分比就可以判断为原创,反之则判定为非原创,不予收录。长期抄袭的作品,长时间平台也会判定其违规,新来的朋友要注意了。

所以我们在写文章的时候,要尽量避免与网上原有的文章大篇幅重复,可借助一些编辑器的原创检测功能,3秒全网比对出检测结果,重复部分会有标识,可一边修改一边检测直到文章的原创度达到一个百分比,用这种做法基本可以查重机制。本文为原创地址河北2020.3.3



小银河说生活


一个有修养的创作者,绝不会全盘抄袭别人的文章的。当然,鉴用名言名句做为突出文章的开头或结尾都是可以的。在创作的过程中,有些文章甚至会引用整段的论据进行佐证。但文字不能超过整篇文章的字数标准。

抄袭文章的行为是可耻的。根本就不允许产生这种行为,文化人若这一点都做不到,那么就不必要进行创作,直接剽窃作品就好了!

抄袭作品和偷和抢没有区别。

文人当自重!


冷暖潇逸


1文章的完整的度,一般原创的文章呢,是有头有尾的!看多了就会发现

2文章的内容,原创文章里面的内容比较有意思有含义。

3文章的语句是否通顺,语句通顺,一般来说都会是原创的,有的人,喜欢东拼西凑,这类来说,一般就不会是原创

4文章的意思,从文章的意思来看,是否有很多没必要的,多余的语句,这类一般是翻译的人家的语句,一般不会是原创

5如果有条件的话呢,建议是用文章检测工具,检测文章是否重复读高,这样会更容易检测是不是原创!

麻烦给个优质吧!回答了好多问题了!都是在用心回答的啊!!


分享到:


相關文章: