如何知道一篇文章是不是原创？百度算法是这样判断的

2022-06-20 素丽言

对于创作者来说，最头疼的莫过于自己辛辛苦苦几个小时完成的一篇文章，刚发布完成就被抄袭走了，甚至别人网站立马被收录和有排名，而自己的文章却既没有收录也没有排名，自己写的文章页完全给别人做了嫁衣，今天我们就以搜索引擎算法角度来谈谈，算法是如何去判断一篇文章是否是原创，我们又该如何规避被别人抄袭采集走呢？

一、算法判断原创度

说到原创，百度算法是这样定义的，用户花费大量精力和时间成本去撰写或整理出的一篇文章，文章内容丰富详实、这样的文章在百度算法才算原创，但是我个人觉得，百度定义的原创并不能让人信服，因为行业内90%以上都是采集或伪原创，所以我个人理解的原创，也就是我们通过自己经验看法总结出来的一篇文章，文章可以跟其他文章有相似观点或者看法，不完全雷同，这才算原创，但在百度算法中，这个过程又是怎样的呢？我们来还原一下一篇文章从生产出来到后面到后面排名，究竟经历了什么？

我们可以列举工作中最常见的场景，小王写了10篇文章后，通过一系列排版和配图后，发布到官网，隔几天后，他发现这10篇文章中，有6篇被收录了，搜索全标题都有排名。针对这个场景，百度算法是如何运算的？

小王在发布文章后，对应生成的链接是www.abc.com/123.html，假设百度蜘蛛爬取该url后，分析url里的页面内容，同时，对照数据库中未有该页内容，然后收录保存到数据库中，然后进行相关算法进行索引排名，注意的是，该url信息是在百度数据库中不存在才给予抓取，如果123.html存在，则跳过不抓取。

百度蜘蛛把url抓取到库中，有两个算法决定了是否收录，这两个算法是把内容切割，对照数据库中是否有重复内容，如果有，则不收录，如果没有则收录，注意的是，百度抓取的是页面，而并不是文章，所以这也是很多人有疑惑，为什么同样一篇文章，有的站点收录，有的站点不收录，在算法中，百度只考察页面。

在这其中，百度算法会依据抓取时间因子、内容来进行内容判断，来判断该篇文章是否是原创，比如123.html在2022年6月18日14:50被百度抓取后，如果有其他站点采集了该文章，那么百度是可以识别出123.html是原创文章，反过来，如果123.html发布后并没有被百度蜘蛛抓取前，就被人家采集走了，那么采集走的站点恰巧做了推送，那么百度会认可采集走的文章是原创，而真正原创并不是原创，所以，你可能就看明白了百度算法判断文章是否是原创的基本逻辑：

如何知道一篇文章是不是原创？百度算法是这样判断的

换句话说，如果我们的文章由于一些特定原因并没有被抓取，也就是错失了被算法判断原创内容的机会，我们主要牢记时间因子、抓取、内容这三点就可以了。

二、如何防止被别人采集走？

我们知道了以上三点后，就要防止被别人采集走，我们用的最多的就是防采集代码，还有我们平时忽略的就是，发布文章后一定要记得给资源平台提交数据。目前资源平台的普通提交就可以满足大部分站长的需求。发布提交、利用反爬代码，让站长无法去抄袭采集你的内容。

三、原创内容判定误区

如何知道一篇文章是不是原创？百度算法是这样判断的

由于很多人对原创内容一直不理解，所以这里总结了部分问题，希望对各位同学有所帮助：

问：别人采集我的内容，为什么别人收录，自己没收录?

答：自己内容没有做提交或者蜘蛛没有爬取到该URL，其他站点优先提交数据。

问：是否可以更改时间因子来突破原创？比如我采集走别人文章，更改一个更早的时间。

答：百度算法判断原创，不仅看时间因子还要看系统时间。

问：检测原创软件有哪些？

答：市面上很多检测伪原创工具，比如纸牌屋检测、5118伪原创检测。

问：正确发布文章的流程是什么

答：发布后记得提交数据、第一时间提交数据。

问：自己手写的原创为什么不收录？采集的反而收录？

答：先排除是否抓取该Url,另外自己写的不代表原创高质量，采集的不代表低质量，注意区分。