来源:www.wangzhan.net.cn 时间:2020-10-22 10:02:50 浏览:2866次
熊猫一般是单胎生产,但是现在我们在动物园内经常能看到双胞胎或者三胞胎的熊猫,暂且不论原有,我们看到这样的情况会感觉很新奇,但是如果这样的情况出现在一个网站中,那么不论是搜索引擎还是用户看到了,就不是感觉到新奇了,而是感觉到厌烦。正因为如此搜素引擎针对重复内容也发布了针对性的算法规则。国内的百度网去重算法和有我们SEO老大谷歌的Panda算法。针对重复率这边,笔者个人感觉谷歌这样的Panda算法更为细致明显,所以本篇文章就以谷歌的Panda算法来进行搜索引擎对重复文字的判别与处罚问题进行讨论。
什么是重复文字呢?字面上的意思就是当任何两个或更多的网站页面共享相同内容时,就存在了重复内容,也就是我们常说到的样板文字。听着如此简单,那为什么这么简单的概念会造成如此大的困难呢?一个问题是,人们常常误以为“页面”是位于其Web服务器上的文件或文档。对于爬虫而言,页面是它碰巧找到的任何唯一URL,通常通过内部或外部链接找到。特别是在大型的动态网站上,创建两个位于相同内容上的URL非常容易而且常常是网编无意而为的。
那么为什么搜索引擎会对重复文字如此重视呢?其实重复内容是SEO的问题,早在Panda更新之前就已经存在,并且随着算法的改变,其形式已经多种多样。简单来举例列举一下:
1、补充索引
在Google成立之初,仅索引网络是一项巨大的计算挑战。为了应对这一挑战,一些被视为重复项或质量很低的页面被存储在称为“补充”索引的二级索引中。从SEO角度来看,这些页面自动成为二等页面且失去了任何竞争排名能力。那么在2006年末左右,Google将补充结果重新纳入了主要索引,但是这些结果仍然经常被过滤掉。我们知道,只要我们在Google搜索引擎结果页面底部看到以下警告,就可以达到过滤结果:在Google中省略了结果,即使该索引是统一的,结果仍然被“忽略”,对SEO产生了明显的影响。当然,在许多情况下,这些页面实际上是重复的或搜索价值很小,并且对SEO的实际影响可以忽略不计,但并非总是如此。
2、抓取“预算”
谈到Google时,说话总是很困难,因为人们希望听到一个绝对的数字。Google没有绝对的爬网预算,也没有固定数量的Google将在网站上爬网的页面。但是,在某些时候Google可能会放弃一段时间的爬网,特别是如果我们一直在沿着蜿蜒的路径发送蜘蛛。尽管“预算”不是绝对的,但是即使对于给定的网站,我们也可以在Google网站站长工具“抓取统计信息”中了解Google对我们的网站的抓取分配:GWT抓取图,当Google击中了很多重复的路径和页面而导致一天放弃时,实际上,我们想要索引的页面可能不会被抓取。
3、指数“上限”
同样的Google不会为网站索引多少页面设置上限。但是,似乎确实存在动态限制,并且该限制与站点的权限有关。如果用无用的重复页面填充索引,则可以推出更重要,更深的页面。
4、处罚辩论
在熊猫问世之前很久,每隔几个月就要进行一次辩论,讨论是否存在重复的内容惩罚。这些辩论虽然提出了正确的论点,但它们通常侧重于语义,重复的内容是否引起了Capital-P处罚。尽管我们认为处罚和过滤器之间的概念差异很重要,但网站所有者的看法通常是相同的。如果网页由于内容重复而没有排名,那么无论我们叫什么名字,都将遇到问题。自从Panda以来,重复内容的影响在某些情况下变得更加严重。过去,重复的内容只会损害该内容本身。如果有重复项,则可能会补充或过滤掉。通常,没关系。在极端情况下,大量重复项可能会使索引膨胀,或导致爬网问题并开始影响其他页面。熊猫将重复内容视为更广泛的质量方程式的一部分。现在,重复内容问题可能会影响我们的整个网站。如果我们受到Panda的打击,则非重复页面可能会失去排名能力,完全停止排名甚至落入索引。重复的内容不再是一个独立存在的问题。
我们在深入研究重复内容以及用于处理重复内容的工具之前,笔者想介绍3个广泛的重复类别。
1、完全重复,真正的副本是指与另一页面100%相同内容上的任何页面,这些页面的唯一区别在于URL。
2、几乎重复,几乎重复的内容与另一个页面或多个页面之间的差异非常小,可能是文本块,图片甚至内容的顺序。
3、跨网域重复,当两个网站共享相同的内容时,就会发生跨域重复。
这些重复可以是完全或接近重复,与某些人的看法相反,即使对于合法的联合内容,跨域重复也可能是一个问题。这看起来似乎是乱序的,但是在深入研究特定例子之前,我们想讨论用于处理重复项的工具。这样,我们可以推荐适当的工具来修复每个示例,而不会引起任何混淆。
1、404。处理重复内容的最简单方法是将其删除并返回404错误。如果内容确实对访问者或搜索没有任何价值,并且没有明显的入站链接或访问量,则完全删除是一种完全有效的选择。
2、301重定向。删除页面的另一种方法是通过301重定向。与404不同,301告诉访问者页面已永久移动到另一个位置,用户访客无缝地到达新页面。从SEO角度来看,大多数入站链接权限也将传递到新页面。如果重复的内容具有清晰的规范URL,并且重复的内容具有流量或入站链接,则301重定向可能是一个不错的选择。
3、Robots.txt。另一种选择是使重复内容可供用户使用,但将其阻止给搜索爬网程序。执行此操作的最古老且可能仍然最简单的方法是使用robots.txt文件,通常位于我们的根目录中,如:
User-agent:*
Disallow:/dupe-page.htm
Disallow:/dupe-folder/
robots.txt的优点之一是封锁整个文件夹甚至URL参数相对容易。缺点是这是一种极端的解决方案,有时甚至是不可靠的解决方案。尽管robots.txt可有效阻止未抓取的内容,但对于删除索引中已有的内容却不是很好。主流搜索引擎似乎也对它的过度使用不满意,因此通常不建议使用robots.txt来复制内容。
4、元机器人。我们还可以使用称为“元机器人”标记的标头级指令在页面级别控制搜索机器人的行为。标签以最简单的形式看起来像这样:
<head>
<meta name="robots" content="noindex,nofollow"/>
</head>
该指令告诉搜索机器人不要为此特定页面编制索引或跟随其上的链接,同时我们还发现它比Robots.txt更具SEO友好性,并且由于可以使用代码动态创建标签,因此通常更灵活。Meta Robots的另一个常见变体是内容值“NOINDEX,FOLLOW”,它使机器人可以在不将页面添加到搜索索引的情况下爬行页面上的路径。对于内部搜索结果之类的页面,这可能很有用,我们可能希望阻止某些变化,但仍遵循产品页面的路径。其实无需在页面上添加带有“INDEX,FOLLOW”的Meta Robots标签。默认情况下,所有页面都被索引并遵循索引。
5、Rel=Canonical。搜索引擎联合起来创建了Rel=Canonical指令,有时也称为“Rel-canonical”或“Canonical Tag”。这使网站管理员可以为任何页面指定规范版本。标签位于页面标题中,如:
<head>
<link rel="canonlcal" href="http://www.a.com"/>
</head>
当搜索引擎到达带有规范标签的页面时,它们会将页面归为规范URL,而不管它们用来访问该页面的URL是什么。因此,搜索引擎通常不会为附加的非规范URL编制索引,而是入站链接果汁也通过规范标记传递。不过值得我们注意的是对于任何给定的网站模板,我们需要清楚地了解什么是正确的规范页面。将整个站点规范化为一页或错误的页面可能会造成灾难性的后果。当搜索引擎到达带有规范标签的页面时,它们会将页面归为规范URL,而不管它们用来访问该页面的URL是什么。
6、Rel=Prev & Rel=Next。Google为我们提供了一种新工具,可用于解决特定形式的近重复内容,分页搜索结果。我们可以通过使用一对类似于Rel-Canonical的标签来告诉Google分页内容如何连接。它们分别称为Rel-Prev和Rel-Next,举例来说:
<head>
<link rel="prev" href="http://www.a.com/search/2" />
<link rel="next" href="http://www.a.com/search/4" />
</head>
搜索引擎已登陆搜索结果的第3页,因此我们需要两个标签:(1)指向第2页的Rel-Prev和(2)指向第4页的Rel-Next。但我们几乎总是必须动态生成这些标签,因为我们的搜索结果可能是由一个模板驱动的,结果表明这些标签确实有效。
7、内部链接。处理重复内容的最佳工具就是不要一开始就创建它。当然,这并非总是可能的,但是如果我们发现必须修补许多问题,则可能需要重新检查内部链接结构和网站架构。当我们确实解决了重复问题时,让其他网站提示反映出这一变化也很重要。我们经常看到有人在页面的一个版本中设置301或规范,然后继续内部链接到非规范版本,并用非规范URL填充其XML网站地图。内部链接是很强的信号,发送混合信号只会给我们带来麻烦。
上一篇:常见的页面重复形式
下一篇:不建链接增加流量的方法
24小时服务热线:400-1180-360
业务 QQ: 444961110电话: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互联信息技术有限公司(河北供求网)诞生于2003年4月,是康灵集团旗下子公司,也是河北省首批从事网站建设、电子商务开发,并获得国家工业和信息化部资质认证的企业。公司自成立以来,以传播互联网文化为已任, 以高科技为起点,以网络营销研究与应用为核心,致力于为各企事业单位提供网络域名注册、虚拟主机租用、网站制作与维护、网站推广和宣传、网站改版与翻译、移动互联网营销平台开发与运营、企业邮局、网络支付、系统集成、软件开发、电子商务解决方案等优质的信息技术服务,与中国科学院计算机网络信息中心、腾讯、百度、阿里巴巴、搜狗、360、电信、联通、中国数据、万网、中资源、阳光互联、点点客、北龙中网、电信通等达成战略合作伙伴关系。