在做优化的时候,重复页面收录是一件很头疼的事情,搜索引擎对于重复页面目前来说并没有完美的解决方案,之前看到一篇文章,大意是推荐网站管理员自己去屏蔽重复页面,我们对此可以认识百度目前的技术并不能去主动解决重复页面的问题。
重复页面的危害,大多会造成关键词排名下降,甚至降权,那么重复页面是如何产生的呢?经怒熊网【重庆网站建设】仔细研究后发现,造成重复页面的途径,主要为以下几点:
1.网站改版后URL重构,造成一个页面有2套URL,搜索引擎抓取2套URL后,造成重复页面。
2.网站做伪静态,伪静态后,动态路径和蔚静态共存,搜索引擎抓取后,造成重复页面。
3.追踪参数,为跟踪流量来源,细分流量渠道,多数网站在推广时会在url中带上'?”的标记
解决方案
1.使用Canonial标签
Canonical 是谷歌、雅虎、微软等搜索引擎一起推出的一个标签,它的主要作用是用来解决由于网址形式不同内容相同而造成的内容重复问题。这个标签对搜索引擎作用非常大,简单的说它可以让搜索引擎只抓取你想要强调的内容,我们可以在页面头部设置该标签,告诉搜索引擎该页面的标准URL是什么。
目前已确认谷歌是支持该标签的,百度也曾在站长平台中确认支持该标签,但是根据实际效果来看,百度对此支持的并不完美,仍有误判情况出现。
2.使用robots.txt文件
Robots协议(也称为爬虫协议、机器人协议等)的全称是'网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
我们可以用robots.txt文件来屏蔽其他非标准URL,如动态URL;
3.使用301重定向
页面永久性移走(301重定向)是一种非常重要的'自动转向”技术。网址重定向最为可行的一种办法。当用户或搜索引擎向网站服务器发出浏览请求时,服务 器返回的HTTP数据流中头信息(header)中的状态码的一种,表示本网页永久性转移到另一个地址。在搜索引擎优化中,301技术可以告诉搜索引擎该 页面的新URL地址,确保权重传递不流失。
4.追踪标记用'#”而非'?”
为跟踪流量来源,细分流量渠道,在URL中添加追踪标记是必要的,但是该标记又和seo相违背,因为添加了追踪标记,就会产生重复页面问题。之前百度站长平台也发布公告称:如果是为了追踪流量,那么建议使用'#”标记,而非'?”标记,经过本人的试验发现百度确实不会收录含有'#”标记的URL。
#代表网页中的一个位置,是用来指导浏览器动作的,对服务器端完全无用。所以,HTTP请求中不包括#。
比如,访问网址,www.xxx.cn/post/24.html/#weibo
浏览器实际发出的请求是这样的:
GET /index.html HTTP/1.1
Host:www.xxx.cn/post/24.html
可以看到,只是请求www.xxx.cn/post/24.html,根本没有"#weibo"的部分,搜索一部分实例后发现,百度确实未收录含有'#”的URL;
备注:'#”和"#!"两个标记完全不一样,请勿混淆。