搜索引擎蜘蛛对内容的3个考核标准揭秘

文章类型:常见问题    发表2015-04-16   文章编辑:怒熊网络 · 一站式互联网+技术服务商!   阅读:276

搜索引擎蜘蛛对搜索引擎来说就是信息来源,对于网站站长,总是希望网站对搜索引擎蜘蛛友好,希望蜘蛛能在自己的网站待会多抓取点网页。其实这些蜘蛛 又何尝不想多抓取点页面,多更新点页面呢,只不过互联网信息过于巨大,有时候蜘蛛也是力不能及。这就引出了对搜索引擎蜘蛛对内容的一个考核,最主要的考核标准有三:抓取网页覆盖率、抓取网页时效性及抓取网页的重要性。

1、抓取网页覆盖率

对于现在的搜索引擎来说,还没有哪个搜索引擎能抓取互联网上出现的所有网页,所有搜索引擎只能索引互联网的一部分而已,这里就有一个概念——'暗网”,暗 网是指目前搜索引擎蜘蛛按照常规方式很难抓取到的互联网页面,蜘蛛是依赖页面中的链接发现新的页面,进而抓取索引,但是很多页面内容是以数据库方式存储 的。这样蜘蛛很难或无法抓取这些信息,结果就是用户也无法在搜索引擎搜索得到这些信息。SEO艺术

抓取网页覆盖率指的是蜘蛛抓取的网页数量占互联网所有网页数量的比例,很明显,这个覆盖率越高,搜索引擎所能索引排名的数量级也就越大,能够参与比较展现 的搜索结果也就越多,用户搜索体验也越好。所以为了让用户在搜索时可以得到更精准、更全面的结果,**抓取网页覆盖率至关重要,而除了抓取方式的提高,对 暗网数据的抓取已成为各大搜索引擎的重要研究方向。

怒熊网【重庆网站建设】由此可见,抓取网页覆盖率是考核搜索引擎蜘蛛的一个关键标准,这是一个很大的基数,关乎到后面的索引量、排序量和展现量等,对于用户搜索体验至关重要。

2、抓取网页时效性

说到用户的搜索体验,网页的时效性相对覆盖率句更加直观了,比如你在搜索结果搜索到了一个结果,当你点击后页面是不存在的,作何感想?搜索引擎是在努力避 免这些的,所以蜘蛛抓取网页时效性同样是一个重要考核点。互联网信息比较多,蜘蛛抓取一轮需要较长的时间周期,这个时间内之前建立索引的很多网页可能已经 发生变化或者被删除,这就导致搜索结果中有一部分是过期的数据。最优的seo优化解决方案

用一句话就是蜘蛛不能在网页变化后第一时间将这些变化反映到网页库中,这样问题就来了,首先比如页面只是内容发生变化,搜索引擎不能及时的去重新比较这些 变化,给予用户更合理的排名。其次,如果排在搜索结果前面的页面已经被删除了,由于没有及时抓取更新,还排在重要位置,那么无疑对用户是一种伤害。最后, 很多人会在页面收录后另外加一些不好的信息,这样用之前的排名展现现在的信息,下次蜘蛛更新才会处理。

所以对于搜索引擎而言,肯定是希望数据库内网页能及时更新的,网页库过期的数据越少,则网页的时效性越好,这对用户体验的作用不言而喻。

3、抓取网页的重要性

蜘蛛抓取了很多内容,也及时更新了,但如果抓取的都是一些低质量内容,那肯定是不行的。尽管要多抓勤抓,但是每个网页重要性差异很大,这就是矛盾的地方, 搜索引擎蜘蛛不仅要干得多、干得快、还要干得好。所以必然会优先照顾部分能经常**高质量内容的网站,特别是定时定量更新的,这样才能最大程度上保证优质 内容不被漏掉,这也可以说是没办法的办法。如果搜索引擎蜘蛛抓回的网页大都是比较重要的网页,则可说其在抓取网页重要性方面做得很好。SEO交流

总而言之,目前的搜索引擎蜘蛛由于种种原因限制,只能抓取互联网部分网页的,所以在努力抓取尽可能多页面的同时会尽可能选择比较重要的那部分页面来索引, 而对于己经抓取到的网页,也会尽可能快地更新其内容。注意所有的这些都是尽可能而已,所以这是各大搜索引擎努力的方向。如果这3个方面都做得好,搜索引擎 用户体验肯定会更好。