在线客服

24小时免费咨询电话：18978941786

客服时间：上午9：30~下午6点

当前位置：首页>>服务中心 >> 网站优化 >> 网站搜索引擎优化之爬虫篇

网站搜索引擎优化之爬虫篇

收藏分享发布日期:2012-2-12 16:33:01 编辑:admin 文章来源: 点击率:

众所周知，一个网站的流量能大致分成三个部分：直接访问（direct）、引用页（referer）和搜索（search engine）。其实搜索那一部分也能属于引用页的范畴，但是它太重要了，让我们不能不单独拿出来作为一个独立的分析模块。总体来说，根据网站的性质和发展，这三部分的比例会有所不同。比如说，对于门户网站来说，直接访问的百分比应该一般网站高，不然“门户”一词就失去了意义。同样，对于一些提供服务性质的网站，搜索部分就应该高一点，因为当用户需要寻找某项服务的时候，第一站往往是百度或谷歌。对于这三部分的流量，会有不同的策略和方法去提高自己网站的访问量。在本文中，笔者侧重于搜索引擎。

下面就让我们来介绍一下今天的主角——爬虫（crawler）。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫，搜索引擎可以有机的获取当前互联网上最新的网页，为接下来分析关键词,排序等等提供素材。既然爬虫如此的重要，那么我们就应该针对爬虫给他提供一些适合他的“食物”（笔者在此不想提过多的技术分析，比如说广度优先，深度优先，内容相关，网页重要性等等，那些是留给各个研发人员去关心的事情，在这里笔者只想描述些概念性的观点，适合大家理解讨论）。但是在这里有个非常重要的概念就是爬虫是很有礼貌的，它不会不告而访。它会在自己的“user agent”声称“我是某某搜索引擎的爬虫”。这就为我们提用一个很好的机会，因为机器毕竟和人不一样，要达到人类最好的视觉效果可能会对搜索引擎对页面的分析不利，反之亦然。通过探测爬虫的方法，可以把一个完全只适合给机器看的页面交给爬虫但是一点也不影响到自己真正用户的用户体验。而且，随着时间的发展，爬虫开始变的越来越聪明，有些爬虫比如说google,已经可以理解页面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>这样外部的javascript),这样如果你不想让爬虫去某个链接的话完全可以把它写进javascript中。至于说html里面的各个标签应该怎么写对搜索引擎有益，互联网上已经有很多文章阐述了，本文就不赘述了。

爬虫还有一个重要但是很无奈的特点就是爬虫的资源是有限的。特别是对于一些规模较小的搜索引擎，他们会设计自己的一套算法来决定是否要让爬虫访问某个页面。如果这个页面不够“重要”（由各个引擎自己定义），而且资源也不够的情况下，这个页面就会被忽略。我们不妨来做个实验，去百度的网站输入“site: cn.alexa.com”，会显示有“约694,000篇”，再去sogou的网页尝试，你会看见“找到 6 个网页”。这也给各位希望做搜索引擎优化的诸位提个警钟，不要太在意这个时候在（小规模搜索引擎的）结果。如果资金允许的话，在这个时候在小规模引擎上买些关键词的效果会来的更好。
本文章由南宁网站建设、南宁网站优化、南宁网络公司整理，转载请注明出处：http://www.xqgg.net/

「南宁烟寒网络」提供南宁网站建设、网站策划、南宁网页制作、网站设计、网站改版、南宁SEO优化、网站维护、南宁网站优化、南宁网站推广、广告设计等服务..

在线客服

网站搜索引擎优化之爬虫篇