在线客服
24小时免费咨询电话:18978941786
客服时间:上午9:30~下午6点
网站搜索引擎优化之爬虫篇
收藏 分享 发布日期:2012-2-12 16:33:01 编辑:admin 文章来源: 点击率:
下面就让我们来介绍一下今天的主角——爬虫(crawler)。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫,搜索引擎可以有机的获取当前互联网上最新的网页,为接下来分析关键词,排序等等提供素材。既然爬虫如此的重要,那么我们就应该针对爬虫给他提供一些适合他的“食物”(笔者在此不想提过多的技术分析,比如说广度优先,深度优先,内容相关,网页重要性等等,那些是留给各个研发人员去关心的事情,在这里笔者只想描述些概念性的观点,适合大家理解讨论)。但是在这里有个非常重要的概念就是爬虫是很有礼貌的,它不会不告而访。它会在自己的“user agent”声称“我是某某搜索引擎的爬虫”。这就为我们提用一个很好的机会,因为机器毕竟和人不一样,要达到人类最好的视觉效果可能会对搜索引擎对页面的分析不利,反之亦然。通过探测爬虫的方法,可以把一个完全只适合给机器看的页面交给爬虫但是一点也不影响到自己真正用户的用户体验。而且,随着时间的发展,爬虫开始变的越来越聪明,有些爬虫比如说google,已经可以理解页面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>这样外部的javascript),这样如果你不想让爬虫去某个链接的话完全可以把它写进javascript中。至于说html里面的各个标签应该怎么写对搜索引擎有益,互联网上已经有很多文章阐述了,本文就不赘述了。
爬虫还有一个重要但是很无奈的特点就是爬虫的资源是有限的。特别是对于一些规模较小的搜索引擎,他们会设计自己的一套算法来决定是否要让爬虫访问某个页面。如果这个页面不够“重要”(由各个引擎自己定义),而且资源也不够的情况下,这个页面就会被忽略。我们不妨来做个实验,去百度的网站输入“site: cn.alexa.com”,会显示有“约694,000篇”,再去sogou的网页尝试,你会看见“找到 6 个网页”。这也给各位希望做搜索引擎优化的诸位提个警钟,不要太在意这个时候在(小规模搜索引擎的)结果。如果资金允许的话,在这个时候在小规模引擎上买些关键词的效果会来的更好。
本文章由南宁网站建设、南宁网站优化、南宁网络公司整理,转载请注明出处:http://www.xqgg.net/