词条信息

admin
超级管理员
版本创建者 发短消息   
简易百科旧版 >> 搜索引擎蜘蛛抓取原理 >> 历史版本

最新历史版本 :搜索引擎蜘蛛抓取原理 返回词条



搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。


① 爬行原理


搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。


搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。


搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。


② 如何爬行


为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。


同时,分布爬行还分为两种模式:深度优先和广度优先。


深度优先:沿着发现的链接一直爬行,直到没有任何链接。


广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。


③ 蜘蛛必遵守的协议


搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。


搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。


④ 常见搜索引擎蜘蛛


百度蜘蛛:Baiduspider


谷歌蜘蛛:Googlebot


360蜘蛛:360Spider


SOSO蜘蛛:Sosospider


有道蜘蛛:YoudaoBot,YodaoBot


搜狗蜘蛛:Sogou News Spider


必应蜘蛛:bingbot


Alexa蜘蛛:ia_archiver


一、SEO优化内链如何布局提升蜘蛛抓取


SEO优化中如何有效的布局内链让蜘蛛抓取 SEO优化,那么网站优化时,我们要如何合理分析内外链呢?关于内链,我们需要检查的是seo:seo.ee ,可以检测看看:


1、内页多关键词指向首页


现在还有很多网站在内容页搞了好多关键词,但是指向的全都是首页,这个小技巧在前几年还是有些用的,但是现在算是作弊的行为,切记。


2、是否有相关推荐


每个页面是否有推荐跟内容相关的内部指向链接,这个很重要,对用户,对蜘蛛都是非常有帮助的。


3、每个页面是否能链接到别的相关页面


内页要做相关的推荐,还有栏目页、专题页、首页都是一样的,只不过要从不同的定位角度来指向而已。


那么如何检查外链呢?一般常用两种方法:


1、通过domain指令


可以找出链接你的网站是哪些,检查一下是否有和不良的网站出现在一起,如果有要尽快处理掉,不然也是会有影响的。


2、通过友情链接


查看友情链接是否正常,比如你链接了别人,别人却把你的链接给撤销了,或者别人的网站打不开了等等之类的情况,需要及时的处理。


二、手机网站图片如何抓取


总结出了以下六种方法,协助我们优化网站和手机端的图片,以达到优化友好,迅速被录入的作用。


1、不要盗用图片尽量原创


尽量自己做图片,有很多免费的图片素材,我们可以通过拼接,做出我们需要的图片。


在平时工作的时候,发现和自己网站相关的图片可以先保存下来,在本地做出分类和标记。


网站需要图片的时候,看看相关的图片,自己着手做一个图片。这是一个长期积累的过程,随之时间的增加,自己的素材量也会越来越大。熟练了再做图片就得心应手了。


2、网站图片保存路径


这个问题很多站长都没有注意,图片在传到到网站的时候,尽量把图片保存在一个目录下面,


或者根据网站栏目做好相应的图片目录,上传的时候路径要相对固定,方便蜘蛛抓取,蜘蛛在访问到这个目录的时候就会“知道”这个目录里面保存的是图片;


图片文件命名最好使用一些有规律的或者意义的方法,可以使用时间、栏目名称或者网站名称来命名。