词条信息

admin: 超级管理员; 最近编辑者发短消息

浏览次数: 999 次
编辑次数: 2次历史版本
更新时间: 2018-11-08

精选图集

更多>>

简易百科旧版 >>所属分类 >> 网络营销搜索引擎

网络爬虫如何采集页面？

标签: 搜索引擎网络爬虫采集页面

顶[0] 分享到发表评论(0) 编辑词条

页面采集是搜索引擎工作的重要环节，其中网络爬虫担当着很重要的任务。

目录

一、网络爬虫在网络信息采集中的任务

二、网络爬虫在信息采集中的策略

一、网络爬虫在网络信息采集中的任务编辑本段回目录

网络爬虫在网络信息采集的两个任务：

① 发现URL

网络爬虫的任务之一就是发现URL，通常会以一些种子网站作为起点。

② 下载页面

一般搜索引擎的网络爬虫在发现URL之后，判断这个链接是否已收录、是否与已收录链接相似度极高、是否为高质量内容、原创度有多少等等，再决定是否需要下载这个页面。

二、网络爬虫在信息采集中的策略编辑本段回目录

通常网络爬虫采用以下的方式进行信息采集：

① 从一个种子网站集合出发

网络爬虫会从预先选定的一批种子网站开始爬行和抓取工作，这批种子网站通常是权威性最高的网站。通常一旦对某个页面进行了下载，就会对这个页面进行解析，找到链接的标签，如果包含可爬行的URL链接，则可能继续顺着这个链接进行爬行。而这个锚文本链接则是这个页面对另外一个页面进行的描述，可纯文本链接却没有这种描述，所以效果差一点也是情理之中的。

② 网络爬虫使用多线程

如果是单线程，效率会很低，因为大量的时间会耗在等待服务器相应上，故启用多线程来提高信息采集效率。

多线程可能会一次抓取好几百个页面，对搜索引擎而言是好事，但对别人的网站而言却不一定是好事了，比如可能导致对方服务器拥塞，让一些真实用户无法正常访问该网站。

③ 网络爬虫的抓取策略

网络爬虫不会在同一时间对一次性对同一网络服务器抓取多个页面，每次抓取都会有一定的间隔时间。当使用这种策略时，必须将请求队列特别大，这样才不会降低抓取效率。

比如，网络爬虫每秒可以抓取1000个页面，在同一网站的每次抓取间隔为10秒，那么队列应该为来自10000个不同服务器的URL。

通常，如果发现搜索引擎抓取频率过大可以在官方进行调整或反馈，如果不希望搜索引擎抓取某些页面或整个网站，则需要设置网站根目录下的robots.txt文件即可。

本文地址：简易百科　http://old.isolves.com/doc-view-6122.htm

TAGS：ISOLVES , 电脑技术 , 电脑知识 , 网站建设, 电脑百科, 网络营销 , 网站托管 , 硬件技术 , 网络技术 , 软件技术, 维修网点

按字母顺序浏览：A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

→我们致力于为广大网民解决所遇到的各种电脑技术问题
　如果您认为本词条还有待完善，请编辑词条

上一篇如何快速提升网站用户体验！
下一篇产业互联网下一个风口在哪里？

本词条对我有帮助 0

1. 本站部分内容来自互联网,如有任何版权侵犯或其他问题请与我们联系，我们将立即删除或处理。
2. 本站内容仅供参考，如果您需要解决具体问题，建议您咨询相关领域专业人士。
3. 如果您没有找到需要的百科词条，您可以到百科问答提问或创建词条，等待高手解答。

同义词：暂无同义词

关于本词条的提问

查看全部/我要提问>>

词条信息

相关词条

热门标签

热门词条

精选图集

网络爬虫如何采集页面？

一、网络爬虫在网络信息采集中的任务编辑本段 回目录

二、网络爬虫在信息采集中的策略编辑本段 回目录

附件列表

关于本词条的提问