词条信息

admin
admin
超级管理员
词条创建者 发短消息   

相关词条

热门词条

更多>>
什么是端口?到底是做什么的呢?
端口一般指两种,一种是硬件比如路由器或者交换机的插网线的端口,一种是软件的逻辑的概念,比如http的80端口!...
7种进阶方法让你快速测试端口连通性
Ping是Windows、Linux和Unix系统下的一个检查网络连通性的命令工具,对于大部分互联网用户来说很...
电脑开机,总需要按F1,是什么原因造成的?
一.主板掉电这个说法是行业内的叫法了,一般是主板的CMOS电池没电了导致的。也是最常见的一种提示你按F1的提示...
社保降费对个人有什么影响?
下调城镇职工基本养老保险单位缴费比例是政府给企业发的一个大红包,特别是对于企业来说是一个利好,但是对个人来说有...
车辆“出险”对下年保费的影响,到底有多大?
【出险对交强险的影响】【出险对商业险的影响】车辆“出险”对下年保费的影响,到底有多大?这里有必要先提下车险第三...

精选图集

更多>>
简易百科旧版 >>所属分类 >> 网络营销    搜索引擎   

搜索引擎是如何收录网页的

标签: 搜索引擎

顶[0] 发表评论(0) 编辑词条

  作为SEO从业者,不仅要被搜索引擎抓取,还要被收录,最重要的是在收录后有良好的排名,本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的,看看你的网站处于哪个阶段呢?


目录

第一阶段:大小通吃编辑本段回目录


  搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。


第二阶段:网页评级编辑本段回目录


  而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。    


  爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。


第三阶段:OCIP策略编辑本段回目录


  OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。


  而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。


第四阶段:大站优先策略编辑本段回目录


  大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。


  实验表明这个算法虽然简单粗暴,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一。

 

 

附件列表


按字母顺序浏览:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

→我们致力于为广大网民解决所遇到的各种电脑技术问题
 如果您认为本词条还有待完善,请 编辑词条

上一篇新品牌如何快速赢得客户信任?
下一篇B站明确禁止未成年人打赏

0
1. 本站部分内容来自互联网,如有任何版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
2. 本站内容仅供参考,如果您需要解决具体问题,建议您咨询相关领域专业人士。
3. 如果您没有找到需要的百科词条,您可以到百科问答提问或创建词条,等待高手解答。

关于本词条的提问

查看全部/我要提问>>