建站百科Website News

当前位置:首页 »蜘蛛爬行抓取的地址库和文件存储

蜘蛛爬行抓取的地址库和文件存储

至成科技2019-06-04访问量(1191)评论(0)
摘要:为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面地址库中的 URL 有几个来源
地址库

为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面地址库中的 URL 有几个来源:
 


(1) 人工录入的种子网站。

(2) 蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL 与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。
 
(3) 站长通过搜索引擎网页提交表格提交进来的网址。

蜘蛛按重要性从待访问地址库中提取 URL,访问并抓取页面,然后把这个 URL,从待访问地址库中删除,放进已访问地址库中。

大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的,搜索引擎更喜欢自己沿着链接发现新页面。
 
文件存储

搜索引擎蜘蛛抓取的数据存入原始页面芜湖网站设计数据库。其中的页面数据与用户浏览器得到的HTML 是完全一样的,每个URL都有一个独特的文件编号 。

扫描左侧二维码
关注至成微信公众号

西安至成信息科技有限公司  Copyright 2012-2025  xazcit.com  All rights reserved.

Email:zcit@zcit.net     邮政编码:710016     《中华人民共和国增值电信业务经营许可证》陕B1.B2-20140011     陕ICP备12008874号-1

联系地址:西安市经开区凤城四路西安国际企业中心B座23层06-10室    售前咨询热线:02989390727    售后服务电话:02989390727

西安网站建设、网站设计制作公司-至成科技,已为众多企业提供网站建设网站制作响应式网站设计手机网站建设虚拟主机云主机服务器租用等建站解决方案。

域名合作伙伴:新网互联软件服务有限公司 陕公网安备 61019102000393号

网络警察12321垃圾信息举报不良信息举报中国文明网西安工商高新技术企业证书