您的位置：三度 > 行业资讯 >

百度蜘蛛爬行和抓取说明

点击：次发布时间：2021-03-12 09:13

　　爬行和抓取是搜索引擎工作的第一步，完成数据收集任务。

　　1、蜘蛛：

　　搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)，也称为机器人(bot)。

　　2、跟踪链接：

　　为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也是搜索引擎蜘蛛这个名称的由来。

　　3、吸引蜘蛛：

　　理论上蜘蛛能爬行和抓取所有页面，但实际上不能，也不会这么做。SEO人员想要让自己的更多页面被收录，就要想方设法吸引蜘蛛抓取。

　　4、地址库：

　　为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面。

　　5、文件储蓄：

　　搜索引擎蜘蛛抓取的数据存入原始页面数据库。其他的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都是这样一个独特的文件编号。

标签：