您的位置:三度 > 行业资讯 >

百度蜘蛛爬行和抓取说明

点击:次    发布时间:2021-03-12 09:13

  爬行和抓取 是搜索引擎工作的第一步,完成数据收集任务。

  1、蜘蛛:

  搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。

  2、跟踪链接:

  为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也是搜索引擎蜘蛛这个名称的由来。

  3、吸引蜘蛛:

  理论上蜘蛛能爬行和抓取所有页面,但实际上不能,也不会这么做。SEO人员想要让自己的更多页面被收录,就要想方设法吸引蜘蛛抓取。

  4、地址库:

  为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

  5、文件储蓄:

  搜索引擎蜘蛛抓取的数据存入原始页面数据库。其他的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都是这样一个独特的文件编号。

标签: