错误博客( cuowu.com )发布于 2019-06-10 18:33:29

信息采集网站地图

信息采集中的网站地图教程。

正如在前两节所看到的,信息采集中出现的最大的问题是网站管理员不能很好地将网站的信息告诉爬虫程序。在3.2.3节中了解到爬虫必须去猜测页面什么时候会更新的原因是由于轮询机制开销很大。在3.2.5节中了解到网站管理员们有时候希望一些数据被搜索引擎抓取,但是却做不到,因为没有合理的地方来存储这些超链接。网站地图(sitemap)可以用来解决所有这些问题。

robots.txt文件中含有一个对网站地图的引用,如图3-8所示。网站地图中含有一个URL的列表以及与这些URL相关的数据,如修改的时间和修改的频率。

网站地图文件的实例

在网站地图文件的实例中有三个URL的记录。每一个记录中,在loc标签中含有一个URL。changefreq标签标识该资源可能经过多长时间发生变化。第一个记录中含有一个las tmod标签,指出上一次发生变化的时间。第一个记录中还包含一个 priority 标签,值为0.7,高于平均值0.5。这个值的目的是告诉爬虫程序,在这个网站中该页面比其他页面更加重要。

为什么网站管理员对于创建一个网站地图会感到困惑?一个原因是为了告诉搜索引擎那些用别的方法可能找不到的页面。看一下网站地图文件实例中的第二个和第三个URL记录,假设它们是通过表单结果生成的页面。在这个网站里可能没有任何链接指向这些页面;而用户必须通过搜索框得到它们。比较简单的网络爬虫不会向搜索框中填写任何数据(尽管有些高级的网络爬虫可能会这样做),这样,这些页面对搜索引擎来说是不可见的。网站地图允许爬虫程序找到这些隐藏的内容。

网站地图还可以使爬虫程序知道页面的修改时间。在关于页面的时新性讨论中,我们提到爬虫程序必须去猜测页面什么时候可能会发生变化。changefreq 标签给爬虫程序提供了一个暗示,告诉它什么时候去对页面是否发生变化进行检查,las tmod 标签则告诉什么时候页面发生了变化。这有助于在不牺牲页面时新性的条件下,减少爬虫发送给网站的请求数量。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码