错误博客( cuowu.com )发布于 2019-06-10 19:02:21

爬虫与页面更新

爬虫与页面更新教程。

当爬虫程序抓取到了文档的新的版本时,需要对文档数据库进行更新。可以采用的一种方式是,将爬虫抓取来的新的、变化了的文档与文档数据库中那些没有发生变化的文档数据进行合并,重新生成一个新的文档存储。但如果文档数据的变化较小,与仅在相应的位置对数据进行更新相比,这个合并过程的开销会更大。

更新的另外一个重要原因是处理锚文本。图3-11给出了HTML链接标签中的锚文本的实例。图中的HTML代码在网络浏览器中表示为超链接,超链接上有锚文本 Example website,当点击这个超链接的时候,会将用户带到所指向的https://www.cuowu.com 网站上。锚文本是一个很重要的特征,因为它对目标网页内容给出了精确的摘要。如果这个链接来自另外一个不同的网站,我们仍然会相信摘要信息是准确的,这同样有助于对文档进行排序(见第4章和第7章)。

具有锚文本的链接

由于锚文本需要和目标网页相关联,因此准确收集锚文本是很困难的。简单的方法是,使用一个支持更新的数据库。当发现一个文档中含有锚文本时,我们找到目标网页的记录,并对记录中的锚文本进行更新。当对文档进行索引的时候,锚文本也可以一起进行索引。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码