错误博客( cuowu.com )发布于 2019-06-10 18:25:44

面向主题的信息采集

面向主题的信息采集教程。

有些用户会希望搜索引擎关注某一个特定话题的信息。例如,对于一个与电影有关的站点,用户可能会希望通过使用搜索引擎给他们带来更多的电影方面的信息。如果能够正确地构建这种类型的垂直搜索(vertical search),那么与通用搜索相比,它能够提供更高的准确率,因为文档集合中没有无关信息。垂直搜索中的计算开销也会比全网搜索的开销低很多,因为垂直搜索中的文档集合规模相对来讲要小很多。

为垂直搜索抓取网页的最精确的方式是,首先对整个互联网的网页进行采集,然后扔掉所有那些不相关的页面。这种策略需要大量的磁盘存储空间和带宽,而最终大多数的网页都会被筛选掉。

相对来说代价较低的方法是面向主题(focused)或话题(topical)的信息采集。主题爬虫试图只下载那些和一个特定主题相关的页面。主题爬虫依据这样一个事实:一个话题的页面中含有指向同一话题的其他页面的链接。如果这个依据成立的话,主题爬虫可以从一个特定话题的页面开始信息采集,接下来对跟踪这个根页面中的链接采集该话题的所有页面。在实际应用中,一个特定话题的多个权威的页面都被用做种子页面。

主题爬虫需要一些自动工具来判断一个页面是否与某个特定的主题相关。第9章中将会介绍文本分类技术,它可以用做自动判断的工具。一个页面被下载之后,爬虫使用分类器来确定该页面是否与给定的主题相关。如果是相关的,则保留该页面,而该页面中的超链接则用于发现其他相关的站点。页面中的外出链接上的锚文本是主题相关性判定的很重要的线索。还有,一些页面比其他页面含有更多的与话题相关的超链接。在对一个页面中的超链接进行访问的时候,爬虫可以继续跟踪下载页面的话题相关性,以此来确定是否下载其他类似的页面。锚文本数据和与页面超链接话题相关的数据可以结合在一起,用于确定爬虫接下来要采集的页面。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码