错误博客( cuowu.com )发布于 2019-06-10 18:02:31

确定搜索的内容

信息采集确定搜索的内容教程。

本书是关于构建搜索引擎系统的详细描述,从排序使用的算法到查询处理的方法。虽然我们重点关注的是那些使搜索引擎能够工作的技术,而且更好的技术能够使搜索引擎具有更好的性能,但是文档集合中的信息才使搜索引擎变得更加有用,换言之,如果搜索引擎中没有存储合适的文档,就没有一种搜索技术能够找到相关的信息。

本节的标题隐含地回答了这样一个问题,“我们想要搜索什么?”。简单的答案是:一切你所能搜索的信息。虽然一些最好的文档回答了更多的问题,但每一个文档至少回答了一个问题(例如,“Now where was that document again?”)。每次搜索引擎增加不同的文档,它能够回答的问题数目也随之增加。另一方面,为了找到最好的结果显示给用户添加一些低质量的文档会增加排序处理的负担。然而,对于网络搜索引擎来说,即使系统存储着几十亿没太大用处的低质量文档,也能显示出搜索引擎的成功之处。

即便是有用的文档,经过一段时间之后也会变得用处不大,尤其是新闻和财经信息。例如,大部分人想要知道的是当天股票市场的报道,只有少数的人会关心昨天的市场发生了什么。遗憾的是,我们经常会在搜索结果列表中发现过期的网页和链接。搜索引擎除了收集那些旧的资料外,还含有尽可能多的近期信息,这时搜索引擎的效果是最好的。

本章介绍了找到要搜索的文档的相关技术,无论这些文档是在互联网上、文件服务器上、计算机的硬盘上或者是在电子邮件程序中。我们将讨论存储文档以及如何保持这些文档是最新的策略。接下来,将讨论如何从文件中获取数据,以及浏览中存在的问题,如字符编码、过时的文件格式、重复文档以及文本噪声。通过本章的学习,你将能够牢固地掌握如何为搜索引擎准备文档数据,为建立索引做准备。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码