错误博客( cuowu.com )发布于 2019-06-10 18:51:44

搜索引擎存储文档

搜索引擎存储文档教程。

为了对文档进行索引,文档转换为统一的格式之后需要对其进行存储。最简单的文档存储是不对文档进行存储,对于一些应用,这样做是可取的。例如,在桌面搜索中,文档已经存储在文件系统中了,不需要再备份到其他地方。当信息采集进程运行的时候,它可以将经过转换的文档直接发送给索引进程。由于不需要存储文档转换的中间结果,桌面搜索系统就可以节省磁盘空间,这改善了索引需要的延迟。

绝大多数的搜索引擎都需要将文档存储在某个地方。为了对搜索结果创建网页摘要,就需要对文档中的文本进行快速的存取。为用户提供网页文本的摘要,是为了使用户不需要点击相应的链接,就能够知道检索到的文档的主要内容。

网页摘要并不是必需的,还有其他的一些原因也需要对每一个文档都保留一个备份。从CPU和网络的负载来看,文档采集的代价是很高的。可将文档进行备份,当下次再建立索引的时候,就不需要再次抓取它们了,这对于降低CPU和网络负载是很有意义的。可以保存那些曾抓取过的文档,允许在爬虫程序中使用HEAD请求以节省带宽,或者只爬取索引页面的一个子集。

最后,文档存储系统是信息抽取(见第4章)的起点。网络搜索引擎中最常见的一种信息抽取类型是,从超链接中提取锚文本,将锚文本和文档一起存储。也可能会使用其他类型的信息抽取,如在文档中识别人名和地名。如果在搜索中使用信息抽取,那么文档存储系统需要能够支持对文档数据的修改。

接下来,我们讨论对文档存储系统的一些基本需求,包括随机存取、压缩和更新,并讨论使用数据库系统或定制的存储系统(如BigTable)的相对优点。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码