错误博客( cuowu.com )发布于 2019-06-10 17:51:30

搜索引擎评价组件

搜索引擎评价组件教程。内容包括:日志、排序分析和性能分析。

日志

对于调整和改善搜索引擎系统的效果和效率来讲,用户查询及用户与搜索引擎交互的日志是很有价值的信息源。用户的查询日志可以用于拼写检查、相关查询词推荐、查询缓存及其他任务,例如为找到与用户搜索内容相关的广告提供帮助。搜索引擎返回的结果列表中的文档如果被用户点击浏览,那么该文档很可能是与用户查询相关的文档。这意味着用户对文档的点击日志(点击数据)和驻留时间(dwell time,用户阅读一篇文档所花费的时间)等信息可以用来评价和训练排序算法。

排序分析

对于大量的(查询-文档)对,给定日志数据和显示的相关判定,可以对排序算法的效果进行评估,并与候选的算法进行比较。这是改善搜索引擎性能的关键部分,并且可以为应用系统选择合适的参数值。可以采用多样化的评价手段,并可以选择这些方法来评价应用系统的输出结果。对输出结果的评价侧重于排序靠前的文档的质量,而不是整个结果列表的文档质量。

性能分析

性能分析组件专注于监测和改善系统的整体性能,排序分析组件以同样的方式监测系统的效果。可以采用多种多样的评价方法来进行系统的性能分析,如响应时间、吞吐量,但是评价方法的使用还依赖于具体的应用。例如,对于一个分布式搜索引擎系统来说,除了上述的评价方法之外,还要检测网络的使用情况和效率。模拟是与性能分析等效的方法,真实的网络、处理器、存储设备及数据,都可以使用参数可调的数学模型来代替。

相关阅读:搜索引擎是如何工作的

现在了解了一个搜索引擎中各组件的名称和它的功能。但是,对于这些组件在实际中如何执行它们的功能,没有进行更多的阐述。这是本书的后续章节中将讨论的内容。在每一章中,都深入阐述了一个或多个组件是如何工作的。如果在阅读了相应的章节之后,你仍然不理解所描述的组件,就可以阅读每章后面给出的参考文献,或者学习Galago的代码。Galago的代码是本书中的想法的具体实现。

参考文献和深入阅读

关于组件描述中提到的技术和模型的详细参考文献,会在相应的章节中给出。关于搜索引擎架构的参考文献为数不多。在数据库教科书中,Elmasri和Navathe(2006)描述了数据库的系统架构和相关的查询语言,将它们和本章中讨论的搜索引擎系统架构进行比较是很有意思的。它们在高层次的组件是有些相似的,然而数据库系统着重于结构化的数据和精确匹配,而不像搜索引擎,重点在于处理文本和排序算法。因此,大多数的组件是不同的。

Brin&Page(1998)是一篇经典的关于搜索引擎架构的研究论文。Callan等(1992)发表了另外一篇关于早期的通用搜索引擎(Inquery)的概述。Hatcher和Gospodnetic(2004)的论文中全面描述了Lucene的架构和组件。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码