错误博客( cuowu.com )发布于 2019-06-10 15:55:55

信息检索重要问题

信息检索的研究者们把注意力集中在一些关键问题上,这些问题在20世纪60年代文本集合的大小为1.5MB时很重要,在当今能够处理数十亿网页的商业化网络搜索引擎时代,这些问题仍然非常重要。其中一个关键问题是相关性(relevance)。相关性是信息检索中的基本概念,不严格地讲,一个相关文档包含了当一个人把查询发给搜索引擎后他要找的信息。尽管这个定义听上去有些简单,但在一个人判断一篇文档是否相关时,有许多因素会影响他的决策。在设计比较文本以及对文档进行排序的算法时,需要考虑这些因素。如果像数据库系统或者Unix中的文本查找工具那样,对查询和文档进行简单的比较,寻找精确的匹配,那结果的相关性一定很差。一个明显的原因是:语言可以用许多不同的方式,通常是用不同的词语,表达同一个概念,这在信息检索中称为词表不匹配问题(vocabulary mismatch problem)。

有必要区分话题相关(topical relevance)和用户相关(user relevance)这两个概念。如果一个文本与查询是话题相关的,就意味着两者有相同的话题。例如,关于堪萨斯州龙卷风的新闻报道,与查询“严重天气事件”是话题相关的。如果提这个问题的人以前曾经看过那篇报道,或者那篇报道是五年前发表的,或者那篇报道来自中国通讯社并用中文写成,那么他(通常称为用户)可能不认为那篇报道是相关的。因此,用户相关会考虑该报道的一些附加特性。

为了探讨相关性问题,研究者们提出了多种检索模型(retrieval model),并测试这些模型的作用。一个检索模型是对查询与文档匹配过程的形式化表示,它是排序算法(ranking algorithm)的基础,搜索引擎利用排序算法生成文档的有序列表。一个好的检索模型能够找到那些与提问者相关的文档。有些检索模型集中在话题相关性上,但一个部署在真实环境中的搜索引擎,必须使用包含了用户相关性的排序算法。

在信息检索中,检索模型的一个有趣的特点是,它们往往对文本的统计特征而不是语言结构建模。举例来说,这就意味着排序算法会更多地考虑词出现的数量,而不关心一个词是名词还是形容词。更先进的模型能够采用语言特征,但仍把语言特征的重要性放在第二位。对词频信息的使用始于20世纪50年代信息检索领域的另一位先驱H. P. Luhn。直到20世纪90年代,这种看待文本的视角才在计算机科学的其他领域(比如自然语言处理)流行起来。

信息检索的另一个核心问题是评价问题。由于文本排序的质量依赖于该文本与用户期望的匹配程度,因此有必要及早制定评价体系,以及获取评价数据、比较排序算法的实验步骤。在20世纪60年代,Cyril Cleverdon率先制定了评价方法,他使用的两种评价指标,准确率(precision)和召回率(recall),目前仍很流行。准确率是非常符合直觉的评价指标,它是检索出来的文档中相关文档所占比例。召回率是全部相关文档中被检索出来的文档比例。当使用召回率这个评价指标时,有一个假设:对于给定的查询,我们知道所有的相关文档。在网络搜索环境下,这样的假设显然是有问题的,但对于比较小的文档测试集合(test collection),这样的指标是有用的。一个信息检索实验的测试集合,由文本文档集合、典型查询样本和每个查询的相关文档列表(相关性判别(relevance judgment))组成。最知名的测试集是TREC(Text REtrieval Conference, http://trec.nist.gov/)评测会议提供的测试集。

检索模型和搜索引擎的评测是一个非常活跃的领域,目前的热点集中在使用大量的从用户交互中获得的日志数据,比如点击流(clickthrough)数据,点击流数据记录了在一个搜索过程中被点击的文档。点击流和其他日志数据与相关性有很大的关联,因此可以用它来对搜索进行评价,但是搜索引擎公司仍然使用相关性判别作为日志数据的补充,以便确保结果的有效性。

信息检索的第三个核心问题是注重用户和他们的信息需求(information need),这一原则是显而易见的,因为对搜索的评价是以用户为中心的,即搜索引擎用户是搜索质量的终极判定者。这种理念引发了大量关于人们怎样与搜索引擎之间进行交互的研究,特别是开发帮助用户表达他们的信息需求的技术。信息需求是人们向搜索引擎发送查询的背后动因。与数据库系统的需求(比如某个银行账户的存款余额)相比,文本查询通常是用户实际需求的一种很糟糕的描述。一个单词查询如“猫”,可能表示“在哪儿能买到猫”或要查询百老汇爵士乐的信息。尽管很缺乏特指性,但在网络搜索中一个词的查询仍非常普遍。像查询建议(query suggestion)、查询扩展(query expansion)和相关反馈(relevance feedback)这些技术,使用交互的方式和上下文环境来优化初始的查询,以便产生更好的排序列表。

这些问题将贯穿本书,并进行非常细致的讨论。我们现在已具备充分的背景知识来讨论信息检索研究中的主要产品,即搜索引擎。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码