信息检索是什么

对于大多数人来说,在Web上搜索信息是一项日常活动。日常,搜索和通信是计算机最普遍的应用。公司和大学中的很多人试图改进搜索引擎,让人们以更简单更快速的方法找到正确的信息,这一点也不奇怪。这些人,无论他们自称计算机科学家、软件工程师、信息科学家、搜索引擎优化者或其他什么称谓,都是在信息检索(Infomation Retrieval ,IR)这个领域工作。因此,在进入搜索引擎内部开始具体的旅程以前,我们要先介绍一下背景。

Gerard Salton是信息检索领域的先驱,也是20世纪60年代到90年代信息检索领域的领袖人物之一,他在其景点教科书(Salton,1968)中,给信息检索做出了以下定义。

信息检索是关于信息的结构、分析、组织、存储、搜索和检索的领域。

尽管在过去的40年中,对搜索的理解以及搜索技术都有了巨大的进步,但上述定义依然非常适合,非常精准。“信息检索”一词含义非常宽泛,涵盖了很宽范围的信息类型和各种与搜索相关的应用。

从20世纪50年代开始,该领域的主要焦点一直是文本(text)和文本形式的文档(text document)。网页、电子邮件、学术论文、图书和新闻报道只是文档类型中的一部分。所有这些文档都有一定的结构,例如与科技期刊论文的内容相关联的标题、作者、日期和摘要信息等。当用于数据库记录时,这些结构由属性或域组成。文档和典型的数据库记录(例如银行账户记录或航班预定记录)最重要的区别在于,文档中的大部分信息以文本形式存放,文档是没有结构的。

为了解释这一区别,考虑账户记录中包含的两个典型属性:账号和当前余额。无论在格式(例如:用6位证书定义账号,用带有2位小数的实数描述余额)上,还是在意义上,这两个属性都被非常精确地定义。要比较这些属性的值是非常容易的,因此可以直接实现某个算法,识别出满足某个查询条件的记录,例如:“找出账号为123456的账户”,或者“找出余额大于5万美金的账户”。

现在考虑一个关于两个银行合并的新闻报道,该报道有一些属性,比如标题和新闻来源,但重要的内容是报道本身。在数据库系统中,这一关键信息一般会被存储在一个没有内部结构的单独的大属性中。大多数提交给网络速锁引擎的查询,如果跟这篇报道有关,则具有“银行合并”或“银行接管”这样的字眼。为了做这个搜索,我们必须设计出能够比较查询文字和报道文字的算法,并决定报道中是否包含被搜索的信息。定义一个词、句子、段落或者整个新闻报道的意义,比定义一个账号要难得多,因此文本的比较并不容易。对人们比较文本的过程进行理解和建模,并设计计算机算法以便精准地执行这种比较,是信息检索的核心。

逐渐地,信息检索的应用包含了带有结构的多媒体文档、有意义的文本内容和其他媒体。常见的信息包括图片、视频、音频(包括音乐和语音)。在某些应用中,例如在法律支持系统中,被扫描的文件图片也是重要的。这些媒体像文本一样,其内容都很难描述和比较。当前搜索非文本文档的技术依赖于对这些内容的文本描述,而不是这些媒体自身的内容,但对媒体内容的直接比较技术正在不断进步,例如图片的比较。

除了媒体多种多样以外,信息检索还包括一系列任务和应用。通常的搜索情景是:某人向搜索引擎输入一个查询,并从一个经过排序的文档列表中得到答案。尽管在万维网上进行的搜索是信息检索最常见的应用,不过搜索也在企业、政府和其他许多应用领域中扮演着重要的角色。垂直搜索(vertical search)是网络搜索的特殊形式,搜索被限制在特殊的主题上。企业搜索(enterprise search)是在散布在企业内部网中的大量计算机文件中寻找所需的信息。网页当然是分布式信息存储的一部分,但大多数信息将在邮件、报告、发言稿、数据表以及企业的结构化数据库中得到。桌面搜索(desktop search)是企业搜索的个人版,信息源是存储在一台个人电脑中的文件集合,包括那些被浏览过的邮件的网页。P2P搜索(peer-to-peer search)是在节点机或计算机构成的网络中搜寻信息,但没有任何集中式的控制。这种类型的搜索是从音乐文件的共享工具开始的,但也可以被用于任何有共同兴趣的社区,甚至在移动设备中共享位置信息。人们采用搜索和相关的信息检索技术发布广告,做智能分析、科学发现、卫生保健、客服支持和房地产投资等等。任何包含文本集合的应用或其他非结构化的信息,都需要进行组织和搜索。

基于用户查询的搜索(有时称为特殊搜索(ad hoc search),因为查询的范围巨大而且事先没有约定)并不是信息检索中研究的唯一的文本处理任务,其他任务包括过滤(filtering)、分类(classification)和问答(question answering)。过滤也称为跟踪,根据一个人的兴趣发现符合其兴趣的报道,并用邮件和其他机制报警。分类程序基于一套预先定义的标签或类别(比如Yahoo目录体系)给文档打上标记。问答系统与搜索很相似,但它的目标是处理更特殊的问题,例如“珠穆朗玛峰的高度是多少?”。问答系统的目标是从文本中发现明确的答案,而不是一个文档列表。表1-1对信息检索领域的一些特征和维度进行了总结。

信息检索的维度


2019年互联网最赚钱的项目推荐 - 趣分类

  • 趣分类APP - 一款以垃圾分类主题的区块链项目。只要踏实肯干,均可轻松月入过万!有意者咨询,免费项目指导。

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码