错误博客( cuowu.com )发布于 2019-06-10 17:43:37

搜索引擎用户交互

搜索引擎用户交互教程。内容包括:查询输入、查询转换和结果输出。

查询输入

查询输入组件为查询语言(query language)提供接口和解析器。在大多数网络搜索接口中使用的最简单的查询语言仅有少量的操作符(operator)。操作符是查询语言中的命令,用于指示文本需要进行特殊方式的处理。通常,通过限制文档中的文本与查询中的文本如何匹配,有助于使用户查询的意义更加清晰。例如,在一个简单的查询语言中使用引号操作符,该操作符指示引号中包围的词在文档中作为一个短语出现,而不是以单独的没有任何联系的词出现在文档中。然而,典型的网络查询中仅包含少量的关键词(keyword),而没有操作符。关键词只是一个简单的词,对于指定查询的话题来说是很重要的。因为大多数网络搜索引擎使用的排序算法是根据关键词查询设计的,对于那些含有较低比例关键词的较长的查询,效果并不好。例如,对于两个查询“搜索引擎”和“搜索引擎中使用的经典技术和数据结构是什么”,在网络搜索引擎中,前一个查询会比后一个查询得到更好的结果。搜索引擎设计中的一个挑战性的任务是,对于一系列的查询给出好的结果,对于更多规范的查询,给出更好的结果。

对于那些希望对搜索结果有更多的控制,或者对于使用搜索引擎的应用系统来说,可以使用更加复杂的查询语言。正如SQL查询语言并不是为数据库应用系统的用户(终端用户, the end user)设计的,同样,这些查询语言也不是为搜索应用的终端用户设计的。布尔型(Boolean)查询语言在信息检索中有着较长的历史。这种查询语言中使用的操作符包括 AND、OR和NOT,以及一些临近(proximity)操作符,用于指示词必须要在规定的距离内一起出现(通常根据字数统计)。另外一些查询语言包括这些操作符和其他概率模型中的操作符,这些操作符的设计旨在认可与文档结构和内容相关联的特征规范。

查询转换

查询转换组件包括一系列的技术,这些技术用于在生成排好序的文档之前和之后改善初始查询。最简单的处理涉及一些对文档进行文本转换的技术。在查询文本上,需要进行词素切分、停用词去除和词干提取这些工作,以生成与文档词项具有可比性的索引词。

拼写检查(spell checking)和查询建议(query suggestion)是查询转换中的技术,生成与用户初始查询相似的输出。在这两种情况下,向用户提供初始查询的一些候选查询,这些候选查询可能纠正了拼写错误或者是对用户所需信息的更规范的描述。这些技术通常会导致为网络应用搜集大量的查询日志(query log)。查询扩展(query expansion)技术是对查询进行推荐或者增加一些额外的词项,但通常都是在对文档中词项的出现情况分析的基础上进行的。该分析通常是用不同的信息源,如整个文档集合、检索到的文档或者用户计算机上的文档。相关反馈(relevance feedback)是一种查询扩展技术,利用用户认为相关的文档中出现的词项对查询进行扩展。

结果输出

结果输出组件负责对相关组件得到的排好序的文档的结果进行显示。可能包含的任务有生成网页摘要(snippets)来对检索到的文档内容进行概括;强调(highlighting)文档中重要的词和段落;对输出结果聚类以找到文档相关的类别;以及将相应的广告增加到结果显示中。在涉及多种语言的应用系统中,结果可能会被翻译成同一种的语言。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码