错误博客( cuowu.com )发布于 2019-06-10 16:07:17

搜索工程师

信息检索研究包括文本和语言的数学模型的建立、带有测试集合与用户的大规模环境的建立,以及大量学术论文的写作。由于这些原因,此类研究比较适合专业学者或研究实验室中的人们来做。这些人主要是受到过计算机科学训练的人,尽管信息科学、数学,甚至社会科学和计算语言学也是需要的。那么谁来做搜索引擎呢?在很大程度上,还是同一种人,只不过应该更强调实践能力。计算机产业已经开始使用“搜索工程师”(search engineer)一词来指称这种类型的人。搜索工程师主要是受过计算机科学训练的人,多数有计算机系统或数据库的背景。令人惊讶的是,他们当中很少有人受过信息检索方面的训练,这也是撰写本书的动机之一。

搜索工程师的角色是什么?当然,那些在设计和实现新搜索引擎的主要的互联网搜索公司工作的人是搜索工程师,但搜索工程师中的大部分人是那些修改、扩充、维护和调整现有搜索引擎,以满足大范围商业应用需求的人。为搜索引擎设计和优化内容的人,以及实现垃圾信息处理的人也是搜索工程师。搜索工程师所开发的搜索引擎覆盖了上一节提到的全部搜索引擎,他们主要使用开源搜索引擎和企业搜索引擎做应用开发,但也最有效地使用桌面搜索引擎和网络搜索引擎。

在现代计算机应用中,搜索的重要性和普适性意味着,搜索工程已经成为计算机产业中 一种重要的职业。然而,在计算机科学系中,只有非常少的教程从信息检索的视角给学生们补充搜索方面的知识。本书旨在帮助潜在的搜索工程师理解搜索,并掌握相关的工具。

参考文献和深入阅读

在每一章中,我们都提供一些论文和书籍的列表,这些资料对所讨论的主题提供了更为详细的论述。补充读物对于理解本书的内容来说并不是必需的,但如能参考这些资料,可以了解更多的背景,并在一些情况下获得更深入的理解,也可以接触到更高级的主题,其中会描述本书没有覆盖的技术和研究成果。

根据我们的观点,信息检索领域最经典的参考文献是Salton(1968;1983)和van Rijsbergen(1979)的三本书。Van Rijsbergen的书自从在网上发布以来就一直很流行,这三本书非常精彩地描述了信息检索早期(直到20世纪70年代末)的研究成果。根据计算机科学对信息检索领域的定义,Salton的早期著作特别重要。最近的书包括Baeza-Yates和Ribeiro-Neto(1999)和Manning等(2008)。

与本书覆盖的全部主题相关的研究论文,可以在美国计算机协会(ACM)信息检索特殊兴趣组(SIGIR)年会的论文集中找到。这些论文集可以从网上ACM数字图书馆得到。信息检索欧洲会议(ECIR)、信息与知识管理(CIKM)和网络搜索与数据挖掘会议(WSDM)的论文集中,也有一些好的论文。WSDM会议是从WWW会议派生出来的会议,包括了一些网络搜索的重要论文。TREC会议的论文集可以在线获得,其中介绍了许多来自不同的学术和工业组织的新技术。对TREC实验的综述,可以在Voorhees和Harman(2005)中得到。在数据库会议,如VLDB和SIGMOD中,与搜索相关的论文在不断增长;在语言技术的会议,如ACL和HLT(计算语言学和人类语言技术协会)以及机器学习等其他会议上,偶尔也有与搜索相关的文章。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码