错误博客( cuowu.com )发布于 2019-06-10 16:33:50

搜索引擎文本采集

搜索引擎文本采集教程。

爬虫

在一些搜索引擎应用系统中,爬虫(crawler)组件对于搜索引擎发现和抓取文档具有首要的责任。爬虫的类型有很多种,但最普遍的是网络爬虫。网络爬虫通过追踪网页上的超链接来找到并下载新的页面。尽管这听起来很简单,但是如何能够高效处理互联网上大量出现的新网页,而且如果上次爬虫抓取过的网页发生了变化,如何保证所抓取的页面是“时新的”,这对于网络爬虫的设计是一项极富挑战性的任务。网络爬虫的抓取任务可以限制在一个单独的站点,如一所大学的站点,以此为基础进行站内搜索(site search)。主题(focused)网络爬虫或者话题(topical)网络爬虫采用分类技术来限制所访问的网页是关于同一个主题的。对于垂直搜索(vertical search)或者话题搜索(topical search)的应用系统,比如一个搜索引擎只提供对医学信息的存取,可以采用主题网络爬虫或者话题网络爬虫。

对于企业搜索,爬虫适用于找到并更新所有与公司运营相关的文档和网页。企业文档爬虫(document crawler)跟踪网页上的超链接来发现外部的和内部的(限制在企业内部网)页面,而且还必须扫描公司的和个人的目录,来发现电子邮件、文档、讲稿、数据库以及其他的公司信息。文档爬虫还可以用于桌面搜索,虽然只是对用户个人的目录进行扫描。

信息源

文档信息源(document feed)是一种存取实时文档流的机制。例如,新闻信息源是一个持续不断的新闻流及新闻的更新。爬虫必须能够发现新的文档,而与之相比,搜索引擎期望仅仅通过监测信息源,就能够抓取新的文档。对于新闻、博客、视频等这样一些互联网上的内容,RSS是互联网上信息源采用的一个通用标准。RSS“阅读器”用于支持RSS信息源,RSS信息源都采用标准的XML数据格式。与HTML语言类似,XML是一种用于描述数据格式的语言。阅读器监测信息源,可以获取信息源更新的内容。广播和电视信息源也可以应用于搜索中,这种类型的“文档”中含有一些自动分段的音频和视频流,以及相关的隐藏字幕和语音。

转换

由爬虫发现的文档或者由信息源提供的文档,通常都不是纯文本,它们的格式多种多样,如HTML、XML、Adobe PDF、Microsoft Word,或者是Microsoft PowerPoint等等。大多数的搜索引擎需要将这些文档转换成统一的文本格式和文档的元数据格式。在转换过程中,控制序列和具有特殊格式的非内容的数据,或者被删除,或者作为元数据进行记录。大部分对于HTML和XML文档的处理,可以看作是文本转换组件中的一部分。而对于其他格式的文档,转换过程是作为对该文档进行深入加工处理的基础。例如,PDF文档必须转换成文本。有很多实用程序可以完成这个转换过程,而不同的程序转换的精度是不同的。类似地,现在也有很实用程序,可以完成对Microsoft Office系列文档的转换。

另外一个常见的文本转换问题,是由文档中文本的编码方式引起的。ASCII编码是对于文本中单字节字符编码的通用标准方案。ASCII编码采用7位或8位来表示128个或256个字符。然而,有些语言,如汉语,比英语含有更多的字符,并使用很多其他的编码方案进行编码。Unicode是一个通常使用16位进行编码的标准编码方案,可以表示出世界上绝大多数语言中使用的文字。实际应用中,在对不同语言的文档进一步深入处理之前,必须要保证它们使用统一的编码方案进行了转换。

文档数据库

文档数据库用于管理大量的文档及与这些文档相关的结构化数据。从效率的角度来考虑,文档内容通常压缩之后进行保存。结构化数据包括文档的元数据,以及从文档中抽取出来的其他信息,如超链接和锚文本(anchor text,与超链接关联的文本)。关系数据库系统(relational database system)可以用来存储文档和元数据。然而,在一些实际应用中,可以使用更简单、更有效的存储系统,以便实现对大规模文档集的快速检索。

尽管原始文档在互联网上可以随时存取,但在企业数据库中文档数据库是必需的,可以为大量搜索引擎组件提供对文档内容的快速存取。如果搜索引擎必须从互联网上获取原始文档并重新对文档进行处理,那么,为检索回来的文档生成摘要将花费很长的时间。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码