错误博客( cuowu.com )发布于 2019-06-10 18:39:36

文档和电子邮件采集

文档和电子邮件的信息采集教程。

尽管互联网是一个巨大的信息资源,但大量的数字信息并没有存储在网站上。本节中,我们将考虑那些普通的台式计算机上可能会发现的信息,如电子邮件、字处理文档、讲稿或电子表格。这些信息可以通过桌面搜索(desktop search)工具搜索到。在公司和组织机构中,企业搜索(enterprise search)会利用文件服务器或员工个人计算机上的文档,以及局域网内的网页。

当我们面对台式计算机上的数据时,互联网信息采集中的一些问题在这里发生了变化。在互联网信息采集中,仅仅找到数据就是很艰难的任务。在台式计算机中,感兴趣的数据都是以熟悉的组织形式存放在一个文件系统中。由于文件系统中含有易于查找的目录,在磁盘中找到所有的文件并不是很困难的。从某种方式上看,一个文件系统更像是一台网络服务器,但它具有自动生成的网站地图。

然而,在采集桌面数据的时候,会遇到一些特殊的问题。首先,涉及的问题是更新速度。在桌面搜索系统中,用户要求搜索结果是基于文件的当前内容的。这意味着,要能够搜索到刚刚接收到的电子邮件,要能够搜索到一个刚刚被保存的文档。这和互联网搜索的预期结果是不同的,互联网搜索中,可以容忍信息采集延迟几个小时或者几天。每隔几秒钟就对文件系统进行信息采集是不切实际的,但是现代文件系统能够直接向爬虫程序发送变化通知,这样它们可以立即对新的文件进行备份。文件服务器中的远程文件系统通常不提供这种类型的变化通知,因此它们必须像网络服务一样被爬取。

磁盘空间是另外一个涉及的问题。对于网络爬虫,我们假定需要对找到的每一个文档保留一个备份。对于桌面系统来说并不是这样,桌面系统中文件已经在本地进行存储了,而且如果大部分磁盘空间都被索引器占有的话,用户会很不满意。这时,桌面爬虫会将文档读入内存中,并且将它直接发送给索引器。第5章中会对索引进行进一步的讨论。

由于网站都是通过网络浏览器查看的,大多数的网络内容都是以HTML格式存储的。另一方面,每一个桌面程序,如字处理器、讲稿设计工具、电子邮件程序等等,都有自己的文件格式。因此,仅仅找到这些文件是不够的,最终需要将它们转换成索引器能够理解的统一格式。在3.5节中,我们会再次讨论这种转换问题。

最后,可能也是最重要的,采集桌面数据需要重点关注隐私问题。桌面系统中,多个用户可以使用不同的账户登录,用户A不能通过搜索发现用户B账户中的电子邮件。当我们把网络文件系统的信息采集与企业内部网的信息采集同等看待时,这个问题显得特别地重要。文件存取权限必须伴随着采集到的数据进行记录,而且必须保持是最新的。


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码