错误博客( cuowu.com )发布于 2019-06-10 18:05:28
网络信息爬取
网络信息爬取教程。
为了建立一个能够对网页进行搜索的搜索引擎系统,首先需要对你希望搜索的网页有一个备份。与后面我们将要考虑的一些其他类型的文本资源不同,网页很容易进行备份,因为通过互联网用浏览器可以将网页抓取到本地。这解决了获取要搜索的信息的一个主要问题:如何将数据从它存储的地方取出来交给搜索引擎。
自动地发现并下载网页称为爬取(crawling),下载网页的程序称为网络爬虫(web crawler)。对于网页的采集,存在很多特殊的问题。最大的问题是互联网的规模非常庞大,互联网上至少有上百亿的网页。上句话中提到的“至少”,是因为没有人能够确定互联网上网页的具体数目。即便可以精确地计算当天存在的网页数量,但随着网页不断地产生,这个数字很快就会失效。当一个用户每次增加一个新的博客帖子或者上传一个照片的时候,就创建了不同的网页。对于大多数的组织来说,即便是互联网上的大部分网页,也没有足够的存储空间来存储。但对于拥有大量资源的网络搜索提供者来讲,必须能够不断地下载新的内容,以保持文档集合的内容是最新的。
另一个问题是,互联网上的网页通常不受搜索引擎数据库创建者的控制。即便知道想要从www.cuowu.com 拷贝所有的网页,也没有简单的方法能够知道这个站点有多少个页面。该站点的拥有者可能会不希望你拷贝其中的一些数据,而且如果你很快或者很频繁地拷贝站点上的数据,就会引起站点拥有者的愤怒。有些你想要拷贝的数据可能只能通过在表单中填写需求才能获取,这很难实现自动处理。
随机文章
谷歌广告的三击广告政策运城搜搜网(贝贝网欠债数千万,创始人张良伦不知去向)
小小课堂:【seo专家】Google建议企业这样招聘SEO专家
图片交互设计指南
188 韩雪的惩罚-阎川魔鬼游戏
270 御女三十六式-阎川魔鬼游戏
dnf王者之星多少钱?哪里爆?曾经比魔剑还火的粉色项链
公爵的邪恶披风-dnf使敌人进行异常状态神器

发表评论