错误博客( cuowu.com )发布于 2019-06-10 18:10:27

信息采集抓取网页

信息采集抓取网页教程。

互联网上的每一个网页都有自己唯一的统一资源定位器(uniform resource locator),或URL。用于描述网页的URL由三部分组成:协议方案、主机名、资源名(如图3-1所示)。网页存储在网络服务器上,使用超文本传输协议(Hypertext Transfer Protocol, HTTP)来和客户端软件交换信息。因此,互联网上使用的绝大多数URL都以http开始,指出该URL表示的资源可以使用HTTP协议进行抓取。接下来的主机名(hostname),是保存该网页的网络服务器的计算机名。图中,计算机的名字是 www.cs.umass.edu ,是马萨诸塞大学计算机系的一台计算机。该URL指向这台计算机上的一个页面/csinfo/people.html。

统一资源定位器

网络浏览器和网络爬虫是两种不同的网络客户端,但都以相同的方式来获取网页。首先,客户端程序连接到一个域名系统(domain name system, DNS)服务器上。DNS服务器将主机名转换成IP(internet protocol)地址。典型的IP地址为32位二进制数,但现在有些网络使用128位的IP地址。接下来,客户端程序试着连接具有该IP地址的服务器。服务器上可能有多个不同程序在运行,每个程序都在监听网络以发现新的连接,各程序监听不同的端口(port)。端口是一个16位的数字,用来辨识不同的服务。除非在URL中指定了其他的端口,否则对网页的请求通常都发送到80端口。

一旦建立了连接,客户端程序发送一个HTTP请求给网络服务器,以请求一个页面。最常见的HTTP请求是GET请求,例如:

该命令请求服务器使用HTTP协议规范的1.0版本,将页面 /csinfo/people.html 返回给客户端。服务器在发送一个简短的头部信息之后,将该文件的内容返回给客户端。如果客户端需要更多的页面,可以发送其他的请求;否则,客户端关闭该连接。

客户端程序也可以通过使用POST请求获取网页。除了POST请求可以向服务器发送额外的请求信息之外,它和GET请求类似。习惯上,GET请求用于抓取已经在服务器上存在的数据,而POST请求用于告诉服务器一些事情。当你点击一个按钮购买商品或者对网页进行编辑时,就可以使用POST请求。如果运行一个网络爬虫,这个惯例是很有用的。由于只是发送了一个GET请求,就有助于确保网络爬虫不会在无意间去购买一件商品。

爬取网络


2020年错误博客亲测项目系列

错误教程( cuowu.com )专注网推培训、SEO培训和网赚培训,微信/电话:13722793092

关注微信公众号:第一时间获得错误博客最新教程,让我们一起成长!

公众号二维码