• Python爬虫基础知识:urllib2的使用技巧

    前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。 新建test14来实现一个简单的代理Demo: 这里要注意的一个细节,使用 urllib2.install_opener() 会设置 urllib2 的全局 opener 。 这样后面的使用会很方便,但不能做更细致的控制,比如想在程…

  • Python爬虫基础知识:异常的处理

    先来说一说HTTP的异常处理问题。        当urlopen不能够处理一个response时,产生urlError。        不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。        HTTPError是urlError的子类,通常在特定HTTP URLs中产生。         1.URLError        通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。 这种情况下,异常同样会带…

  • Python爬虫基本知识:什么是爬虫?

    一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。 如果把整个互联网当成一个请叫我汪海网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 这样看来,网络爬虫就是一个爬行程序…