Python爬虫进阶：Selenium和PhantomJS实现无界面浏览

Python爬虫进阶：Selenium和PhantomJS实现无界面浏览

在进行网站数据抓取时，经常会遇到一些需要模拟人为操作的情况，例如登录、点击、下拉框选择等，这时候使用传统的 urllib 或者 requests 库往往无法解决问题，需要使用到 Selenium 和 PhantomJS 这两个工具。

Selenium 是一款集成了多种浏览器的库，可以实现自动化测试，其中也包括了 Python 的绑定库。PhantomJS 则是一款无界面浏览器，可以在不打开浏览器界面的情况下进行网页渲染。下面我们将介绍如何使用 Selenium 和 PhantomJS 实现无界面浏览。

1. 安装 Selenium 和 PhantomJS

首先需要安装 Selenium 和 PhantomJS，可以通过 pip 进行安装：

```bash
pip install selenium
```

PhantomJS 的安装稍微有些麻烦，需要下载对应的二进制文件，然后将其路径加入环境变量中。具体步骤如下：

1. 前往官网下载 PhantomJS: http://phantomjs.org/download.html

2. 解压下载的文件，将其路径添加到环境变量 PATH 中

    ```bash
    export PATH=$PATH:/path/to/phantomjs/bin
    ```

3. 验证安装是否成功，输入以下命令：

    ```bash
    phantomjs --version
    ```

    如果输出正确的版本号，说明安装成功。

2. 使用 Selenium 进行网页操作

Selenium 提供了多种浏览器的驱动，我们可以选择不同的驱动进行操作。本文以 Chrome 为例，介绍如何使用 Selenium 进行网页操作：

```python
from selenium import webdriver

# 创建 Chrome 浏览器实例
driver = webdriver.Chrome()

# 打开网页
driver.get('https://www.baidu.com')

# 执行一些操作，例如在搜索框中输入文本，然后点击搜索按钮
search_box = driver.find_element_by_id('kw')
search_box.send_keys('Python 爬虫')
search_button = driver.find_element_by_id('su')
search_button.click()

# 等待页面加载完毕，然后获取页面源码
driver.implicitly_wait(10)
page_source = driver.page_source

# 关闭浏览器
driver.quit()
```

上述代码首先创建 Chrome 浏览器实例，然后打开百度首页。通过 `find_element_by_id` 方法找到搜索框和搜索按钮，然后分别执行输入文本和点击操作。注意到这里使用了 `implicitly_wait` 方法等待页面加载完毕，避免因为网速不稳定导致页面未加载完毕而出现错误。最后通过 `page_source` 属性获取页面源码。

3. 使用 PhantomJS 进行网页操作

PhantomJS 的使用与 Selenium 类似，只需要在创建浏览器实例时选择使用 PhantomJS 驱动即可。

```python
from selenium import webdriver

# 创建 PhantomJS 浏览器实例
driver = webdriver.PhantomJS()

# 打开网页
driver.get('https://www.baidu.com')

# 执行一些操作，例如在搜索框中输入文本，然后点击搜索按钮
search_box = driver.find_element_by_id('kw')
search_box.send_keys('Python 爬虫')
search_button = driver.find_element_by_id('su')
search_button.click()

# 等待页面加载完毕，然后获取页面源码
driver.implicitly_wait(10)
page_source = driver.page_source

# 关闭浏览器
driver.quit()
```

需要注意的是，使用 PhantomJS 需要设置一些额外参数，例如 User-Agent 等，否则可能会遇到无法加载页面的问题。可以通过 `DesiredCapabilities` 进行设置：

```python
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

# 设置 User-Agent 和其他选项
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36")

# 创建 PhantomJS 浏览器实例
driver = webdriver.PhantomJS(desired_capabilities=dcap)
```

4. 总结

本文介绍了如何使用 Selenium 和 PhantomJS 进行网页操作，其中 Selenium 可以集成多种浏览器，而 PhantomJS 则可以实现无界面浏览。对于一些需要模拟人为操作的网站，使用这两个工具可以大大提高爬虫的效率和质量。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

Python爬虫进阶：Selenium和PhantomJS实现无界面浏览