「Python」实现抓取天气信息的爬虫，轻松搞定

Python是一种非常强大和流行的编程语言，它可以轻松地编写各种类型的脚本和应用程序。在本文中，我将向您介绍如何使用Python实现一个简单的爬虫，以获取天气信息。具体来说，我将介绍如何使用Python的Requests和BeautifulSoup库，从一个天气网站中抓取天气信息。

1. 安装依赖库

要使用Python来编写爬虫，您需要安装一些必需的依赖库。首先，您需要安装Requests库，这是一种用于发出HTTP请求的Python库。您可以使用pip命令来安装它：

```python
pip install requests
```

接下来，您需要安装BeautifulSoup库，这是一种用于解析HTML和XML文档的Python库。您同样可以使用pip命令来安装它：

```python
pip install beautifulsoup4
```

安装完成后，我们可以开始编写Python程序了。

2. 发送HTTP请求

我们要抓取的天气信息来自一个天气网站，我们需要向该网站发出HTTP请求。具体来说，我们需要向该网站发送一个GET请求，以获取天气页面的HTML源代码。为了执行这个任务，我们将使用Requests库中的get()方法：

```python
import requests

URL = 'https://www.weather.com.cn/weather/101010100.shtml'

response = requests.get(URL)

if response.status_code == 200:
    print(response.text)
else:
    print("Error: Failed to get the weather page.")
```

在上面的代码中，我们定义了目标URL的变量，并使用Requests库中的get()方法向该URL发出GET请求。如果服务器成功响应了我们的请求，我们将在控制台中打印出响应HTML源代码。否则，我们将打印出一个错误消息。

3. 解析HTML源代码

一旦我们获得了天气页面的HTML源代码，我们就需要解析它，以提取出所需的天气信息。为了执行这个任务，我们将使用BeautifulSoup库。具体来说，我们将使用BeautifulSoup库中的find()方法来定位HTML元素。

```python
import requests
from bs4 import BeautifulSoup

URL = 'https://www.weather.com.cn/weather/101010100.shtml'

response = requests.get(URL)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    ul = soup.find('ul', {'class': 't clearfix'})
    lis = ul.find_all('li')
    for li in lis:
        data = li.find('h1').text + '\t'
        data += li.find('p', {'class': 'tem'}).span.text + '/'
        data += li.find('p', {'class': 'tem'}).i.text
        print(data)
else:
    print("Error: Failed to get the weather page.")
```

在上面的代码中，我们先使用BeautifulSoup库将HTML源代码解析为一个BeautifulSoup对象。然后，我们使用find()方法定位HTML元素。在这里，我们定位了“t clearfix”类的“ul”元素，然后通过调用find_all()方法来获取所有的“li”元素。对于每个“li”元素，我们使用find()方法来找到“h1”元素和包含最高和最低温度的“p”元素。最后，我们将提取出的信息打印在控制台中。

4. 运行程序

现在，我们已经编写好了Python程序，让我们运行它并查看程序输出。如果一切正常，您应该会看到如下所示的天气信息：

```
今天(07日) 晴 5℃/-6℃
明天(08日) 晴 7℃/-6℃
后天(09日) 霾转多云 8℃/-5℃
```

5. 总结

在本文中，我向您介绍了如何使用Python的Requests和BeautifulSoup库，从一个天气网站中抓取天气信息。通过使用这些库，我们可以轻松地向任何网站发出HTTP请求，并从HTML源代码中提取所需的信息。这种技术可以用于许多不同类型的应用程序，例如数据挖掘，网络爬虫等。感谢您阅读本文，希望它能对您有所帮助。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

「Python」实现抓取天气信息的爬虫，轻松搞定