用Python编写一个简单的Web爬虫

Python语言作为当前最热门的编程语言之一，拥有很多应用场景。其中，爬虫是Python应用之一，也是Python编程入门时必不可少的实战项目之一。本文将介绍如何使用Python编写一个简单的Web爬虫。

一、Web爬虫工作原理

Web爬虫是一种自动化程序，可以按照一定的规则自动地从互联网上抓取指定网站的内容。Web爬虫工作原理主要分为以下几个步骤：

1. 发送HTTP请求：爬虫首先需要发送HTTP请求到指定的网站，获取网页内容。

2. 解析HTML页面：获取到HTML网页内容之后，需要使用解析器将其转换为可以操作的数据格式。

3. 抽取数据：根据需要抽取所需的数据，例如文章标题、作者、发布时间等。

4. 存储数据：将抽取到的数据存储到本地或者数据库中。

二、实现一个简单的Web爬虫

接下来，我们将使用Python实现一个简单的Web爬虫，抓取豆瓣电影Top250中的电影信息。

1. 发送HTTP请求

首先，我们需要使用Python中的requests库向指定URL发送GET请求，获取豆瓣电影Top250的页面内容。

``` python
import requests

url = 'https://movie.douban.com/top250'
response = requests.get(url)

print(response.text)
```

2. 解析HTML页面

获取到网页内容之后，我们需要使用Python中的解析库beautifulsoup4对HTML页面进行解析，获取需要的信息。在本例中，我们需要获取电影的标题、评分、评价人数、导演、演员和链接地址。

``` python
from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, "html.parser")

movies = []

for item in soup.select('.item'):
    movie = {
        'title': item.select('.title')[0].get_text(),
        'rate': item.select('.rating_num')[0].get_text(),
        'comments': item.select('.star span')[3].get_text(),
        'author': item.select('.bd')[0].get_text().split('\n')[1].strip(),
        'actors': item.select('.bd')[0].get_text().split('\n')[2].strip(),
        'link': item.select('.hd a')[0]['href']
    }
    movies.append(movie)

print(movies)
```

3. 存储数据

最后一步是将获取到的电影信息存储到本地或者数据库中。在本例中，我们将获取的电影信息存储到CSV文件中。

``` python
import csv

with open('movies.csv', 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = ['title', 'rate', 'comments', 'author', 'actors', 'link']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()
    for movie in movies:
        writer.writerow(movie)
```

四、总结

到此为止，我们已经学习了如何使用Python编写一个简单的Web爬虫。通过学习本文，你可以了解到Web爬虫的工作原理，掌握Python中的requests和beautifulsoup4库的使用，以及如何将数据存储到CSV文件中。希望这篇文章对你学习Python编程和Web爬虫有所帮助。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

用Python编写一个简单的Web爬虫