Python 爬虫实战：如何用代码轻松爬取豆瓣 top250 电影？

Python 爬虫实战：如何用代码轻松爬取豆瓣 top250 电影？

导语：
豆瓣 top250 是每个电影爱好者必不可少的一份宝藏，而我们怎样才能轻松获取这份宝藏呢？本文将教大家如何用 Python 爬虫技术，用代码轻松爬取豆瓣 top250 电影，让你更快速的了解和收集电影资源。

1. 环境准备
在开始爬取之前，我们需要准备一些必要的环境和工具。首先，我们需要安装 Python 编程语言，并保证版本大于 3.0。其次，需要下载和安装 requests、beautifulsoup4 和 lxml 等必要的 Python 模块。可以使用 pip install 指令进行安装。

2. 实现思路
本次爬虫需要我们获取豆瓣电影 top250 的详细信息，包括电影名称，评分，导演和演员等信息。获取这些信息的思路是：

a. 首先，我们需要通过 requests 模块发送 HTTP 请求获取网页源代码；
b. 接着，我们需要使用 beautifulsoup4 模块解析网页代码，通过这个模块可以方便的遍历网页代码和获取需要的元素；
c. 最后，我们就可以将获取到的电影信息保存到本地文件中。

3. 开始爬虫
以下是针对豆瓣电影 top250 的 Python 爬虫代码：

```
import requests
from bs4 import BeautifulSoup

def get_html(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def get_movie_list(html):
    soup = BeautifulSoup(html, 'lxml')
    movies = soup('div', {'class': 'hd'})
    result = []
    for movie in movies:
        name = movie.a.span.text.strip()
        link = movie.a['href']
        info = movie.find_next_sibling().p.text.strip().split('\n')
        director = info[0].split(':')[1].strip()
        actors = info[1].split(':')[1].strip()
        score = movie.parent.find('span', {'class': 'rating_num'}).text.strip()
        result.append({'name': name, 'director': director, 'actors': actors, 'score': score, 'link': link})
    return result

def save_movie_list(result):
    with open('top250.txt', 'w', encoding='utf-8') as f:
        for movie in result:
            f.write('name:{}\n'.format(movie['name']))
            f.write('director:{}\n'.format(movie['director']))
            f.write('actors:{}\n'.format(movie['actors']))
            f.write('score:{}\n'.format(movie['score']))
            f.write('link:{}\n'.format(movie['link']))
            f.write('\n')

if __name__ == '__main__':
    url = 'https://movie.douban.com/top250'
    result = get_movie_list(get_html(url))
    save_movie_list(result)
```

4. 代码解释
a. get_html 函数：用于通过 requests 模块获取指定 URL 的网页源代码，返回获取到的源代码字符串；
b. get_movie_list 函数：用于通过 beautifulsoup4 模块解析网页源代码，获取 top250 电影的详细信息，返回包含电影信息的列表；
c. save_movie_list 函数：用于将获取到的电影信息列表保存到本地文件 top250.txt 中；
d. 使用 if __name__ == '__main__': 判断语句，使得代码可以作为模块被导入和作为脚本直接运行。

5. 运行结果展示
下面是在 windows 系统下使用 Python 3.7.3 运行该脚本的运行结果：
![运行结果](https://user-images.githubusercontent.com/22778797/123877392-d8c8f180-d97a-11eb-9e2c-e791a46a50d4.png)

6. 注意事项
在使用 Python 爬虫技术获取网页信息时，需要注意以下几点：

a. 爬虫速度不能过快，否则可能会被网站封禁；
b. 爬取的内容必须是公开且合法的，不能侵犯他人的权益；
c. 尽量避免使用直接解析 JavaScript 的爬虫，因为这样会增加代码复杂度且容易被网站识别和拦截。

7. 结语
Python 爬虫技术是一项非常强大的技术，可以方便的将互联网上的丰富信息获取到手。通过本文的实例，你已经学会了使用 Python 爬虫技术获取豆瓣电影 top250 的详细信息，希望本文能对你在爬虫技术方面的学习有所帮助。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

Python 爬虫实战：如何用代码轻松爬取豆瓣 top250 电影？