使用 Python 构建一个简易的 Web 爬虫系统

今天 4阅读

随着互联网的发展，数据成为了信息社会的重要资源。Web 爬虫技术作为获取网络数据的一种有效手段，广泛应用于搜索引擎、数据分析、市场调研等领域。本文将介绍如何使用 Python 编写一个简单的 Web 爬虫系统，并结合实际案例展示其应用。

什么是 Web 爬虫？

Web 爬虫（Web Crawler）又称网络蜘蛛（Web Spider），是一种按照一定规则自动抓取网页内容的程序或脚本。爬虫的核心功能是模拟浏览器访问网站，并提取所需的数据。这些数据可以用于分析、存档、索引等用途。

Python 中常用的爬虫库

Python 拥有丰富的第三方库支持，使得编写爬虫变得非常简单。以下是几个常用库：

requests：用于发送 HTTP 请求，获取网页内容。BeautifulSoup：用于解析 HTML 或 XML 文档，提取所需数据。Scrapy：一个功能强大的爬虫框架，适合构建大型爬虫项目。Selenium：模拟浏览器行为，适用于处理 JavaScript 动态加载的内容。

在本文中，我们将使用 requests 和 BeautifulSoup 来实现一个基础但完整的爬虫示例。

项目目标

我们将构建一个爬虫程序，从豆瓣电影 Top250 页面（https://movie.douban.com/top250）爬取电影名称、评分、导演和年份等信息，并将其保存为 CSV 文件。

3.1 分析页面结构

首先，我们打开豆瓣电影 Top250 页面并查看其 HTML 结构。通过开发者工具可以看到每部电影的信息包含在一个 <li> 标签中，其中电影名称在 <span class="title"> 中，评分在 <span class="rating_num"> 中，导演和年份信息在 <p class="bd"> 的子节点中。

3.2 安装依赖库

确保你已经安装了以下 Python 库：

pip install requests beautifulsoup4 lxml

编写爬虫代码

下面是我们完整的爬虫代码：

import requestsfrom bs4 import BeautifulSoupimport csvimport time# 设置请求头，伪装成浏览器访问headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}def get_movie_data(url):    response = requests.get(url, headers=headers)    soup = BeautifulSoup(response.text, 'lxml')    movies = []    for item in soup.find_all('li'):        title = item.find('span', class_='title')        if not title:            continue        title = title.text.strip()        rating_tag = item.find('span', class_='rating_num')        rating = rating_tag.text.strip() if rating_tag else '暂无评分'        info = item.find('p', class_='bd').text.strip().split('\n')[0]        director_info = info.split('...')[0].strip()        year = info.split('/')[-1].strip()        movies.append({            'title': title,            'rating': rating,            'director': director_info,            'year': year        })    return moviesdef save_to_csv(data, filename='douban_top250.csv'):    with open(filename, mode='w', encoding='utf-8-sig', newline='') as f:        writer = csv.DictWriter(f, fieldnames=['title', 'rating', 'director', 'year'])        writer.writeheader()        writer.writerows(data)def main():    base_url = 'https://movie.douban.com/top250?start={}'    all_movies = []    for i in range(0, 250, 25):        url = base_url.format(i)        print(f'正在爬取第 {i // 25 + 1} 页: {url}')        movies = get_movie_data(url)        all_movies.extend(movies)        time.sleep(1)  # 避免请求过快导致被封 IP    save_to_csv(all_movies)    print('数据爬取完成，已保存为 douban_top250.csv')if __name__ == '__main__':    main()

4.1 代码说明

requests.get()：向目标 URL 发送 GET 请求，获取网页源码。BeautifulSoup()：使用 lxml 解析器解析 HTML 内容。find_all() 和 find()：查找所有 <li> 元素，并从中提取电影信息。csv.DictWriter：将字典列表写入 CSV 文件。time.sleep(1)：每次请求后暂停一秒，防止请求频率过高。

4.2 输出结果

运行上述代码后，将在当前目录下生成一个名为 douban_top250.csv 的文件，内容如下：

title	rating	director	year
肖申克的救赎	9.7	导演: 弗兰克·德拉邦特	1994
霸王别姬	9.6	导演: 陈凯歌	1993
...	...	...	...

你可以用 Excel 或 Python 的 pandas 进一步分析这些数据。

注意事项与反爬机制应对

尽管我们的爬虫能够正常工作，但在实际应用中还需注意：

设置 User-Agent：避免被识别为机器人。设置请求间隔：合理控制请求频率，避免触发反爬机制。使用代理 IP：当需要大规模爬取时，可借助代理池轮换 IP 地址。异常处理：添加 try-except 块来捕获请求失败的情况。遵守 robots.txt：尊重网站的爬虫政策，不进行恶意爬取。

扩展方向

本项目是一个基础版本的爬虫系统，未来可以考虑以下几个方向进行扩展：

使用 Scrapy 框架重构项目，提升性能与可维护性。将数据存储到数据库（如 MySQL、MongoDB）中。添加日志记录功能，便于调试与追踪。使用多线程或多进程提高爬取效率。使用 Selenium 处理动态加载页面。

总结

本文介绍了使用 Python 构建一个简易 Web 爬虫的基本流程，并以豆瓣电影 Top250 为例展示了完整实现过程。通过学习本文，你应该掌握了：

如何使用 requests 发起网络请求；如何使用 BeautifulSoup 提取网页中的数据；如何将爬取结果保存为 CSV 文件；如何规避基本的反爬机制。

Web 爬虫是一项非常实用的技术，希望你能在此基础上不断深入学习，开发出更加强大的数据采集系统。

提示：如果你打算长期从事爬虫开发，建议学习 Scrapy 框架和 Selenium 工具，它们能帮助你应对更复杂的网页结构和反爬策略。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com