使用 Python 实现一个简单的 Web 爬虫（Web Crawler）

前天 10阅读

在当今大数据和人工智能的时代，数据的获取变得尤为重要。而网络爬虫作为数据采集的一种重要手段，广泛应用于搜索引擎、数据分析、机器学习等领域。本文将详细介绍如何使用 Python 编写一个简单的 Web 爬虫，并展示其基本原理与实现过程。

我们将使用 Python 中常用的 requests 和 BeautifulSoup 库来构建我们的爬虫程序。同时也会介绍一些基本的爬虫技术，如网页解析、链接提取、去重处理等。

准备工作

1. 安装依赖库

首先，我们需要安装两个关键的 Python 库：

requests：用于发送 HTTP 请求并获取网页内容。beautifulsoup4：用于解析 HTML 内容，提取所需信息。

你可以使用 pip 命令安装它们：

pip install requests beautifulsoup4

Web 爬虫的基本原理

一个基础的 Web 爬虫通常包括以下几个步骤：

从起始 URL 开始抓取页面内容解析页面，提取有用的信息提取页面中的超链接，加入待访问队列避免重复抓取相同的页面控制爬取深度或广度

我们将围绕这些步骤逐步构建我们的爬虫。

编写爬虫代码

下面是一个完整的简单 Web 爬虫示例，它可以抓取指定网站的所有页面，并打印出每个页面的标题和 URL。

import requestsfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinimport timevisited_urls = set()  # 已访问的URL集合，防止重复抓取def fetch_page(url):    """ 获取页面内容 """    try:        headers = {            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'        }        response = requests.get(url, headers=headers, timeout=10)        if response.status_code == 200:            return response.text        else:            print(f"请求失败，状态码: {response.status_code}")    except Exception as e:        print(f"请求 {url} 出错: {e}")    return Nonedef parse_links(html, base_url):    """ 解析HTML，提取所有链接 """    soup = BeautifulSoup(html, 'html.parser')    links = set()    for a_tag in soup.find_all('a', href=True):        link = a_tag['href']        full_url = urljoin(base_url, link)        links.add(full_url)    return linksdef extract_title(html):    """ 提取页面标题 """    soup = BeautifulSoup(html, 'html.parser')    title_tag = soup.title    if title_tag and title_tag.string:        return title_tag.string.strip()    return "无标题"def crawler(start_url):    """ 主爬虫函数 """    queue = [start_url]    while queue:        current_url = queue.pop(0)        if current_url in visited_urls:            continue        print(f"正在抓取: {current_url}")        html = fetch_page(current_url)        if not html:            continue        title = extract_title(html)        print(f"标题: {title}")        visited_urls.add(current_url)        links = parse_links(html, current_url)        for link in links:            if link not in visited_urls and link not in queue:                queue.append(link)        # 控制请求频率，避免对服务器造成过大压力        time.sleep(1)if __name__ == '__main__':    start_url = input("请输入起始网址（例如 https://example.com）: ")    crawler(start_url)

代码分析

1. `fetch_page()` 函数

该函数使用 requests.get() 发送 GET 请求，获取网页内容。我们设置了请求头 User-Agent 来模拟浏览器行为，避免被某些网站屏蔽。

2. `parse_links()` 函数

使用 BeautifulSoup 解析 HTML 页面，查找所有的 <a> 标签，提取其中的 href 属性。通过 urllib.parse.urljoin() 方法将相对路径转换为绝对 URL。

3. `extract_title()` 函数

从 HTML 中提取 <title> 标签的内容，作为页面标题输出。

4. `crawler()` 函数

这是整个爬虫的核心逻辑：

使用一个队列 queue 来管理待抓取的链接。每次取出一个链接进行抓取，解析后将新发现的链接加入队列。使用 visited_urls 集合记录已访问的 URL，避免重复抓取。添加了 time.sleep(1) 以降低请求频率，减少对目标服务器的压力。

运行效果

假设你输入起始地址为 https://example.com，你会看到类似如下输出：

请输入起始网址（例如 https://example.com）: https://example.com正在抓取: https://example.com标题: Example Domain正在抓取: https://www.iana.org/domains/example标题: About the domain example.com...

扩展功能建议

上述代码只是一个基础版本，实际应用中可以添加以下功能：

设置最大抓取深度：控制爬虫只抓取指定层级的页面。限制抓取范围：仅抓取同一域名下的页面。持久化存储：将抓取的数据保存到数据库或文件中。多线程/异步爬取：提高爬取效率。异常处理优化：更完善的错误日志和重试机制。

注意事项

遵守 Robots 协议：在爬取任何网站前，请查看其 /robots.txt 文件，确保你的行为是合法的。尊重服务器负载：合理设置请求间隔，不要频繁请求以免造成服务器压力。法律合规性：确保你有权爬取并使用所获取的数据。

总结

本文介绍了使用 Python 编写一个简单 Web 爬虫的过程，涵盖了网络请求、HTML 解析、链接提取、去重处理等关键技术点。虽然这个爬虫功能较为基础，但已经具备了一个通用爬虫的基本结构。你可以在此基础上继续拓展，打造更强大、智能的数据抓取工具。

随着你对爬虫技术的深入理解，还可以尝试使用 Scrapy、Selenium、Playwright 等更强大的框架来应对复杂的网页结构和动态加载内容。

如果你对进一步开发高级爬虫感兴趣，欢迎继续阅读我后续的文章，我们将探讨分布式爬虫、反爬策略应对等内容。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用 Python 实现一个简单的 Web 爬虫（Web Crawler）

准备工作

1. 安装依赖库

Web 爬虫的基本原理

编写爬虫代码

代码分析

1. `fetch_page()` 函数

2. `parse_links()` 函数

3. `extract_title()` 函数

4. `crawler()` 函数

运行效果

扩展功能建议

注意事项

总结

相关阅读

使用Python进行数据可视化：从入门到实践

使用Python进行数据可视化：从入门到实战

使用Python进行数据分析与可视化：一个完整的实战教程

使用 Python 实现一个简单的图像分类器

目录[+]

微信号复制成功

准备工作

1. 安装依赖库

Web 爬虫的基本原理

编写爬虫代码

代码分析

1. fetch_page() 函数

2. parse_links() 函数

3. extract_title() 函数

4. crawler() 函数

运行效果

扩展功能建议

注意事项

总结

相关阅读

使用Python进行数据可视化：从入门到实践

使用Python进行数据可视化：从入门到实战

使用Python进行数据分析与可视化：一个完整的实战教程

使用 Python 实现一个简单的图像分类器

目录[+]

微信号复制成功

1. `fetch_page()` 函数

2. `parse_links()` 函数

3. `extract_title()` 函数

4. `crawler()` 函数