当前位置: 代码网 > it编程>前端脚本>Python > Python实现轻松获取网页数据并解析

Python实现轻松获取网页数据并解析

2025年12月16日 Python 我要评论
前言:数据世界的“魔法”之门在这个信息爆炸的时代,数据无处不在。从商品价格到新闻头条,从天气预报到社交媒体动态,海量数据蕴藏着巨大的价值。然而,这些数据往往散落在互联网的各个角

前言:数据世界的“魔法”之门

在这个信息爆炸的时代,数据无处不在。从商品价格到新闻头条,从天气预报到社交媒体动态,海量数据蕴藏着巨大的价值。然而,这些数据往往散落在互联网的各个角落,以非结构化的网页形式呈现。如何高效、自动化地获取这些数据呢?答案就是——网络爬虫 (web crawler)

网络爬虫,顾名思义,就像一只勤劳的蜘蛛,在互联网这张巨大的“网”上爬行,根据你设定的规则,抓取并收集所需的信息。它能帮你省去大量手动复制粘贴的时间,将网页上的“非结构化”数据转化为你可以分析、利用的“结构化”数据。

本篇博客将作为你进入爬虫世界的第一站。我们将使用 python 这一强大且易学的语言,手把手教你编写一个简单的网络爬虫,即使你是编程小白,也能轻松掌握数据抓取的乐趣。

准备工作:你的工具箱

在开始编写爬虫之前,我们需要确保你的开发环境已经准备就绪。

1. 安装 python

如果你还没有安装 python,请访问 python 官方网站 下载并安装最新版本的 python 3.x。安装时,请务必勾选“add python to path”选项,这样你就可以在命令行中直接运行 python 了。

2. 学习基础 python 知识 (如果需要)

虽然本教程尽量简化,但如果你对 python 的变量、列表、循环和函数等基本概念有所了解,学习过程会更加顺畅。

3. 安装必要的第三方库

我们将使用两个核心的 python 库来构建我们的爬虫:

  • requests: 用于发送 http 请求,获取网页内容。
  • beautifulsoup4: 用于解析 html 和 xml 文档,从中提取数据。

打开你的命令行工具 (windows 用户是 cmd 或 powershell,macos/linux 用户是 terminal),运行以下命令来安装它们:

pip install requests beautifulsoup4

如果安装成功,你就可以开始你的爬虫之旅了!

手把手教学:编写你的第一个爬虫

我们将以一个经典的爬虫练习网站 http://quotes.toscrape.com/ 为例,目标是抓取该网站上的所有名言及其作者。

步骤一:理解网页结构 (知己知彼,百战不殆)

在开始写代码之前,最重要的一步是分析目标网页的结构。我们需要知道我们想要的数据(名言和作者)在 html 代码中的位置和特征。

  • 打开目标网站: 在你的浏览器中访问 http://quotes.toscrape.com/
  • 打开开发者工具:
    • 大多数浏览器可以通过右键点击页面上的任何元素,然后选择“检查”或“检查元素”来打开开发者工具。
    • 或者使用快捷键:f12 (windows/linux) 或 cmd + option + i (macos)。
  • 定位目标数据:
    • 在开发者工具中,点击左上角的“选择元素”小图标 (一个鼠标箭头指向一个方块的图标)。
    • 将鼠标移动到页面上的一条名言上,例如“the world as we have created it is a process of our thinking. it cannot be changed without changing our thinking.”,你会看到对应的 html 代码被高亮显示。
    • 仔细观察,你会发现每条名言都包含在一个 <div class="quote"> 标签中。
    • 名言本身在 <span class="text" itemprop="text"> 标签里。
    • 作者在 <small class="author" itemprop="author"> 标签里。

通过这一步,我们明确了数据在 html 中的“身份信息”:它们都位于 div 标签中,并且带有特定的 class 属性。

步骤二:发送 http 请求,获取网页内容

现在,我们使用 requests 库来模拟浏览器访问目标网页,获取其 html 内容。

import requests

# 目标网页的 url
url = 'http://quotes.toscrape.com/'

try:
    # 发送 get 请求,获取网页响应
    response = requests.get(url)

    # 检查 http 状态码,200 表示成功
    if response.status_code == 200:
        print("网页请求成功!")
        # 获取网页的 html 内容
        html_content = response.text
        # print(html_content[:500]) # 打印前500个字符,查看是否成功获取
    else:
        print(f"网页请求失败,状态码:{response.status_code}")

except requests.exceptions.requestexception as e:
    print(f"请求发生错误: {e}")

代码解释:

  • import requests: 导入 requests 库。
  • url = 'http://quotes.toscrape.com/': 定义我们要抓取的网页地址。
  • requests.get(url): 这是最核心的部分,它向指定的 url 发送一个 http get 请求,并返回一个 response 对象。
  • response.status_code: 检查请求的状态码。200 表示请求成功,服务器已返回网页内容。
  • response.text: 获取响应的文本内容,这就是我们需要的 html 源代码。
  • try...except: 这是一个错误处理机制,用于捕获在网络请求过程中可能发生的异常(例如网络断开)。

运行这段代码,如果看到“网页请求成功!”的输出,说明你已经成功迈出了第一步!

步骤三:解析网页内容

获取到 html 内容后,它还是一大串杂乱的字符串。我们需要一个工具来“理解”这些字符串,将它们组织成一个易于操作的结构。这时,beautifulsoup 就派上用场了。

from bs4 import beautifulsoup
import requests

url = 'http://quotes.toscrape.com/'
response = requests.get(url)
html_content = response.text

# 使用 beautifulsoup 解析 html 内容
# 'html.parser' 是 python 内置的解析器
soup = beautifulsoup(html_content, 'html.parser')

print("网页解析成功!")
# print(soup.prettify()[:1000]) # 打印格式化后的html前1000字符,方便查看结构

代码解释:

  • from bs4 import beautifulsoup: 从 bs4 库中导入 beautifulsoup 类。
  • beautifulsoup(html_content, 'html.parser'): 创建一个 beautifulsoup 对象。它接收两个参数:
    • html_content: 我们从 requests 获取到的 html 字符串。
    • 'html.parser': 指定使用 python 内置的 html 解析器。

现在,soup 对象就包含了整个网页的结构,我们可以像操作树形结构一样,方便地查找和提取其中的元素。

步骤四:提取所需数据

这是爬虫最核心的部分。根据我们在步骤一中对网页结构的分析,我们将使用 beautifulsoup 的方法来定位并提取名言和作者。

from bs4 import beautifulsoup
import requests

url = 'http://quotes.toscrape.com/'
response = requests.get(url)
html_content = response.text
soup = beautifulsoup(html_content, 'html.parser')

# 查找所有 class 为 'quote' 的 div 标签
# 每个这样的 div 标签都包含一条名言和作者信息
quotes = soup.find_all('div', class_='quote')

# 创建一个列表来存储所有提取到的数据
all_quotes_data = []

# 遍历每一个 quote 标签,提取名言和作者
for quote_tag in quotes:
    # 提取名言文本
    text = quote_tag.find('span', class_='text').get_text()

    # 提取作者
    author = quote_tag.find('small', class_='author').get_text()

    # 提取标签(可选)
    # tags_elements = quote_tag.find('div', class_='tags').find_all('a', class_='tag')
    # tags = [tag.get_text() for tag_element in tags_elements]

    # 将提取到的数据存储为字典
    quote_data = {
        'text': text,
        'author': author,
        # 'tags': tags
    }
    all_quotes_data.append(quote_data)

# 打印提取到的数据
for data in all_quotes_data:
    print(f"名言: {data['text']}")
    print(f"作者: {data['author']}")
    print("-" * 30)

print(f"\n成功提取了 {len(all_quotes_data)} 条名言。")

代码解释:

  • soup.find_all('div', class_='quote'): 这是 beautifulsoup 最常用的方法之一。
    • 它会在整个 soup 对象中查找所有符合条件的标签。
    • 'div': 指定要查找的标签名是 div
    • class_='quote': 指定标签的 class 属性必须是 'quote' (注意 class 是 python 关键字,所以这里用 class_ 表示)。
    • 它会返回一个列表,其中包含了所有匹配的 div 标签对象。
  • for quote_tag in quotes:: 遍历我们找到的每一个名言容器。
  • quote_tag.find('span', class_='text'): 在当前的 quote_tag (也就是一个 <div class="quote"> 标签内部) 中,继续查找 span 标签,且 class'text'find() 方法只会返回第一个匹配的元素。
  • .get_text(): 提取标签内部的纯文本内容,去除所有 html 标签。
  • all_quotes_data.append(quote_data): 将每条名言和作者信息存储为一个字典,然后添加到 all_quotes_data 列表中。

运行这段代码,你将看到所有名言和作者清晰地打印在控制台上。

步骤五:保存数据

仅仅在控制台打印数据是不够的,通常我们需要将数据保存到文件中,以便后续分析或使用。这里我们演示如何将数据保存为 csv (comma separated values) 文件,这是一种常见的表格数据格式,可以用 excel 或其他数据分析工具打开。

import csv
from bs4 import beautifulsoup
import requests

url = 'http://quotes.toscrape.com/'
response = requests.get(url)
html_content = response.text
soup = beautifulsoup(html_content, 'html.parser')

quotes = soup.find_all('div', class_='quote')
all_quotes_data = []

for quote_tag in quotes:
    text = quote_tag.find('span', class_='text').get_text()
    author = quote_tag.find('small', class_='author').get_text()
    all_quotes_data.append({'text': text, 'author': author})

# 定义保存的文件名
filename = 'quotes.csv'

# 使用 csv 模块将数据写入 csv 文件
with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
    # 定义 csv 文件的列名(表头)
    fieldnames = ['text', 'author']
    writer = csv.dictwriter(csvfile, fieldnames=fieldnames)

    # 写入表头
    writer.writeheader()
    # 写入所有数据
    writer.writerows(all_quotes_data)

print(f"\n数据已成功保存到 {filename} 文件中。")

代码解释:

  • import csv: 导入 python 内置的 csv 模块。
  • with open(filename, 'w', newline='', encoding='utf-8') as csvfile::
    • open() 函数用于打开文件。
    • filename: 我们指定的文件名 quotes.csv
    • 'w': 以写入模式打开文件(如果文件不存在则创建,如果存在则清空内容)。
    • newline='': 这是 csv 模块推荐的参数,可以防止在 windows 上写入空行。
    • encoding='utf-8': 指定文件编码为 utf-8,以支持中文字符或其他特殊字符。
    • with 语句确保文件在使用完毕后自动关闭,即使发生错误。
  • fieldnames = ['text', 'author']: 定义 csv 文件的列名,这与我们字典的键相对应。
  • writer = csv.dictwriter(csvfile, fieldnames=fieldnames): 创建一个 dictwriter 对象,它允许我们以字典的形式写入数据。
  • writer.writeheader(): 写入 csv 文件的表头。
  • writer.writerows(all_quotes_data): 写入 all_quotes_data 列表中的所有字典数据。

运行这段代码后,你的项目目录下会生成一个 quotes.csv 文件,用 excel 或文本编辑器打开,你就能看到整齐排列的名言和作者数据了!

完整代码示例

将以上所有步骤整合在一起,这就是你的第一个网络爬虫的完整代码:

import requests
from bs4 import beautifulsoup
import csv

def scrape_quotes(url):
    """
    抓取指定url的名言和作者信息。
    """
    all_quotes_data = []
    try:
        response = requests.get(url)
        if response.status_code == 200:
            print(f"成功访问 {url}")
            html_content = response.text
            soup = beautifulsoup(html_content, 'html.parser')

            quotes = soup.find_all('div', class_='quote')
            for quote_tag in quotes:
                text = quote_tag.find('span', class_='text').get_text()
                author = quote_tag.find('small', class_='author').get_text()
                all_quotes_data.append({'text': text, 'author': author})
            print(f"成功提取 {len(all_quotes_data)} 条名言。")
        else:
            print(f"访问 {url} 失败,状态码:{response.status_code}")
    except requests.exceptions.requestexception as e:
        print(f"请求 {url} 发生错误: {e}")
    return all_quotes_data

def save_to_csv(data, filename='quotes.csv'):
    """
    将数据保存到csv文件。
    """
    if not data:
        print("没有数据可保存。")
        return

    fieldnames = ['text', 'author']
    try:
        with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
            writer = csv.dictwriter(csvfile, fieldnames=fieldnames)
            writer.writeheader()
            writer.writerows(data)
        print(f"数据已成功保存到 {filename}。")
    except ioerror as e:
        print(f"保存文件时发生错误: {e}")

if __name__ == "__main__":
    target_url = 'http://quotes.toscrape.com/'
    quotes_data = scrape_quotes(target_url)
    save_to_csv(quotes_data, 'my_first_quotes.csv')

常见问题与解决方案

在你的爬虫之路上,可能会遇到一些挑战。以下是一些常见问题及其初步解决方案:

1. 反爬机制 (anti-scraping)

许多网站不希望自己的数据被轻易抓取,因此会设置各种反爬机制。

user-agent 检测: 网站会检查你的请求头中的 user-agent 字段,判断你是否是正常的浏览器访问。默认情况下 requestsuser-agent 比较特殊。

解决方案:requests.get() 中添加 headers 参数,模拟浏览器。

headers = {
    'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/100.0.4896.60 safari/537.36'
}
response = requests.get(url, headers=headers)

ip 限制: 频繁访问同一网站可能导致你的 ip 被暂时或永久封禁。

解决方案: 减慢请求频率 (添加 time.sleep() 延迟),或者使用 ip 代理池 (更高级)。

robots.txt: 这是一个网站告诉爬虫哪些页面可以抓取,哪些不可以的文件。

解决方案: 爬虫开发者应自觉遵守网站的 robots.txt 规则,这是爬虫伦理的基本要求。

验证码、javascript 动态加载: 某些内容需要用户交互或 javascript 渲染才能显示。

解决方案: 对于验证码,可能需要人工识别或使用 ocr 服务;对于 javascript 动态加载,可能需要使用 selenium 等自动化浏览器工具 (超出了本入门教程范围)。

重要提示: 进行网络爬虫时,请务必遵守法律法规和网站的使用条款,尊重网站的 robots.txt 协议,并避免对目标网站造成过大压力。

2. 编码问题 (encoding issues)

有时获取到的网页内容显示乱码。

解决方案: requests 库通常会自动检测编码,但有时会出错。你可以手动指定或纠正编码:

response.encoding = 'utf-8' # 尝试指定为 utf-8
# 或者让 requests 自动猜测
# response.encoding = response.apparent_encoding
html_content = response.text

3. 网络请求错误

网络不稳定或目标服务器问题可能导致请求失败。

解决方案: 使用 try-except 块来捕获 requests.exceptions.requestexception 及其子类,如 connectionerror (连接错误)、timeout (超时)。

import requests
import time # 用于添加延迟

try:
    response = requests.get(url, timeout=5) # 设置超时时间
    # ... 处理响应
except requests.exceptions.timeout:
    print("请求超时")
except requests.exceptions.connectionerror:
    print("连接错误,请检查网络或url")
except requests.exceptions.requestexception as e:
    print(f"发生未知请求错误: {e}")
time.sleep(1) # 请求之间暂停1秒

总结与进阶

恭喜你!你已经成功编写了你的第一个 python 网络爬虫。这只是冰山一角,爬虫的世界广阔而有趣。

你学到了什么?

  • 如何使用 requests 库发送 http 请求并获取网页内容。
  • 如何使用 beautifulsoup 库解析 html,定位并提取所需数据。
  • 如何将抓取到的数据保存到 csv 文件。
  • 了解了基本的爬虫伦理和常见问题的初步解决方案。

接下来可以探索什么?

  • 多页爬取 (pagination): 许多网站都有分页,你需要找到下一页的链接或规律,循环抓取所有页面的数据。
  • 数据清洗与处理: 抓取到的数据可能需要进一步清洗、格式化才能使用。
  • 更复杂的数据结构: 学习如何抓取嵌套的、更复杂的数据。
  • 异步爬虫: 对于需要抓取大量页面的场景,异步爬虫可以大大提高效率。
  • 更强大的爬虫框架: 当项目变得复杂时,可以考虑使用像 scrapy 这样的专业爬虫框架,它提供了更完善的结构和功能。
  • api 抓取: 许多网站提供 api 接口,通过 api 获取数据通常比解析 html 更稳定高效。

到此这篇关于python实现轻松获取网页数据并解析的文章就介绍到这了,更多相关python获取网页数据内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com