python批量处理URL并提取内容且按序保存到本地_Python

这个是我在上网找资料的时候，发现下载资料pdf居然要付费，然后我查看网页源代码发现它网页的资料都是pdf的png格式，每一个图片都是写在一个div标签里面的，手动操作肯定比较复杂，（说明，博主我是学c++的，对python不是很懂），我知道python肯定可以实现这事，于是马上学习了一波。

一、需求分析

网页的页面源代码如下图所示，它的每一个<div>标签里面的img的url就是资料的内容，可以直接通过url来打开资料图片，然后“另存为”即可，但是手动操作太麻烦了（当然有同学说直接用爬虫，也可以哈，但是我没用），要是能自动化批量给它一个全是url的文本文件，让python帮我逐一打开然后按照顺序命好名称逐一保存到本地文件就好了。

但是网页源码是html格式的，手动提取网页源码的url也太慢了，所以我们还需要一个python函数来帮我们从给定的html的文本文件里面提取出url按行保存到指定文本文件里。

二、从html中提取可用url

1、先在项目目录下新建一个文本文件命名为html.txt。

2、将网页源码中所需要的地方复制到html.txt中。如下图所示

3、新建一个py文件，在里面写具体实现，通过观察发现所有目标url均以png结尾，可以使用正则表达式匹配，取出目标url 。然后保存到指定的文本文件http.txt中。代码如下：

import re

# 打开html文件
with open('html.txt', 'r') as file:
    html_content = file.read()

# 使用正则表达式提取url
pattern = r'<img\s+data-src="([^"]+\.png)"'
urls = re.findall(pattern, html_content)

# 将url保存到http.txt文件中
with open('http.txt', 'w') as file:
    for url in urls:
        file.write(url + '\n')

4、执行完成后我们就得到了全是目标url的一个文本文件了

三、批量执行url按序保存到本地

1、打开http.txt文件，按行取出url，打开url判断是否能正常打开，不需要执行浏览器打开这一操作，只需要得到返回值即可。

2、需要url的顺序和保存的png一一对应，比如第一行url对应图png1，所以考虑按序命名，设置计数器。根据计算器生成png文件的名称。

3、保存到指定文件夹，且命名好。

import requests

# 创建一个计数器
count = 1

# 打开网址文件
with open('http.txt', 'r') as file:
    # 逐行读取网址
    for line in file:
        url = line.strip()  # 去除行尾的换行符和空格

        # 下载图片并保存到本地
        response = requests.get(url)
        if response.status_code == 200:
            # 生成图片文件名
            filename = f'{count}.jpg'

            # 保存到桌面文件夹
            save_path = f'f:/桌面文件夹/tupian/{filename}'
            with open(save_path, 'wb') as image_file:
                image_file.write(response.content)
            print(f'saved image: {save_path}')

            # 增加计数器
            count += 1
        else:
            print(f'failed to download image from {url}')

4、运行代码，查看结果。如图

到此这篇关于python批量处理url并提取内容且按序保存到本地的文章就介绍到这了,更多相关python处理url并提取内容内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

Python YAML文件处理的完整指南

一、yaml基础与python环境搭建1. yaml简介yaml（yaml ain’t markup language）是一种人类可读的数据序列化格... [阅读全文]

从入门到精通的Python魔术方法(Magic Methods)完全指南

本文全面介绍了python中特殊的魔术方法，这些以双下划线开头和结尾的方法（如__init__）为类提供了"魔法"般的行为。主要内容包括：基... [阅读全文]

一文分享5个Python文本处理的高效操作

前言在数据科学和自然语言处理领域，文本分析是一项基础而重要的技能。python凭借其丰富的库生态系统，成为文本分析的首选工具。本文将介绍5个python中高效处... [阅读全文]

Python 字典 (Dictionary)使用详解

字典字典是python中最重要，最常用的数据结构之一，它提供了高效的键值对存储和查找能力。1.基本特性键值对集合：存储数据形式为 key: value 对无序性... [阅读全文]

Python自动化批量重命名与整理文件系统

简介本文将详细介绍如何使用python实现一个强大的文件批量重命名与整理工具，帮助开发者自动化这一繁琐过程。本教程面向python初学者，通过一个完整的项目案例... [阅读全文]

使用Python构建一个高效的日志处理系统

环境准备开发本工具需要以下环境配置：python环境：建议python 3.8或更高版本必要库：pandas：数据分析matplotlib：数据可视化numpy... [阅读全文]


验证码：

验证码：

python批量处理URL并提取内容且按序保存到本地

2025年07月17日 • Python •我要评论

一、需求分析

二、从html中提取可用url

三、批量执行url按序保存到本地

相关文章:

发表评论