Python使用Selenium批量自动化获取并下载图片的方法_Python

selenium批量自动化获取并下载图片

在现代的web开发中，自动化测试和数据抓取已经成为不可或缺的一部分。selenium作为一款强大的自动化测试工具，不仅可以用于测试web应用，还可以用于批量获取网页上的图片。本文将介绍如何使用selenium批量自动化获取并下载图片。

一、准备工作

安装selenium：首先，你需要在你的系统中安装selenium。你可以使用pip来安装：

pip install selenium

下载webdriver：selenium需要与webdriver配合使用，webdriver是一个浏览器驱动，用于执行浏览器操作。你需要根据你的浏览器类型下载对应的webdriver。例如，如果你使用的是chrome，你需要下载chromedriver。

导入必要的库：在python脚本中，你需要导入selenium的库以及用于处理图片的库（如pil）。

from selenium import webdriver  
from pil import image  
import io

二、编写代码

启动浏览器驱动：创建一个浏览器驱动实例，并打开一个网页。这里以chrome为例：

driver = webdriver.chrome('path/to/chromedriver')  
driver.get('http://example.com')

查找图片元素：使用selenium的定位器（locators）来查找页面上的图片元素。你可以使用css选择器、xpath等来定位图片元素。例如，使用css选择器定位所有的img标签：

images = driver.find_elements_by_css_selector('img')

下载图片：对于每个找到的图片元素，提取其src属性，然后使用pil库下载图片。这里是一个简单的示例：

for image in images:  
    image_url = image.get_attribute('src')  
    response = driver.execute_script("return fetch('" + image_url + "');")  
    image_data = response.content  
    image = image.open(io.bytesio(image_data))  
    image.save(image_url.split('/')[-1])  # 将图片保存到本地，文件名保持不变

关闭浏览器驱动：完成图片下载后，关闭浏览器驱动。

driver.quit()

三、注意事项

跨域问题：如果图片来自于不同的域，你可能会遇到跨域问题。在这种情况下，你需要处理浏览器的同源策略限制。一种解决方法是使用浏览器插件或服务来允许跨域请求。
图片大小和分辨率：在下载图片时，你可能需要调整图片的大小和分辨率以满足你的需求。你可以在保存图片时使用pil库的resize方法来调整图片大小。例如：image.resize((width, height))。

完整例子：

from selenium import webdriver
from selenium.webdriver.common.by import by
import time
import requests
from io import bytesio
from pil import image

def spider(url):
    driver = webdriver.chrome()
    driver.get(url)
    driver.maximize_window()  # 窗口最大化
    time.sleep(30)
    a=1
    for j in range(2,25):
        try:
            try:
                for i in range(1,100):
                    a+=1
                    image_url=driver.find_element(by.xpath,'//*[@id="sobey_editor_content"]/p/img[{}]'.format(i)).get_attribute("src")
                    print(image_url)
                    #//*[@id="root"]/div/div/div/div[1]/div/div[2]/div/div[3]/div/div/div/div[4]
                    #//*[@id="root"]/div/div/div/div[1]/div/div[2]/div/div[3]/div/div/div/div[23]
                    response = requests.get(image_url)
                    image_data = bytesio(response.content)
                    image = image.open(image_data)
                    image.save("image/{}.jpg".format(a))
                    print("{}下载成功".format(a))
            except:
                print("已下载完")
            driver.find_element(by.xpath,'//*[@id="root"]/div/div/div/div[1]/div/div[2]/div/div[3]/div/div/div/div[{}]'.format(j+1)).click()
            time.sleep(0.5)
        except:
            print("未能下载。")
            pass
    driver.quit()
    quit()

if __name__ == '__main__':
    spider('https://yunquer.cn/web/#/previewtextbook?contentid_=e8e86045f7a441e5828da5c3b21bcacc&uip=1')

到此这篇关于python使用selenium批量自动化获取并下载图片的方法的文章就介绍到这了,更多相关python selenium获取并下载图片内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

python禁止位置传参函数详解

python禁止位置传参函数这种函数定义方式使用了 python 3.x 中的关键字参数（keyword-only arguments）的特性，通过在参数列表中... [阅读全文]

Python关于实参随形参改变而改变的问题

前言今天在实验过程中，发现将字典作为函数的形参传入函数，在函数内改变形参，会导致传入的字典的值也发生相应的改变。这与c++不同，令我疑惑，遂写此文。简单实验我们... [阅读全文]

python类函数的有效调用方式

一、实验1、准备类的几种方法（1）被@property装饰的属性方法 test_001（2）被@staticmethod装饰的静态方法 test_002（3）被... [阅读全文]

Python实现批量文件自定义命名

背景有时候我们经常需要对某一个文件夹中的文件进行重命名修改，但是我们一个一个取修改将会非常繁琐，所以我们可以先创建一个excel，其中有两列，一列表示【源文件名】;一列表示【新文件…

2024年11月21日 • 前端脚本

基于Python的A*算法解决八数码问题实现步骤

一、问题描述八数码问题是人工智能领域一个经典的问题。也是我们所熟悉的最简单的3×3数字华容道游戏：在一个3×3的九宫格棋盘上，摆有8个正... [阅读全文]

使用Python和OpenCV实现动态背景的画中画效果

在本文中，我们将通过一个详细的python脚本，使用opencv库来为视频添加动态背景。这个脚本将指导你如何读取两个视频文件，一个作为前景，另一个作为背景，并将... [阅读全文]


验证码：

验证码：

Python使用Selenium批量自动化获取并下载图片的方法

2024年11月22日 • Python •我要评论

selenium批量自动化获取并下载图片

一、准备工作

二、编写代码

三、注意事项

相关文章:

Python实现批量文件自定义命名

发表评论