Python爬虫速成之路（6）：Selenium的使用_Python

爬虫就三大种实现方式。第一种是获取网页源代码来获取数据，这种也只能在特定网站生效；第二种是直接get或者post提交数据，这种难度有时候会较大，因为接口往往有一些限制；第三种就是直接模拟浏览器点击操作，第三种就比较无脑，可以实现很多第一第二种实现不了，比如boss海投工具等。本文介绍的就是selenium的基本用法。

python3中使用selenium进行web自动化测试是一种非常常见的方法。

#python3中selenium使用方法（连载）  https://www.toutiao.com/a6425040355548397825/
# selenium 调用iedriverserver打开ie浏览器 - 天高地阔的专栏 - csdn博客  
#2018/2/*
#http://blog.csdn.net/jichuang123/article/details/53008581
from selenium import webdriver
from selenium.webdriver.common.keys import keys
import time

brower = webdriver.ie()
url = 'https://hao.360.cn/?wd_xp1'
brower.get(url)
intput = brower.find_element_by_id('search-kw')
intput.send_keys('python')
intput.send_keys(keys.enter)
time.sleep(3)
brower.quit()

知识点

1.新版本的写法（需要写service，否则好像会报错）

from selenium import webdriver  
from selenium.webdriver.chrome.service import service  
from selenium import webdriver  
from webdriver_manager.chrome import chromedrivermanager

s = service(path)      # path为chromedriver安装路径
bro = webdriver.chrome(service=s)  
bro.get("https://www.shixiseng.com/")

2.chromedriver安装对应浏览器版本的方法（推荐这种方法安装驱动！可以避免版本不一致的问题）
（会安装在类似“c:\users\czh\.wdm\drivers\chromedriver\win32\107.0.5304\chromedriver.exe”的文件夹下）

from webdriver_manager.chrome import chromedrivermanager
# 下载驱动  
def downdriver():  
    driver = webdriver.chrome(chromedrivermanager().install())

3.根据classname找元素的方法
（1）class name有空格的写法

bro.find_element('css selector', "[class='tiktok-q9aj5z-pcommenttext e1g2efjf6']")

（2）class name（点开头）

bro.find_element('css selector', ".qaq")

4.根据class的id找元素的方法
class id（#开头）

bro.find_element('css selector', "#qaq")

5.点击按钮写法

button = bro.find_element('css selector', ".qaq")
button.click()

6.如果找同个classname的多个元素，在find_element补个s即可（然后用for循环遍历）

bro.find_elements('css selector', ".qaq")

7.如果等待页面加载出某个元素再进行下一步操作，用try，封装函数如下

# 检查存在再进行数据的  
def check_find_elements(bro,by,value):  
    # 等待元素加载完毕  
    while (true):  
        try:  
            # 注意.是class name的意思  
            bro.find_element(by, value)  
            #print(value + "找到")  
            break  
        except exception:  
            continue  
    return bro.find_elements(by, value)  
  
# 检查存在再进行数据的  
def check_find_element(bro,by,value):  
    # 等待元素加载完毕  
    while (true):  
        try:  
            # 注意.是class name的意思  
            bro.find_element(by, value)  
            #print(value + "找到")  
            break  
        except exception:  
            continue  
    return bro.find_element(by, value)

现在就可以写成check_find_element(bro, "css selector","[class='nickname']")就会在元素加载完成后再进行下步操作

8.打开了新窗口后，想进入新窗口完成操作，结束后回到上个窗口

# 进入新窗口
cls = bro.window_handles  
bro.switch_to.window(cls[1])

# 这里应该进行新窗口的操作

# 关闭新窗口，回到旧窗口
bro.close()  
bro.switch_to.window(cls[0])

9.浏览器最小化，窗口缩小

bro.set_window_size(300, 300)  
bro.minimize_window()       # 最小化窗口，不影响

利用 Selenium 和 Python 实现网页新闻链接抓取

利用 Selenium 和 Python 实现网页新闻链接抓取 [阅读全文]

自动化测试之八大元素定位方式（python3.10+selenium4）

元素的定位是自动化测试核心。要操作一个对象，首先要识别定位或找到这个对象。为了实现网页整体布局，我们先要知道，一个元素，是如何定位到页面上的某个位置的，这就是元素定位。…

2024年08月02日 • 前端脚本

网站压力测试和Locust

网站压力测试是一种评估网站性能、可靠性和稳定性的方法。它通过模拟大量用户同时访问网站,来测试网站的响应时间、吞吐量、资源利用率等指标,从而发现网站的潜在问题和瓶... [阅读全文]

2024年软件测试最全测试学习篇——AB工具，服务器压力测试(1)，软件测试进程保活黑科技实现原理解密及方法

username=0&password=e10adc3949ba59abbe56e057f20f883e-------1200个并发用户发起750000... [阅读全文]

Python自动化与系统安全

信息安全是运维的根本，直接关系到企业的安危，稍有不慎会造成灾难性的后果。比如经年发生的多个知名网站会员数据库外泄事件，信息安全体系建设已经被提到了前所未有的高度... [阅读全文]

什么是代理模式，用 Python 如何实现 Proxy（代理或 Surrogate）对象结构型模式？

代理（Proxy）是一种结构型设计模式，其目的是通过引入一个代理对象来控制对另一个对象的访问。代理对象充当目标对象的接口，这样客户端就可以通过代理对象间接地访问... [阅读全文]


验证码：

验证码：

Python爬虫速成之路（6）：Selenium的使用

2024年08月02日 • Python •我要评论

知识点

相关文章:

自动化测试之八大元素定位方式（python3.10+selenium4）

发表评论