1 图片爬虫
# 获取图片数据
import os.path
import fake_useragent
import requests
from lxml import etree
# ua伪装
head = {"user-agent": fake_useragent.useragent().random}
pic_name = 0
def request_pic(url):
# 发送请求
response = requests.get(url, headers=head)
# 获取想要的数据
res_text = response.text
# 数据解析
tree = etree.html(res_text)
li_list = tree.xpath("//div[@class='slist']/ul/li")
for li in li_list:
# 图片的url
img_url = "https://pic.netbian.com" + "".join(li.xpath("./a/img/@src"))
# 发送请求
img_response = requests.get(img_url, headers=head)
# 获取想要的数据
img_content = img_response.content
global pic_name
with open(f"./piclib/{pic_name}.jpg", "wb") as fp:
fp.write(img_content)
pic_name += 1
if __name__ == '__main__':
# 创建存放照片的文件夹
if not os.path.exists("./piclib"):
os.mkdir("./piclib")
# 网站的url
url = "https://pic.netbian.com/4kdongman/"
request_pic(url)
for i in range(1,10):
next_url = f"https://pic.netbian.com/4kmeinv/index_{i}.html"
request_pic(next_url)
结果如图1-1所示:

图 1-1
2 基于opencv自带分类器的人脸检测
import cv2
import os
import matplotlib.pyplot as plt
# 定义人脸检测器的路径
face_cascade = cv2.cascadeclassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')
# 设置图片文件夹路径
folder_path = 'piclib'
# 设置要显示的图像数量
num_to_display = 5 # 例如,只显示前4张图像
# 创建一个图形和子图
fig, axs = plt.subplots(1, num_to_display, figsize=(15, 5))
# 遍历文件夹中的前几张图片
for i in range(num_to_display):
file_name = f'{i}.jpg'
image_path = os.path.join(folder_path, file_name)
# 读取图片
img = cv2.imread(image_path)
if img is none:
print(f"error loading image {file_name}")
continue
# 转换为灰度图
gray = cv2.cvtcolor(img, cv2.color_bgr2gray)
# 检测人脸
faces = face_cascade.detectmultiscale(gray, 1.3, 5)
# 在原图上绘制矩形框
for (x, y, w, h) in faces:
cv2.rectangle(img, (x, y), (x+w, y+h), (255, 0, 0), 2)
# 注意:opencv 图像是bgr,而matplotlib 期望的是rgb,因此我们需要转换颜色通道
img_rgb = cv2.cvtcolor(img, cv2.color_bgr2rgb)
# 显示图像
axs[i].imshow(img_rgb)
axs[i].axis('off') # 关闭坐标轴
# 显示图形
plt.show()
运行结果如图2-1所示:

图 2-1
从这里可以清晰看到有1/3的图像没有成功检测到,后面我试试用faster r-cnn模型,不过需要标注,数据量也大,这里先试着玩玩呗。

发表评论