接上篇文章,这期使用文心一言图像识别api,对本地图片以及在线视频图片进行内容理解。
该请求用于图像内容理解,支持输入图片和提问信息,可对输入图片进行理解,输出对图片的一句话描述,同时可针对图片内的主体/文字等进行检测与识别,支持返回图片内多主体/文字的内容、位置等信息。图像内容理解服务涉及 2 个子接口,分别为:
-
图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务id。
-
图像内容理解-获取结果:在任务成功创建后,支持传入任务id,查看任务处理的状态、获取处理完成后返回的结果。
前期准备
需要到百度ai开放平台(百度ai开放平台-全球领先的人工智能服务平台),创建用于图像识别的应用,获取对应功能的api_key以及api_scret。下图所示。
图像内容理解-提交请求
请求参数要求使用json格式的结构体来描述一个请求的具体内容,参数详情如下:
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url 二选一 | string | - | 图片数据,base64 编码后进行 urlencode,要求 base64 编码和 urlencode 后大小不超过 4m,最短边至少 15px,最长边最大 4096px,支持 jpg/jpeg/png/bmp 格式 优先级:image > url,当 image 字段存在时,url 字段失效 |
url | 和 image 二选一 | string | - | 图片完整 url,url 长度不超过 1024 字节,要求 base64 编码和 urlencode 后大小不超过 4m,最短边至少 15px,最长边最大 4096px,支持 jpg/jpeg/png/bmp 格式 优先级:image > url,当 image 字段存在时,url 字段失效 请注意关闭url防盗链 |
question | 是 | string | - | 提问信息,如“这张图片里有什么?”、“这张图片里有几只鸟” 限制 100 个字符之内 |
output_chn | 否 | bool | true/false | 是否以中文输出描述 description 和拼接语句 description_to_llm ,可选值包括: - true:以中文输出 - false:不以中文输出,默认为 false |
请求返回参数:
log_id | uint64 | 唯一的log id,用于问题定位 |
result | object | 返回结果列表 |
+ task_id | string | 该请求生成的task_id,后续使用该task_id获取识别结果 |
def get_access_token(key,scret):
"""
使用 ak,sk 生成鉴权签名{access token)
:return: access_token,或是none(如果错误)
"""
url = "https://aip.baidubce.com/oauth/2.0/token"
params = {"grant_type": "client_credentials", "client_id": key, "client_secret": scret}
return str(requests.post(url, params=params).json().get("access_token"))
def show_cam_image():
try:
# 尝试打开摄像头
stream = cv2.videocapture(0)
# 检查是否成功打开
if not stream.isopened():
print("未成功打开摄像头")
return
# 读取一帧图像
ret, frame = stream.read()
# 如果成功读取帧
if ret:
# 保存图片
image_path = "/home/lxj/chat_robot/camera.jpeg"
cv2.imwrite(image_path, frame)
# 将帧从bgr转换为rgb
rgb_frame = cv2.cvtcolor(frame, cv2.color_bgr2rgb)
# 将帧编码为jpeg格式
jpeg_frame = cv2.imencode('.jpg', rgb_frame)[1]
# 将jpeg格式的帧转换为base64编码
base64_encoded_frame = base64.b64encode(jpeg_frame).decode('utf-8')
return base64_encoded_frame
else:
print("未能读取到图像帧")
except exception as e:
print(f"摄像头操作出错:{e}")
finally:
# 确保释放摄像头资源
stream.release()
def ask_to_question():
url_1 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/request?access_token=" + get_access_token(image_api_key,image_secret_key)
#本地图像
# image_data = get_file_content_as_base64("/home/lxj/chat/水果.jpeg")
#相机图像
image_data = show_cam_image()
payload = json.dumps({
"image": image_data,
"question": "图像中有什么",
"output_chn": true
})
headers = {
'content-type': 'application/json'
}
response = requests.request("post", url_1, headers=headers, data=payload)
response_json = response.json() # 将响应文本解析为json对象
result = response_json.get("result")['task_id'] # 提取result字段,'task_id'里面的值
return result
图像内容理解-获取结果:
请求参数,要求使用json格式的结构体来描述一个请求的具体内容,参数详情如下:
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
task_id | 是 | string | - | 调用提交请求接口时,返回的task_ |
返回参数:
字段 | 类型 | 说明 |
---|---|---|
log_id | uint64 | 唯一的log id,用于问题定位 |
result | object | 返回结果列表 |
+ task_id | string | 该结果对应请求的task_id |
+ ret_code | int | 识别状态,0:处理成功;1:处理中;若发生错误,将返回其他错误码,详情可参考 图像识别-错误码 |
+ ret_msg | string | 识别状态信息:sucess:处理成功;processing:处理中;若发生错误,将返回其他错误信息,详情可参考 图像识别-错误码 |
+ description | string | 针对图片的一句话描述,当 output_chn= true 时,该字段输出为中文 |
+ description_to_llm | string | 拼接一句话描述、ocr 及图像识别结果、提问信息后的语句,将该语句输入大模型后,大模型将基于图像内容与提问,给出相应答案 当 output_chn= true 时,该字段输出为中文;当 output_chn= false 时,该字段输出为中英混合 |
+ subject_result | array | 图片内主体检测的信息 |
++ name | string | 图片主体标签 |
++ location | object | 图片内主体的检测框位置信息 |
+ classify_result | array | 图片内目标分类的信息 |
+ ocr_result | array | 当图片中存在文字时,该参数有返回 |
++ word | string | 文字识别结果字符串 |
++ rect | array | 文字识别结果位置信息 |
+++ left | uint32 | 位置的长方形左上顶点的水平坐标 |
+++ top | uint32 | 位置的长方形左上顶点的垂直坐标 |
+++ width | uint32 | 位置的长方形的宽度 |
+++ height | uint32 | 位置的长方形的高度 |
def get_result():
# 构建url
url_2 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/get-result?access_token=" + get_access_token(image_api_key, image_secret_key)
# 构建payload,使用提取到的task_id
payload = json.dumps({
"task_id": "前面请求得到的task_id"
})
headers = {
'content-type': 'application/json'
}
response = requests.request("post", url_2, headers=headers, data=payload)
response_json = response.json() # 将响应文本解析为json对象
# 提取字段的值
subject_result = response_json.get('result', {}).get('subject_result', [])
description = response_json.get('result', {}).get('description', [])
# 打印提取的结果
print(subject_result)
print("图片描述:", description)
!!!二者结合时需要注意,提交请求返回task_id后需要等几秒再去获取结果,否则会返回图像正在处理中,得不到结果。
{"ret_msg":"processing","ret_code":1,"task_id":"1787461990977925034"},"log_id":1787461997975067066}
发表评论