使用文心一言进行图像内容理解_交互

接上篇文章，这期使用文心一言图像识别api，对本地图片以及在线视频图片进行内容理解。

该请求用于图像内容理解，支持输入图片和提问信息，可对输入图片进行理解，输出对图片的一句话描述，同时可针对图片内的主体/文字等进行检测与识别，支持返回图片内多主体/文字的内容、位置等信息。图像内容理解服务涉及 2 个子接口，分别为：

图像内容理解-提交请求：支持传入图片、提问等参数，创建图像内容理解任务，该接口会返回任务id。
图像内容理解-获取结果：在任务成功创建后，支持传入任务id，查看任务处理的状态、获取处理完成后返回的结果。

前期准备

需要到百度ai开放平台（百度ai开放平台-全球领先的人工智能服务平台），创建用于图像识别的应用，获取对应功能的api_key以及api_scret。下图所示。

图像内容理解-提交请求

请求参数要求使用json格式的结构体来描述一个请求的具体内容，参数详情如下：

参数	是否必选	类型	可选值范围	说明
image	和 url 二选一	string	-	图片数据，base64 编码后进行 urlencode，要求 base64 编码和 urlencode 后大小不超过 4m，最短边至少 15px，最长边最大 4096px，支持 jpg/jpeg/png/bmp 格式优先级：image > url，当 image 字段存在时，url 字段失效
url	和 image 二选一	string	-	图片完整 url，url 长度不超过 1024 字节，要求 base64 编码和 urlencode 后大小不超过 4m，最短边至少 15px，最长边最大 4096px，支持 jpg/jpeg/png/bmp 格式优先级：image > url，当 image 字段存在时，url 字段失效请注意关闭url防盗链
question	是	string	-	提问信息，如“这张图片里有什么？”、“这张图片里有几只鸟” 限制 100 个字符之内
output_chn	否	bool	true/false	是否以中文输出描述 description 和拼接语句 description_to_llm ，可选值包括： - true：以中文输出 - false：不以中文输出，默认为 false

请求返回参数：

log_id	uint64	唯一的log id，用于问题定位
result	object	返回结果列表
+ task_id	string	该请求生成的task_id，后续使用该task_id获取识别结果

def get_access_token(key,scret):
    """
    使用 ak,sk 生成鉴权签名{access token)
    :return: access_token,或是none(如果错误)
    """
    url = "https://aip.baidubce.com/oauth/2.0/token"
    params = {"grant_type": "client_credentials", "client_id": key, "client_secret": scret}
    return str(requests.post(url, params=params).json().get("access_token"))

def show_cam_image():
    try:
        # 尝试打开摄像头
        stream = cv2.videocapture(0)
        
        # 检查是否成功打开
        if not stream.isopened():
            print("未成功打开摄像头")
            return

        # 读取一帧图像
        ret, frame = stream.read()
        
        # 如果成功读取帧
        if ret:

            # 保存图片
            image_path = "/home/lxj/chat_robot/camera.jpeg"
            cv2.imwrite(image_path, frame)

            # 将帧从bgr转换为rgb
            rgb_frame = cv2.cvtcolor(frame, cv2.color_bgr2rgb)

            # 将帧编码为jpeg格式
            jpeg_frame = cv2.imencode('.jpg', rgb_frame)[1]

            # 将jpeg格式的帧转换为base64编码
            base64_encoded_frame = base64.b64encode(jpeg_frame).decode('utf-8')

            return base64_encoded_frame
        else:
            print("未能读取到图像帧")
    
    except exception as e:
        print(f"摄像头操作出错：{e}")
    finally:
        # 确保释放摄像头资源
        stream.release()

def ask_to_question():
    url_1 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/request?access_token=" + get_access_token(image_api_key,image_secret_key)
    
    #本地图像
    # image_data = get_file_content_as_base64("/home/lxj/chat/水果.jpeg")
    #相机图像
    image_data = show_cam_image()

    payload = json.dumps({
        "image": image_data,
        "question": "图像中有什么",
        "output_chn": true
    })
    headers = {
        'content-type': 'application/json'
    }
    
    response = requests.request("post", url_1, headers=headers, data=payload)
    response_json = response.json()  # 将响应文本解析为json对象
    result = response_json.get("result")['task_id'] # 提取result字段,'task_id'里面的值

    return result

图像内容理解-获取结果：

请求参数，要求使用json格式的结构体来描述一个请求的具体内容，参数详情如下：

参数	是否必选	类型	可选值范围	说明
task_id	是	string	-	调用提交请求接口时，返回的task_

返回参数：

字段	类型	说明
log_id	uint64	唯一的log id，用于问题定位
result	object	返回结果列表
+ task_id	string	该结果对应请求的task_id
+ ret_code	int	识别状态，0：处理成功；1：处理中；若发生错误，将返回其他错误码，详情可参考图像识别-错误码
+ ret_msg	string	识别状态信息：sucess：处理成功；processing：处理中；若发生错误，将返回其他错误信息，详情可参考图像识别-错误码
+ description	string	针对图片的一句话描述，当 output_chn= true 时，该字段输出为中文
+ description_to_llm	string	拼接一句话描述、ocr 及图像识别结果、提问信息后的语句，将该语句输入大模型后，大模型将基于图像内容与提问，给出相应答案当 output_chn= true 时，该字段输出为中文；当 output_chn= false 时，该字段输出为中英混合
+ subject_result	array	图片内主体检测的信息
++ name	string	图片主体标签
++ location	object	图片内主体的检测框位置信息
+ classify_result	array	图片内目标分类的信息
+ ocr_result	array	当图片中存在文字时，该参数有返回
++ word	string	文字识别结果字符串
++ rect	array	文字识别结果位置信息
+++ left	uint32	位置的长方形左上顶点的水平坐标
+++ top	uint32	位置的长方形左上顶点的垂直坐标
+++ width	uint32	位置的长方形的宽度
+++ height	uint32	位置的长方形的高度

def get_result():
# 构建url
        url_2 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/get-result?access_token=" + get_access_token(image_api_key, image_secret_key)
        
        # 构建payload，使用提取到的task_id
        payload = json.dumps({
            "task_id": "前面请求得到的task_id"
        })
        headers = {
            'content-type': 'application/json'
        }
        
        response = requests.request("post", url_2, headers=headers, data=payload)
        response_json = response.json()  # 将响应文本解析为json对象

        # 提取字段的值
        subject_result = response_json.get('result', {}).get('subject_result', [])
        description = response_json.get('result', {}).get('description', [])
        # 打印提取的结果
        print(subject_result)
        print("图片描述:", description)

！！！二者结合时需要注意，提交请求返回task_id后需要等几秒再去获取结果，否则会返回图像正在处理中，得不到结果。

{"ret_msg":"processing","ret_code":1,"task_id":"1787461990977925034"},"log_id":1787461997975067066}

使用文心一言进行图像内容理解

2024年08月02日 • 交互 •我要评论

前期准备

图像内容理解-提交请求

图像内容理解-获取结果：

！！！二者结合时需要注意，提交请求返回task_id后需要等几秒再去获取结果，否则会返回图像正在处理中，得不到结果。

相关文章:

走近人工智能|NLP的语言革命

部署kvm虚拟化平台

OpenCV 4基础篇| OpenCV图像的裁切

docker学习--最详细的docker run 各子命令解释与应用

发表评论


验证码：