背景
近期在使用deepseek/openai等网页和app时,发现大模型在思考和回复时,内容是一点点的显示出来的,于是好奇他们的实现方式。经调研和使用开发者工具抓取请求,每次聊天会向后台发送一个http请求,而这个接口跟普通接口一次性返回不一样,而是以流式的返回。
流式返回的核心概念与优势
在传统的 web 开发中,接口通常以「一次性返回完整响应体」的形式工作。而 ** 流式返回(streaming response)** 指的是服务器在处理请求时,将响应结果分段逐步返回给客户端,而非等待所有数据生成完成后再一次性返回。这种模式具有以下核心优势:
1. 提升用户体验
- 对于大数据量响应(如文件下载、长文本流)或实时交互场景(如聊天机器人对话),客户端可边接收数据边处理,减少「空白等待时间」,提升实时性感知。
2. 降低内存消耗
- 服务器无需在内存中缓存完整响应数据,尤其适合处理高并发、大流量场景,降低 oom(内存溢出)风险。
3. 支持长连接与实时通信
- 天然适配实时数据推送场景(如日志监控、股票行情更新),可与 sse(server-sent events)、websocket 等技术结合使用。
大模型的接口,尤其是那些带推理的模型接口返回,数据就是一点点的返回的,因此如果要提升用户体验,最好的方式就是采用流式接口返回。
在springboot中基于flux的流式接口实现
1. 依赖配置
在 pom.xml
中引入 webflux 依赖:
<dependency> <groupid>org.springframework.boot</groupid> <artifactid>spring-boot-starter-webflux</artifactid> </dependency>
2. 流式接口实现(以模拟大模型对话为例)
import org.springframework.web.bind.annotation.*; import reactor.core.publisher.flux; @restcontroller @requestmapping("/api/chat") public class chatcontroller { @postmapping(produces = mediatype.text_event_stream_value) public flux<string> streamchat(@requestbody chatrequest request) { // 调用大模型 api 并返回 flux 流 return calllargemodelapi(request.message()) .doonnext(chunk -> log.info("发送响应片段: {}", chunk)) .doonerror(error -> log.error("流式处理出错", error)); } // 模拟调用大模型 api,返回 flux 流 private flux<string> calllargemodelapi(string prompt) { // 实际项目中需替换为真实的大模型调用逻辑 return flux.just( "您好!", "我是您的ai助手。", "您的问题是:" + prompt, "我将为您提供详细解答..." ) .delayelements(duration.ofmillis(300)); // 模拟实时响应延迟 } }
3. 关键配置说明
- 响应格式:设置
produces = mediatype.text_event_stream_value
,符合 sse 协议。 - 异步处理:flux 流中的元素会被自动转换为 sse 格式(
data: <内容>\n\n
)并推送至客户端。 - 背压控制:通过
onbackpressurebuffer()
或onbackpressuredrop()
处理客户端消费速率问题。
浏览器端 js 调用方案
1. 使用 eventsource(简化版)
function connectwitheventsource() { const source = new eventsource("/api/chat"); const chatwindow = document.getelementbyid("chat-window"); source.onmessage = (event) => { chatwindow.innerhtml += `<div>${event.data}</div>`; chatwindow.scrolltop = chatwindow.scrollheight; }; source.onerror = (error) => { console.error("eventsource failed:", error); source.close(); }; }
2. 使用 fetch api(支持 post 请求)
async function connectwithfetch() { const response = await fetch("/api/chat", { method: "post", headers: { "content-type": "application/json" }, body: json.stringify({ message: "你好" }) }); const reader = response.body.getreader(); const decoder = new textdecoder(); const chatwindow = document.getelementbyid("chat-window"); while (true) { const { done, value } = await reader.read(); if (done) break; // 解码并处理数据块 const chunk = decoder.decode(value, { stream: true }); const messages = chunk.split('\n\n') .filter(line => line.trim().startswith('data:')) .map(line => line.replace('data:', '').trim()); messages.foreach(msg => { chatwindow.innerhtml += `<div>${msg}</div>`; chatwindow.scrolltop = chatwindow.scrollheight; }); } }
调用deepseek模型实战
写一个接口,通过spring ai alibaba ,调用阿里云百炼的deepseek模型,返回flux流数据
基础使用详见:快速开始-阿里云spring ai alibaba官网官网
这里只给出转flux的示例,即通过client/model的stream方法来转,并通过map方法将每个流转成前端需要的数据(我这里是区分了thinking思考和content的数据,便于前端显示):
public flux<chatmessageresponse> processrealmessage(chatmessagerequest request) throws chatbaseexception { // 获取会话的历史消息 list<message> messages = new arraylist<>(); list<chatmessage> chatmessages = this.chatmessageservice.getconversationmessage(request.getsessionid(), 1, 20); for (chatmessage chatmessage : chatmessages) { if (constants.message_role_user.equals(chatmessage.getrole())) { messages.add(new usermessage(chatmessage.getcontent())); } else { messages.add(new assistantmessage(chatmessage.getcontent())); } } // 记录用户的输入 chatmessage message = new chatmessage(); message.setcontent(request.getcontent()); message.settype("text"); message.setrole(constants.message_role_user); chatmessageservice.insertmessage(request.getsessionid(), message); stringbuilder sb = new stringbuilder(); // 模拟流式响应 return this.chatclient.prompt().messages(messages).user(request.getcontent()).stream().chatresponse().doonnext(response -> { string content = response.getresult().getoutput().gettext(); if (stringutils.isnotblank(content)) { // 记录完整的响应对象 sb.append(content); } }) // 在流结束时记录完整的会话内容 .dooncomplete(() -> { // 这里记录消息到数据库 string content = sb.tostring(); logger.info("收到模型原始响应结束: " + content); chatmessage assistantmessage = new chatmessage(); assistantmessage.setcontent(content); assistantmessage.settype("text"); assistantmessage.setrole(constants.message_role_assistent); try { chatmessageservice.insertmessage(request.getsessionid(), assistantmessage); } catch (chatbaseexception e) { logger.error("processmessage2 dooncomplete insertmessage error"); } }).map(response -> { string content = response.getresult().getoutput().gettext(); string thinking = response.getresults().get(0).getoutput().getmetadata().get("reasoningcontent").tostring(); if (stringutils.isnotempty(content)) { logger.info("content" + content); return new chatmessageresponse("content", content); } else if (stringutils.isnotempty(thinking)) { logger.info("thinking" + thinking); return new chatmessageresponse("thinking", thinking); } else { logger.info("done~~~~"); return new chatmessageresponse("done", ""); } }); }
完整代码:madixin/madichat
到此这篇关于springboot中使用flux实现流式返回的技术总结的文章就介绍到这了,更多相关springboot flux流式返回内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论