当前位置：代码网 > 科技>人工智能>机器学习 > OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

2024年06月04日 • 机器学习 •我要评论

除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话聊天，只会补全句子的模型。

除了 openai 自己，居然还有别人能用上 gpt-4-base 版？？也就是未经微调的预训练版，还不会对话聊天，只会补全句子的模型。

epfl（瑞士洛桑联邦理工）团队申请到了访问权限，用于研究“上下文学习足以让大模型跟随指令吗？”。

也就是不用监督微调、也不用 rhlf 或其他强化学习对齐方法，只靠提示词能走多远？

预训练模型，究竟能不能一步登天，直接改造成聊天机器人或 ai 助手？

openai 把 gpt-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

如果可行，将大大降低类 chatgpt 大模型的开发难度。

免微调对齐靠谱吗？

免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提示词中学会和用户对话、跟随指令，一直是业界关注的研究方向。

目前的 sota 方法（指某个领域在之前的研究中效果最好的方法） urial 来自艾伦研究所，使用系统提示词 + 少数风格示例就能达到不错的效果。

openai 把 gpt-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

但 epfl 团队发现，urial 仍无法完全弥补与指令微调模型的差距，尤其在多轮对话中的表现更差一些。

实验中，在 llama 系列、mistral 系列和一般人接触不到的 gpt-4-base 都观察到这种现象。

其中 gpt-4-base 的 api 访问权限从 openai researcher access program 项目中申请到。

openai 把 gpt-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

epfl 团队从这里出发，尝试了各种办法来提升上下文学习的效果。

首先他们增加示例的数量，但发现帮助不大，没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

openai 把 gpt-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

然后他们使用了贪心搜索算法，从一大堆示例中选择最佳的添加到上下文。

这种方法可以进一步提高性能，但与指令微调模型的差距仍然存在，特别是在 alpacaeval 2.0 基准测试中。

openai 把 gpt-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

此外他们还发现，贪心搜索为某个特定模型找到的最佳示例，对于其他模型不能可靠地迁移。

也就是说，不同的示例适合不同的模型。

openai 把 gpt-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

团队还进行了一系列消融实验（指移除或变换某个组件，来研究该组件对系统功能的影响），以更多地了解上下文学习的工作原理。

他们发现，在 mt-bench 这样的综合评测中，示例包含正确的“问题-答案对”至关重要。

这与此前大模型在分类任务中，只要有大量示例，部分标签错了也无所谓的发现非常不同。

openai 把 gpt-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

所以最终得出的结论是：

即使采用更多复杂的改进方法，完全缩小上下文学习和指令微调之间的差距也有挑战，即使对于非常长上下文的大模型也是如此。

论文最后分析，大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格，但还没有真正理解执行指令的逻辑。

指令跟随任务相对还是比较复杂和开放的，没那么容易掌握。

想让 ai 助手更“听话”，暂时还是很难有捷径可走。

论文地址：

https://arxiv.org/abs/2405.19874

参考链接：

[1]https://x.com/maksym_andr/status/1796574297894318136

赞 (0)

相关文章:

全国首个司法审判垂直领域 AI 大模型在深圳市中级人民法院上线运行

据“面壁智能”官方公众号，由该公司助力的全国首个司法审判垂直领域大模型问世，AI辅助审判系统昨日在深圳市中级人民法院上线运行。 [阅读全文]
国内首个住房城乡建设部全屋智能重点实验室揭牌：华为全屋智能推动空间智能化时代更进一步

在本届住博会的“数字赋能好房子建设技术研讨会”上，隆重举行了“住房和城乡建设部全屋智能重点实验室”揭牌仪式 [阅读全文]
帮你把草图变成完整画作，三星 One UI 6.1.1 引入“手稿到图像”等 AI 功能

用户可预先在手机上使用S-Pen或徒手绘制草图，Galaxy AI就会通过AI和机器学习创建图形元素，使草图与周边的图像或背景相匹配。 [阅读全文]
“云计算一哥”亚马逊深夜放大招：几分钟纯靠 Prompt 打造一个 App

现在开发一个 APP 需要多久？“云计算一哥”亚马逊云科技，深夜给出了一个新标准 ——只需三步，几分钟，纯靠自然语言和鼠标“点点点”即可。…

2024年07月13日 • 人工智能
Anthropic 基于 Claude 3.5 Sonnet 扩充 AI 开发工具：细化提示词、增强评估和测试

Anthropic 公司昨日（7 月 10 日）发布新闻稿，宣布推出了多项新工具，简化和自动化 Claude 3.5 Sonnet 大语言模型的提示（prompt）流程。…

2024年07月13日 • 人工智能
深入理解TensorFlow底层架构

通过深入了解TensorFlow的底层架构，我们可以更加高效地构建和运行复杂的机器学习模型。TensorFlow的灵活性和强大的分布式计算能力使其成为研究和工业... [阅读全文]

版权声明：本文内容由互联网用户贡献，该文观点仅代表作者本人。本站仅提供信息存储服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 2386932994@qq.com 举报，一经查实将立刻删除。

发表评论


验证码：

Copyright © 2017-2026 代码网保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱：2386932994@qq.com