6 月 21 日消息,就在 gpt-4 因征服标准化测试而登上头条时,微软研究人员正在对其他 ai 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。
为了治好这种被称为“ai 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型响应,这也是微软在测定、检测和缓解 ai 幻觉方面的一个例子。
微软 ai 负责项目的首席产品官 sarah bird 表示,“微软希望其所有 ai 系统都是值得信赖且可以有效使用的”。
我们可以向这个领域投入许多专家和资源,因此我们认为自己可以帮助阐明“应该如何负责任地使用新型 ai 技术”的方法,并使其他人也能够做到这一点。
从技术角度来讲,ai 幻觉是一种“缺乏事实依据”的内容,这意味着 ai 模型改变了它所给定的数据或添油加醋描述了原本不存在的信息。
当然,ai 幻觉这种东西也不是所有时候都毫无用处,例如当用户希望 ai 帮自己写一个科幻故事,或给出一种非传统想法时,就属于是有益的;但在大多数需要 ai 的场景,诸如医学和教育等场景就显得多余了,因为准确性大于一切。
因此,微软也在努力根据其自有 ai 产品(例如 copilot)来试图攻克 ai 幻觉,研究一系列工具来帮助机器解决幻觉问题。
微软表示,其工程师花了数月时间,通过检索增强生成技术(一种无需重新训练模型即可向模型添加额外知识的技术)将必应搜索数据作为 copilot 的依据,通过必应的答案、索引和排名数据帮助 copilot 提供更准确、更相关的回复,同时提供引用信息,让用户可以自行查找和验证。
“该模型非常擅长推理信息,但我们不认为它应该成为答案的来源,”bird 说,“我们认为数据应该是答案的来源,因此我们解决这个问题的第一步是向模型提供最新、高质量且准确的数据。”
除此之外,微软还试图通过各种工具帮助客户做到这一点,例如 azure openai 服务中的“your data”功能可帮助企业组织用自己的数据来训练生成式 ai。
值得一提的是,微软还推出了一种实时工具,可以大规模检测应用中依据企业数据的可靠程度。微软表示,azure ai studio 可以根据来源文档评估响应的可靠程度。
据介绍,微软还正在开发一种新的针对措施,可以实时屏蔽和纠正“毫无根据”的信息。当检测到事实依据错误时,该功能将根据数据自动进行重写。
微软 ai 负责项目的首席产品经理 ken archer 表示,“处于生成式 ai 的前沿意味着我们有责任和机会让自己的产品更安全、更可靠,并让客户也能放心使用我们的工具”。
参考资料:
发表评论