当前位置: 代码网 > it编程>游戏开发>ar > ChatGPT,文心一言,Bard 到底哪家强?最新测评来了!

ChatGPT,文心一言,Bard 到底哪家强?最新测评来了!

2024年07月31日 ar 我要评论
你好 ,我是郭震!这篇文章测评三个AI大模型能力:常见生成对话式大模型APP,除最早OpenAI发布的ChatGPT外,还有百度文心一言、谷歌Bard等。今天从代码生成角度,测评三大模型的能力。为什么选择这个角度?而不是其他角度?如写周报,写诗等。因为这些能力怎么判断对错呢?没有统一、明确的评判标准,测评就不会客观了。相反,代码生成能力不一样,错一点都不行,并且判断标准统一、明确,主要两点:第一:...

你好 ,我是郭震!

这篇文章测评三个ai大模型能力:

6d83e576b0a896b907a7ec5a11ee3265.png

常见生成对话式大模型app,除最早openai发布的chatgpt外,还有百度文心一言、谷歌bard等。

今天从代码生成角度,测评三大模型的能力。

为什么选择这个角度?

而不是其他角度?如写周报,写诗等。

因为这些能力怎么判断对错呢?没有统一、明确的评判标准,测评就不会客观了。

相反,代码生成能力不一样,错一点都不行,并且判断标准统一、明确,主要两点:

  • 第一:代码正确解决问题

  • 第二,稳定运行,无bug

明确测评标准后,找一个稍微有些测评技术含量的问题:python编写一个贪吃蛇游戏。

此游戏的实现逻辑相对复杂,即便有经验的程序员要想满足上面两点,一次写完通过也是很有难度的。我们看看机器的表现如何。

三大ai模型,全部使用各家最好模型。

1 chatgpt

首先问问chatgpt,这是其中部分回答截图:

e314c59c79e5925429f2b20952be0d19.png

复制代码到pycharm (python最常用的集成开发环境)中,运行结果如下所示:

3fc51690643ceaa2542d1856e9b081bf.png

玩玩游戏,看看有无bug,测试3次,结果表明:

  • 1) 一次回复完整代码

  • 2) 一次运行通过程序正确实现贪吃蛇游戏(按键盘上下左右箭头,黑色方块会移动,当与淡绿色方块接触时,方块消失(被吃))

  • 3)程序测试三次,无bug

2 文心一言

文心一言是百度大模型。提问它编写贪吃蛇游戏,返回的代码部分截图,共58行(写过贪吃蛇游戏的应该也知道,这些代码肯定不完整)

0563ed02d4425892156a7d7fc74f6458.png

复制到pycharm中,运行代码,结果显示这样,很明显有问题,且无交互能力:

f5a55b9e5b50ebc6c6c0aa89a58e5ca0.png

再给文心一言一次机会,重新生成一遍答案,这次与上次一样代码未写完就终止,这次生成59行终止,继续追问它,它回复未回答完:

0b556e323089afb9fee2e2d2537fd58f.jpeg

稍微有些出乎意料第二次还没回答完,第三次回答终于完成。复制所有代码到pycharm,运行结果是这样,之后程序异常退出:

8fc299a3603d444802b3f71d16bef30b.png

3 bard生成代码

bard是谷歌研发的大模型,同样问题提问它:

fd334485f15a6ce08a60dd2d7c048679.png

bard没有效仿chatgpt打字机的回复形式,而是思考片刻后,一下全部发我代码(最后部分代码截图),速度很快:

37f48febe0763905988529b5a582f8bc.png

同样复制代码到pycharm中,第一眼竟然出现没有导入random模块:

555eee9b36acd4c990b818a145e8604f.png

我手写导入random模块,然后运行程序,贪吃蛇的界面出现两个不同颜色的小方块,1秒钟后程序闪退:

6afb29e13d92400dbd51e6096aebb7ce.png

通过录制运行视频,截取帧,找到那转瞬即逝的一帧:

243c8d1bb6a73f49f829944cd46165cd.png

测试总结

c843527e62be5de0f8a8eca1ba3d77be.png

  • 1 chatgpt, 一次生成代码,代码正确无bug

  • 2 文心一言,三次生成代码,代码不正确

  • 3 bard,一次生成代码,代码不正确

初步结论:chatgpt目前生成能力是最好的

chatgpt 2个月用户就破亿,也印证了这点,如果国内再能直接使用上,估计还会更快。

大家知道零基础学习某个技术,刚开始,难以判断生成答案对错。如果答案再有错误,那无疑会增加学习的难度。这就是如今为什么资料那么多,但是却迟迟无法真正掌握一门技术的重要原因之一。

学技术,认准一个最好的,保证在竞争中不输在工具使用上,这是对于我们个体而言,比较重要的一点!

最后说下个人看法,当今ai技术强如google,大家看到,他们的bard依然无法生成像chatgpt那样准确无误的代码。chatgpt确实独树一帜,其他大模型想超越它,难度不小。

你们觉得呢?欢迎留言

访问网址:http://zglg.work

或点击下面,阅读更多,登录小蜜蜂ai使用chatgpt

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com