当前位置: 代码网 > it编程>编程语言>其他编程 > 【AI大模型】程序员AI的未来——Copilot还是Claude3.5 Sonnet?

【AI大模型】程序员AI的未来——Copilot还是Claude3.5 Sonnet?

2024年08月04日 其他编程 我要评论
从 7 大方面对比编码能力,这个工具比Copilot还强,90%的人都没用过!

近期,anthropic发布了claude 3.5 的“大杯”模型 —— claude 3.5 sonnet!

这次发布的 sonnet 代表意大利的“十四行诗”,结构复杂,在智能水平、功能多样性和处理能力上都有所提升,能够应对更复杂的认知任务,提供更高质量的输出。

claude 3.5 sonnet 作为 claude 3.5 系列的首个模型版本,在行业智能水平上取得了显著提升。它不仅超越了竞争对手的性能,还超越了自家的上一代“超大杯” claude 3 opus,同时保持了与中端模型 claude 3 sonnet 相同的速度和成本优势。

sonnet 在研究生级推理(gpqa)、本科级知识(mmlu)和编程能力(humaneval)方面都设立了全新的行业标准。

它在理解细微差别、幽默和复杂指令方面有显著提高,并能以自然、易于理解的语调撰写高质量内容。其运行速度是 claude 3 opus 的两倍,性能提升与成本效益相结合,使 claude 3.5 sonnet 成为复杂任务的理想选择,例如上下文敏感的客户支持和多步骤工作流程的管理。

划重点,在编程能力方面都设立了全新的行业标准。

我记得,chatgpt4o的copilot号称最强编程插件。

👉 gpt功能:

  1. gpt-4o知识问答:支持1000+token上下文记忆功能
  2. 最强代码大模型code copilot:代码自动补全、代码优化建议、代码重构等
  3. dall-e ai绘画:ai绘画 + 剪辑 = 自媒体新时代
  4. 私信哪吒,直接使用gpt-4o

在这里插入图片描述

下面从7个方面,横向对比一下chatgpt4o和claude 3.5 sonnet,看谁的编程能力更强。

round 1:图片识别能力

上传一张图片,是经典算法题“猴子吃桃”的题目。

ps:只上传图片,啥也不说,对比一下chatgpt4o和claude3.5 sonnet的图片识别能力和理解能力。

原图:

chatgpt4o

chatgpt4o识别了图片内容,不过默认转化为了英文。

chatgpt4o给出了解决方案,默认是python语言。

chatgpt4o最后给出了代码的解释说明:

claude3.5 sonnet

claude3.5 sonnet识别了图片内容,默认也是英文。

claude也识别出这是一道算法题,并给出了解决问题需要的算法,不过只给出了一个简单的解题思路。

图片识别能力小结:

在我看来,chatgpt4o完全理解了我的用意,不仅识别了图片内容,还给出了解题思路、代码示例和解释说明,图片识别能力堪称完美。

反观claude3.5 sonnet,只是识别了图片中的内容,给出了了一个简单的解题思路。

图片识别能力,chatgpt4o完胜。

round 2:代码能力

prompt:请根据上面描述,给出解题思路,通过java代码解答此题,关键代码添加注释,并根据示例中的输入输出进行代码测试,代码如果有错误,请重新修改代码

chatgpt4o

chatgpt4o给出了解题思路、java代码、代码解释、测试用例。

claude3.5 sonnet

claude给出了解题思路、java代码、代码解释、测试用例、时间复杂度。

验证代码正确率,我们将chatgpt4o和claude的代码copy到idea中,通过测试用例测试一下。

测试通过,通过率100%。

代码review:

如下图所示,左侧为chatgpt4o,右侧为claude3.5 sonnet。

肉眼可见,chatgpt4o代码共74行,claude共54行,相差20行。claude3.5 sonnet明显更加简洁。

代码能力小结:

chatgpt4o给出了解题思路、java代码、代码解释、测试用例。

claude3.5 sonnet给出了解题思路、java代码、代码解释、测试用例,还给出了算法的时间复杂度。

chatgpt4o与claude3.5 sonnet的代码都没有问题,通过率100%。

通过review代码,claude3.5 sonnet明显更加简洁。

代码能力,claude3.5 sonnet小胜。

round 3:代码优化

ps:我们将“通过回溯算法解答猴子吃桃的代码”发给它们,让它们对代码进行优化。

chatgpt4o

chatgpt4o指出了代码存在4个问题:

  1. 效率低,递归回溯,时间复杂度为 o(n)
  2. 递归深度限制,可能会导致 stackoverflowerror
  3. 不必要的排序
  4. 全局变量使用,不符合编码规范

chatgpt4o给出了优化后的代码、关键点、下一步改进建议。

claude3.5 sonnet

claude指出了代码存在4个问题:

  1. 效率低,递归回溯,时间复杂度为 o(n)
  2. 不必要的排序
  3. 全局变量使用,不符合编码规范
  4. 代码没有处理输入异常的情况

claude给出了优化建议、优化后的代码、优化说明、小总结。

代码优化小结:

chatgpt4o和claude都指出了4项问题,给出了优化建议、优化代码,略有差异,区别不大。

代码优化能力,旗鼓相当。

round 4:解读代码

prompt:请给出代码的解题思路

chatgpt4o

chatgpt4o给出了具体的解题思路、优化后的代码、代码解析、建议的下一步改进

claude3.5 sonnet

claude3.5 sonnet给出了优化后代码的解题思路:

  1. 问题分析
  2. 输入处理
  3. 初始验证
  4. 二分查找最小速度
  5. 验证函数
  6. 返回结果
  7. 分析代码优势

claude3.5并没有再次输出代码,其实这一点是好评的,因为上面已经输出过了,完全没必要再次输出。

解读代码小结:

chatgpt4o看似给的东西比较多,claude3.5只是返回了解题思路。

但是,提示词就是输出代码的解题思路,chatgpt4o反而有点本末倒置了。

解读代码能力,claude3.5 sonnet小胜。

round 5:测试用例及说明

prompt:给出3个测试用例和说明

chatgpt4o

chatgpt4o给出了三个测试用例,涵盖了不同的场景、完整代码及测试用例、测试用例结果

claude3.5 sonnet

claude3.5 sonnet给出了3个测试用例,并对每个用例进行详细说明。

这些测试用例涵盖了几种不同的情况:

  1. 正常情况,需要计算的最小速度
  2. 需要较高速度才能完成的情况
  3. 无法完成任务的情况(时间不足)

解读代码小结:

chatgpt4o给出的东西很多,又输出一遍完整代码,但是回答内容有些重复。

claude3.5 sonnet给出了3个测试用例,并对每个用例进行详细说明,还指出了3个测试用例覆盖了3种不同的情况。

测试用例及说明能力,claude3.5 sonnet小胜。

round 6:java转python

prompt:将代码转为python语言

chatgpt4o

chatgpt4o给出了python代码、关键代码解析、测试用例

claude3.5 sonnet

claude3.5给出了python代码、解题思路、时间复杂度

转码能力小结:

chatgpt4o和claude3.5都给出了python代码、解题思路、测试用例,测试后,通过率100%。

转码能力,旗鼓相当。

round 7:添加注释

chatgpt4o

claude3.5 sonnet

chatgpt4o和claude3.5都为python代码添加了详细的代码注释,能力堪称顶级。

添加注释能力,旗鼓相当。

总结

我们分别从七大方面对比了chatgpt4o和claude3.5 sonnet。

  1. 图片识别能力,chatgpt4o完胜
  2. 代码能力,claude3.5 sonnet小胜
  3. 代码优化能力,旗鼓相当
  4. 解读代码能力,claude3.5 sonnet小胜
  5. 测试用例及说明能力,claude3.5 sonnet小胜
  6. 转码能力,旗鼓相当
  7. 添加注释能力,旗鼓相当

就今天的测试而言,我们不难看出,claude3.5 sonnet在代码能力方面,小胜chatgpt4o。

屏幕前的你,是不是也想试一下打败了copilot的claude3.5 sonnet。

👉 gpt功能:

  1. gpt-4o知识问答:支持1000+token上下文记忆功能
  2. 最强代码大模型code copilot:代码自动补全、代码优化建议、代码重构等
  3. dall-e ai绘画:ai绘画 + 剪辑 = 自媒体新时代
  4. 私信哪吒,直接使用gpt-4o

在这里插入图片描述

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com