【AI大模型】程序员AI的未来——Copilot还是Claude3.5 Sonnet？_其他编程

近期，anthropic发布了claude 3.5 的“大杯”模型 —— claude 3.5 sonnet！

这次发布的 sonnet 代表意大利的“十四行诗”，结构复杂，在智能水平、功能多样性和处理能力上都有所提升，能够应对更复杂的认知任务，提供更高质量的输出。

claude 3.5 sonnet 作为 claude 3.5 系列的首个模型版本，在行业智能水平上取得了显著提升。它不仅超越了竞争对手的性能，还超越了自家的上一代“超大杯” claude 3 opus，同时保持了与中端模型 claude 3 sonnet 相同的速度和成本优势。

sonnet 在研究生级推理（gpqa）、本科级知识（mmlu）和编程能力（humaneval）方面都设立了全新的行业标准。

它在理解细微差别、幽默和复杂指令方面有显著提高，并能以自然、易于理解的语调撰写高质量内容。其运行速度是 claude 3 opus 的两倍，性能提升与成本效益相结合，使 claude 3.5 sonnet 成为复杂任务的理想选择，例如上下文敏感的客户支持和多步骤工作流程的管理。

划重点，在编程能力方面都设立了全新的行业标准。

我记得，chatgpt4o的copilot号称最强编程插件。

👉 gpt功能：

gpt-4o知识问答：支持1000+token上下文记忆功能
最强代码大模型code copilot：代码自动补全、代码优化建议、代码重构等
dall-e ai绘画：ai绘画 + 剪辑 = 自媒体新时代
私信哪吒，直接使用gpt-4o

在这里插入图片描述

下面从7个方面，横向对比一下chatgpt4o和claude 3.5 sonnet，看谁的编程能力更强。

round 1：图片识别能力

上传一张图片，是经典算法题“猴子吃桃”的题目。

ps：只上传图片，啥也不说，对比一下chatgpt4o和claude3.5 sonnet的图片识别能力和理解能力。

原图：

chatgpt4o

chatgpt4o识别了图片内容，不过默认转化为了英文。

chatgpt4o给出了解决方案，默认是python语言。

chatgpt4o最后给出了代码的解释说明：

claude3.5 sonnet

claude3.5 sonnet识别了图片内容，默认也是英文。

claude也识别出这是一道算法题，并给出了解决问题需要的算法，不过只给出了一个简单的解题思路。

图片识别能力小结：

在我看来，chatgpt4o完全理解了我的用意，不仅识别了图片内容，还给出了解题思路、代码示例和解释说明，图片识别能力堪称完美。

反观claude3.5 sonnet，只是识别了图片中的内容，给出了了一个简单的解题思路。

图片识别能力，chatgpt4o完胜。

round 2：代码能力

prompt：请根据上面描述，给出解题思路，通过java代码解答此题，关键代码添加注释，并根据示例中的输入输出进行代码测试，代码如果有错误，请重新修改代码

chatgpt4o

chatgpt4o给出了解题思路、java代码、代码解释、测试用例。

claude3.5 sonnet

claude给出了解题思路、java代码、代码解释、测试用例、时间复杂度。

验证代码正确率，我们将chatgpt4o和claude的代码copy到idea中，通过测试用例测试一下。

测试通过，通过率100%。

代码review：

如下图所示，左侧为chatgpt4o，右侧为claude3.5 sonnet。

肉眼可见，chatgpt4o代码共74行，claude共54行，相差20行。claude3.5 sonnet明显更加简洁。

代码能力小结：

chatgpt4o给出了解题思路、java代码、代码解释、测试用例。

claude3.5 sonnet给出了解题思路、java代码、代码解释、测试用例，还给出了算法的时间复杂度。

chatgpt4o与claude3.5 sonnet的代码都没有问题，通过率100%。

通过review代码，claude3.5 sonnet明显更加简洁。

代码能力，claude3.5 sonnet小胜。

round 3：代码优化

ps：我们将“通过回溯算法解答猴子吃桃的代码”发给它们，让它们对代码进行优化。

chatgpt4o

chatgpt4o指出了代码存在4个问题：

效率低，递归回溯，时间复杂度为 o(n)
递归深度限制，可能会导致 stackoverflowerror
不必要的排序
全局变量使用，不符合编码规范

chatgpt4o给出了优化后的代码、关键点、下一步改进建议。

claude3.5 sonnet

claude指出了代码存在4个问题：

效率低，递归回溯，时间复杂度为 o(n)
不必要的排序
全局变量使用，不符合编码规范
代码没有处理输入异常的情况

claude给出了优化建议、优化后的代码、优化说明、小总结。

代码优化小结：

chatgpt4o和claude都指出了4项问题，给出了优化建议、优化代码，略有差异，区别不大。

代码优化能力，旗鼓相当。

round 4：解读代码

prompt：请给出代码的解题思路

chatgpt4o

chatgpt4o给出了具体的解题思路、优化后的代码、代码解析、建议的下一步改进

claude3.5 sonnet

claude3.5 sonnet给出了优化后代码的解题思路：

问题分析
输入处理
初始验证
二分查找最小速度
验证函数
返回结果
分析代码优势

claude3.5并没有再次输出代码，其实这一点是好评的，因为上面已经输出过了，完全没必要再次输出。

解读代码小结：

chatgpt4o看似给的东西比较多，claude3.5只是返回了解题思路。

但是，提示词就是输出代码的解题思路，chatgpt4o反而有点本末倒置了。

解读代码能力，claude3.5 sonnet小胜。

round 5：测试用例及说明

prompt：给出3个测试用例和说明

chatgpt4o

chatgpt4o给出了三个测试用例，涵盖了不同的场景、完整代码及测试用例、测试用例结果

claude3.5 sonnet

claude3.5 sonnet给出了3个测试用例,并对每个用例进行详细说明。

这些测试用例涵盖了几种不同的情况:

正常情况,需要计算的最小速度
需要较高速度才能完成的情况
无法完成任务的情况(时间不足)

解读代码小结：

chatgpt4o给出的东西很多，又输出一遍完整代码，但是回答内容有些重复。

claude3.5 sonnet给出了3个测试用例,并对每个用例进行详细说明，还指出了3个测试用例覆盖了3种不同的情况。

测试用例及说明能力，claude3.5 sonnet小胜。

round 6：java转python

prompt：将代码转为python语言

chatgpt4o

chatgpt4o给出了python代码、关键代码解析、测试用例

claude3.5 sonnet

claude3.5给出了python代码、解题思路、时间复杂度

转码能力小结：

chatgpt4o和claude3.5都给出了python代码、解题思路、测试用例，测试后，通过率100%。

转码能力，旗鼓相当。

round 7：添加注释

chatgpt4o

claude3.5 sonnet

chatgpt4o和claude3.5都为python代码添加了详细的代码注释，能力堪称顶级。

添加注释能力，旗鼓相当。

总结

我们分别从七大方面对比了chatgpt4o和claude3.5 sonnet。

图片识别能力，chatgpt4o完胜
代码能力，claude3.5 sonnet小胜
代码优化能力，旗鼓相当
解读代码能力，claude3.5 sonnet小胜
测试用例及说明能力，claude3.5 sonnet小胜
转码能力，旗鼓相当
添加注释能力，旗鼓相当

就今天的测试而言，我们不难看出，claude3.5 sonnet在代码能力方面，小胜chatgpt4o。

屏幕前的你，是不是也想试一下打败了copilot的claude3.5 sonnet。

👉 gpt功能：

gpt-4o知识问答：支持1000+token上下文记忆功能
最强代码大模型code copilot：代码自动补全、代码优化建议、代码重构等
dall-e ai绘画：ai绘画 + 剪辑 = 自媒体新时代
私信哪吒，直接使用gpt-4o

在这里插入图片描述


验证码：

【AI大模型】程序员AI的未来——Copilot还是Claude3.5 Sonnet？

2024年08月04日 • 其他编程 •我要评论

round 1：图片识别能力

chatgpt4o

claude3.5 sonnet

图片识别能力小结：

图片识别能力，chatgpt4o完胜。

round 2：代码能力

chatgpt4o

claude3.5 sonnet

代码能力小结：

代码能力，claude3.5 sonnet小胜。

round 3：代码优化

chatgpt4o

claude3.5 sonnet

代码优化小结：

代码优化能力，旗鼓相当。

round 4：解读代码

chatgpt4o

claude3.5 sonnet

解读代码小结：

解读代码能力，claude3.5 sonnet小胜。

round 5：测试用例及说明

chatgpt4o

claude3.5 sonnet

解读代码小结：

测试用例及说明能力，claude3.5 sonnet小胜。

round 6：java转python

chatgpt4o

claude3.5 sonnet

转码能力小结：

转码能力，旗鼓相当。

round 7：添加注释

chatgpt4o

claude3.5 sonnet

添加注释能力，旗鼓相当。

总结

相关文章:

使用LLaMA-Factory微调Llama3大模型

LLaMA-Factory微调（sft）ChatGLM3-6B保姆教程

申请 meta llama 模型权重（超详细）

深度学习-损失函数

发表评论