“力压 GPT-4o 和 Gemini 1.5 Pro”，Anthropic 推出 Claude 3.5 Sonnet AI 模型_人工智能

6 月 21 日消息，anthropic 今天（6 月 21 日）推出了 claude 3.5 sonnet，这是 claude 3.5 系列的首个模型版本，在各项评估中优于 openai 的 gpt-4o 和谷歌的 gemini 1.5 pro。

“力压 gpt-4o 和 gemini 1.5 pro”，anthropic 推出 claude 3.5 sonnet ai 模型

claude 3.5 sonnet 在前代的基础上迭代升级，性能更快，编码、视觉和自然语言理解能力更强。

claude 3.5 sonnet 属于中等尺寸模型，介于小型 haiku 和高端 opus 之间，但 anthropic 声称，根据内部基准测试，sonnet 的性能甚至超过了顶级 opus。

“力压 gpt-4o 和 gemini 1.5 pro”，anthropic 推出 claude 3.5 sonnet ai 模型

据 anthropic 称，claude 3.5 sonnet 处理输入的速度是 opus 的两倍。该公司称，在编码挑战方面，sonnet 超越了之前的 opus 模型，修复了 64% 的代码错误，而 opus 只有 38%。

基准测试结果还显示，sonnet 在 9 个总体类别中的 7 个类别、5 个视觉任务中的 4 个任务上击败了竞争对手。

“力压 gpt-4o 和 gemini 1.5 pro”，anthropic 推出 claude 3.5 sonnet ai 模型

代码网翻译官方新闻稿如下：

claude 3.5 sonnet 是我们迄今为止最强大的视觉模型，在标准视觉基准测试中超过了 claude 3 opus，在解读图表等需要视觉推理的任务中，这些阶跃式的改进最为明显。
claude 3.5 sonnet 还能从不完美的图像中准确地转录文本，这是零售、物流和金融服务的核心能力，在这些领域，人工智能可能会从图像、图形或插图中获得比单纯从文本中获得更多的洞察力。

为确保安全，anthropic 将 sonnet 提交给英国和美国人工智能安全研究所进行外部评估。他们发现，经过改进后，该模型仍处于 asl 2 级水平。anthropic 还利用儿童安全专业知识对助手进行了更新，以更好地预防潜在伤害。

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商。 [阅读全文]

字节跳动与博通合作开发 AI 芯片？官方回应：该消息不实

据新浪财经报道，今日有市场消息称，字节跳动将与美国芯片设计公司博通合作开发 AI 芯片。对此，字节跳动表示：该消息不实。 [阅读全文]

“清华系”面壁智能与华为云合作，推进大模型端云协同解决方案

华为云推进大模型端云协同解决方案中，面壁智能是首个端侧大模型合作方。双方将共同推进大模型端云协同解决方案的研发和部署，进一步降低大模型使用成本、提升响应速度。 [阅读全文]

大模型测试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

一项新的“大模型 Benchmark”在推特上爆火，LeCun 也点赞转发了！而且无论是 GPT-4 还是 Claude 3，面对它都如同被夺了魂，无法给出正确答案。…

2024年06月24日 • 人工智能

国家发改委等部门：推进餐饮外卖点单和配送智能化升级，有条件的地方推广无人配送

《措施》提出，消费新场景是消费新业态、新模式、新产品的系统集成，对促进消费提质升级，更好满足人民高品质生活具有重要意义。 [阅读全文]

美国多家汽车经销商将 AI 用于车辆初步检查：一分钟内可生成全面报告

客户将车开过大型扫描仪，扫描仪将从各个角度（IT之家注：包括车底）拍摄多张照片。然后，这些图像将通过人工智能软件进行检测，以识别外部、轮胎和可见机械部件上的任何... [阅读全文]


验证码：

验证码：

“力压 GPT-4o 和 Gemini 1.5 Pro”，Anthropic 推出 Claude 3.5 Sonnet AI 模型

2024年06月21日 • 人工智能 •我要评论

相关文章:

大模型测试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

发表评论