6 月 21 日消息,anthropic 今天(6 月 21 日)推出了 claude 3.5 sonnet,这是 claude 3.5 系列的首个模型版本,在各项评估中优于 openai 的 gpt-4o 和谷歌的 gemini 1.5 pro。
claude 3.5 sonnet 在前代的基础上迭代升级,性能更快,编码、视觉和自然语言理解能力更强。
claude 3.5 sonnet 属于中等尺寸模型,介于小型 haiku 和高端 opus 之间,但 anthropic 声称,根据内部基准测试,sonnet 的性能甚至超过了顶级 opus。
据 anthropic 称,claude 3.5 sonnet 处理输入的速度是 opus 的两倍。该公司称,在编码挑战方面,sonnet 超越了之前的 opus 模型,修复了 64% 的代码错误,而 opus 只有 38%。
基准测试结果还显示,sonnet 在 9 个总体类别中的 7 个类别、5 个视觉任务中的 4 个任务上击败了竞争对手。
代码网翻译官方新闻稿如下:
claude 3.5 sonnet 是我们迄今为止最强大的视觉模型,在标准视觉基准测试中超过了 claude 3 opus,在解读图表等需要视觉推理的任务中,这些阶跃式的改进最为明显。
claude 3.5 sonnet 还能从不完美的图像中准确地转录文本,这是零售、物流和金融服务的核心能力,在这些领域,人工智能可能会从图像、图形或插图中获得比单纯从文本中获得更多的洞察力。
为确保安全,anthropic 将 sonnet 提交给英国和美国人工智能安全研究所进行外部评估。他们发现,经过改进后,该模型仍处于 asl 2 级水平。anthropic 还利用儿童安全专业知识对助手进行了更新,以更好地预防潜在伤害。
发表评论