LLaMA 3：大模型之战的新序幕_其他编程

本文要点概览：

文本数据的扩展可能已经达到了极限，因为易于获取的网络文本资源（如common crawl、github、arxiv等）已基本被充分利用。
尽管如此，通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据，我们仍有望获得新的文本数据，但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。
规模扩展竞赛的新阶段将转向多模态领域，尤其是统一的视频-语言生成模型，因为仅有视频数据可以实现数量级的增长。
然而，坏消息是，视频数据似乎并不能显著提升模型的推理（reasoning）能力，而这一能力是区分模型强弱的首要指标。
但好消息是，视频数据能够带来其他性能的显著提升，尤其是增强了模型与现实世界的联系，展现出成为神经世界模型（neural world model）的巨大潜力（与zelda等硬编码物理引擎不同），这提供了从模拟物理反馈中学习的可能性。
从x（x表示人类、人工智能和环境反馈）反馈中扩展强化学习可能是持续提升模型推理能力最有前景的路径。
类似于alphago zero在围棋领域取得的超人类成就，自我对弈和与环境互动可能是超人类生成模型的一个方向。使模型保持在线状态，并从反馈中进行迭代学习（而非一次性的离线优化），有望实现推理能力的持续提升。
规模扩展竞赛的第一阶段聚焦于扩展文本数据，在gpt-4达到顶峰，并由llama 3画上句号。接下来的第二阶段将聚焦于统一的视频-语言生成模型建模，以及基于x反馈的迭代强化学习。

llama 3的性能如何？

llama 3的性能相当不错。

在评估基础模型时，我们会关注mmlu、math、gpqa和bbh等关键指标，因为这些指标能够衡量模型的高级知识与推理能力。目前的排行榜如下：

llama 3 70b的一个显著特点是，其性能明显优于其他同级别的70b模型（其mmlu通常在70+左右），并进入了80+ mmlu的前沿模型领域。

llama 3 70b模型之所以能在mmlu上取得如此优异的成绩，可能有以下两个原因：

它使用了15t的训练词元，这一数量远远超过了其它同类模型。
特别是混合代码与arxiv数据可能提升了模型的推理能力。
它采用了与基准测试相关的持续预训练数据。（如llemma/ metamath/ mammoth）来提升或优化基准测试的表现。
然而，当模型得分达到80+之后，尽管并非不可能实现，但要进一步提升mmlu的得分将极具挑战性，因为mmlu数据集本身的难度就相当高。

llama 3 chatbot版本的表现也相当好。

需要注意的是，虽然在llama 3发布后不久，其评分呈明显的上升趋势，初始排名大约在第三位（通过文本的特定模式，我们可以轻易评断llama 3给出的答案），但现在其elo分数正逐渐下降。尽管如此，其置信区间仍为（+9/-11），远远高于其他模型的(+5/-5)，因此它的排名可能会继续下降。

llama 3的初始排名上得到了较少的投票，且排名升降幅度较大。

实际上，完全没有必要对其性能进行夸大或者虚增分数，因为llama 3本身已经是一个非常出色的模型，这样做可能会增加其在公众中的声誉（或许不会），但肯定会损害在专业人士中的声誉。再次强调，llama 3已经是目前最强的开源大模型。

我预计，它最终的elo分数可能会稳定在gpt-4 0314版本的1180分左右，这与claude 3 haiku的性能相当，同样是一个非常好的成绩。

文本数据扩展的极限

文本数据扩展的极限可能已经到来。因为我们注意到gpt-4 turbo、gemini ultra、claude 3 opus和llama 3 400b的性能都在大致相同的范围内（mmlu约为85）。要继续扩大文本规模，就需要更多的数据，但问题在于，是否能大幅增加文本数据量，超过llama 3的15t词元。

以下是按照新数据潜在规模排名的几个方向：

common crawl（cc）仅覆盖了整个互联网数据的一部分。
我们尚未完成从cc中挖掘和抓取数据。
放宽过滤和去重标准。
利用现有模型生成合成数据。
从图书馆中搜寻更多书籍。

接下来，本文将逐一探讨这些方向。

common crawl只是互联网数据的一部分

common crawl是文本规模扩展最大的不确定因素，因为我们不知道实际的互联网数据有多大。
微软、谷歌和meta等公司可以轻易获取超出cc范围的更多数据。
但问题在于，经过去重和质量过滤之后，还能剩多少词元。

我们仍在从cc中挖掘数据

这种方法的问题在于，我们能够从现有cc中生成的词元数量受到数据处理流程上限的约束，因此在数据的数量级上可能不会发生变化。
新的cc数据随着时间线性增加，但数量级上没有变化。
但规模定律（scaling law）表明，数据呈指数级增长会带来性能的线性增长。因此，最终我们可能会在llama 3 15t的数据基础上增加5t的新词元，但我们真正想要的其实是再增加50t词元。

放宽过滤和去重标准

原始数据量十分庞大，因为数据质量以及重复的问题，我们并未使用全部数据。百川智能的报告展示了过滤对最终词元数量的影响：

如何确定数据质量与去重标准，这个问题有待研究（参见shayne等人，muennighoff等人和xue等人）。一般来说，标准可能不宜过于宽松。

使用合成数据

近期，liu等人针对合成数据进行了很好的总结，重点介绍了推理、工具使用、多模态、多语言和对齐数据的数据来源。
核心挑战依然存在：目前大部分数据研究似乎还未能实现量级突破，因此它们主要被用于持续预训练和微调，而非直接用于预训练。
唯一的例外是phi模型系列，因为他们使用gpt-4生成的数据来训练一个更小的模型。不过这种方法的问题在于能否扩展到更大的模型，并打破gpt-4的上限。

搜寻更多的图书馆藏书

这一方向显然是有希望的，因为图书馆书籍的数据质量绝对是极高的，比网络数据的质量高得多，并且可以显著提高专业知识基准分数，如mmlu。以下是世界上最大的图书馆列表：

但问题不在于技术方面。从这些图书馆购买版权可能会耗费全部的ai投资成本，且其中很大一部分并不对外出售。此外，如果平均每本书有70k词元，那么2亿本书则只有约14t词元，虽然这一数字是现有数量的两倍，但还不够多。

3 扩展规模肯定没错，但接下来该扩展什么呢？

前文已经讨论得出结论，gpt-4级别的前沿模型很可能已经接近文本规模的上限，而进一步扩展文本数据可能会遇到更加艰巨的挑战（但也仍然可能是一种方法）。我们当然希望继续这场狂欢，因为规模扩展是不变的法则，它始终能够生效，但问题在于下一步该扩展什么数据。

视频数据可能不会改善推理能力，但可以提升其他方面

一个明确的方向是多模态数据，尤其是视频数据。据推测，youtube和tiktok的规模可能比文本大几个数量级，这就是新的数量级来源。但这种方法存在一个挑战：多模态数据是否能提升基于文本的推理能力？
答案很可能是否定的。接着就是一个现实问题：如果openai下个月发布gpt-5，其mmmu得分从56提高到70，但mmlu仍然保持在86，这意味着什么？公众会作何反应呢？
mmmu排行榜截图
然而好消息是，即使视频数据不能提高推理能力，也可以改善其他方面的性能，尤其是接地信息（grounding），从而使模型能够接收来自现实世界的反馈。

要提高推理能力，需要在强化学习中扩大探索和利用的规模

具体来说，可能需要扩展：
模型探索的时间跨度。例如，将模型在线部署一年并每周更新，而不只是进行单步优化。
模型的搜索空间。例如，让模型生成一百万个响应，并从中选择最佳响应，而不是原始instructgpt的七选一方法。
模型的反馈来源。主要指逐渐从人类反馈转向人工智能和环境反馈（因为人类反馈不具备可扩展性，且模型正在变得比其人类标注者更强大），因此需要世界模型。
很不幸的是，许多现有的研究工作都集中于微小细节的小规模单轮优化，比如在dpo上添加一个损失项。然而，关键在于在线迭代式的大规模探索和利用。

**4
**

扩展统一的视频-语言生成模型

那么，只是扩大视频-语言模型的规模？听起来并不是很难？

目前的情况是，在文本扩展领域，我们拥有十分标准的架构（moe transformer）、标准的目标（下一个单词预测），以及标准的pipeline（预训练后再对齐），而在视觉/多模态生成模型中，情况却不尽相同。其设计空间比语言模型大得多，我们甚至未能在一些基本问题上达成共识，例如：

我们应该像llava目前的做法一样，先在各自的模态上进行训练，然后使用适配器来桥接模态，还是应该直接在所有模态的混合上进行训练？
在图像/视频部分，我们应该使用统一的transformer核心结构，还是一些计算机视觉技术，如unet和cnn？我们应该对transformer架构进行哪些修改（如3d位置编码）？如何充分利用混合专家层？
增加新的模态至少不应该对现有的模态造成负面影响，然而常见的情况是，增加视觉可能会对语言产生负面影响。如何调和不同模态之间的矛盾？
对于视频理解部分，如何进行分词/表示学习？应该考虑使用类似vq-vae的离散词元，还是类似sora的连续时空块？应该使用类似clip的对比式目标，还是类似原始vae的重构式目标？
对于视频生成部分，应该像videopoet那样是自回归的，还是像sora那样基于扩散的？如何训练一个可以同时执行扩散式生成和自回归式生成的transformer模型？

最终的解决方案也许非常简单，只需要修改现有解决方案的一小部分，但要确定这些细小而关键的修改，社区需要对这些问题进行饱和式研究。

通过从x反馈中进行迭代强化学习

生成类似于alphazero的智能体

我们已经讨论过用于预训练的新数据可能有限，以及多模态可能不会改进推理能力，为了进一步提高推理能力（毕竟这是语言模型的核心能力），我们将焦点转向了扩展强化学习。

问题又回来了，要扩展什么呢？好消息是，基本上强化学习中的任何维度都可以和应该被扩展。我们首先要讨论一个特定的指标：pass@k，它表示在k次尝试中，模型至少成功一次的概率。dpo的优化基准是pass@2（选择一个好的回答，拒绝一个不好的回答），而instructgpt的基准是pass@7（从7个候选项中选择最佳的一个回答）。

如果我们将k值扩展到1百万，会发生什么呢？

从alphacode论文中，可以看到当扩展k值时，模型的通过率不断提高：

yuxuan tong（https://www.notion.so/scaling-up-k-in-pass-k-on-math500-5c44436a2cd643b381e74427e7f7b14f?pvs=4）在数学上验证了deepseek和mistral在扩展搜索空间k时不断改进的情况：

显然，曲线尚未达到饱和状态。

一个直接的问题是，如何从一百万个候选项中选择最佳的一个回答？通过跟踪gpt-4在2023年3月至2024年4月期间的数学性能改进，我们可以来了解其方法：

这些改进显示：

用基于代码的反馈来验证答案
用基于过程的奖励模型来验证答案
用专家级注释来生成反馈

值得注意的是，这些改进不是一次性优化的结果，而是通过多轮优化逐步完成的，anthropic将其称为在线迭代rlhf（https://arxiv.org/abs/2204.05862）：

claude-1的在线迭代rlhf

llama 2的实践也验证了迭代改进的有效性：

llama 2在多个版本上的迭代改进

以及shangmin（https://arxiv.org/abs/2402.04792）的在线ai反馈：

6 结论：规模扩展竞赛的第二阶段

实际上，人类接近文本数据的极限这一事实，openai在 2022 年中旬就已经意识到了，当时他们已经完成了gpt-4初始版本的训练。现在是2024年4月，随着llama 3的发布，是时候总结规模扩展之战的第一阶段了，在这一阶段中，大多数前沿模型都与gpt-4达到了同等水平。

2023年，多模态生成模型的竞争已经展开，其中以图像能力为起点。目前，只有gemini和reka能够理解视频（但不能生成视频），而sora似乎是唯一能够生成长达一分钟视频的模型（但仅限视频）。此外，只有gpt-4 turbo、alphacode和deepseek math探讨了如何扩展搜索空间和反馈信号，而只有gpt-4和claude报告了在线迭代rlhf的详尽结果。

大模型规模扩展竞赛的第二篇章现已揭开序幕。

【语言大模型推理最高 加速11倍】 siliconllm是由硅基流动开发的高效、易用、可扩展的llm推理加速引擎，旨在为用户提供开箱即用的推理加速能力，显著降低大模型部署成本，加速生成式ai产品落地。（技术合作、交流请添加微信：siliconflow01）

siliconllm的吞吐最高提升近4倍，时延最高降低近4倍

数据中心+pcie：siliconllm的吞吐最高提升近5倍；消费卡场景：siliconllm的吞吐最高提升近3倍

system prompt场景：siliconllm的吞吐最高提升11倍；moe模型：推理 siliconllm的吞吐最高提升近10倍

如何系统的去学习大模型llm ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 ai大模型资料 包括ai大模型入门学习思维导图、精品ai大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以v扫描下方二维码免费领取🆓

一、全套agi大模型学习路线

ai大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套ai大模型报告合集

这套包含640份报告的合集，涵盖了ai大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对ai大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、ai大模型经典pdf籍

随着人工智能技术的飞速发展，ai大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如gpt-3、bert、xlnet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些pdf籍就是非常不错的学习资源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、ai大模型商业化落地方案

阶段1：ai大模型时代的基础理解

目标：了解ai大模型的基本概念、发展历程和核心原理。
内容：
- l1.1 人工智能简述与大模型起源
- l1.2 大模型与通用人工智能
- l1.3 gpt模型的发展历程
- l1.4 模型工程
  - l1.4.1 知识大模型
  - l1.4.2 生产大模型
  - l1.4.3 模型工程方法论
  - l1.4.4 模型工程实践
- l1.5 gpt应用案例

阶段2：ai大模型api应用开发工程

目标：掌握ai大模型api的使用和开发，以及相关的编程技能。
内容：
- l2.1 api接口
  - l2.1.1 openai api接口
  - l2.1.2 python接口接入
  - l2.1.3 bot工具类框架
  - l2.1.4 代码示例
- l2.2 prompt框架
  - l2.2.1 什么是prompt
  - l2.2.2 prompt框架应用现状
  - l2.2.3 基于gptas的prompt框架
  - l2.2.4 prompt框架与thought
  - l2.2.5 prompt框架与提示词
- l2.3 流水线工程
  - l2.3.1 流水线工程的概念
  - l2.3.2 流水线工程的优点
  - l2.3.3 流水线工程的应用
- l2.4 总结与展望

阶段3：ai大模型应用架构实践

目标：深入理解ai大模型的应用架构，并能够进行私有化部署。
内容：
- l3.1 agent模型框架
  - l3.1.1 agent模型框架的设计理念
  - l3.1.2 agent模型框架的核心组件
  - l3.1.3 agent模型框架的实现细节
- l3.2 metagpt
  - l3.2.1 metagpt的基本概念
  - l3.2.2 metagpt的工作原理
  - l3.2.3 metagpt的应用场景
- l3.3 chatglm
  - l3.3.1 chatglm的特点
  - l3.3.2 chatglm的开发环境
  - l3.3.3 chatglm的使用示例
- l3.4 llama
  - l3.4.1 llama的特点
  - l3.4.2 llama的开发环境
  - l3.4.3 llama的使用示例
- l3.5 其他大模型介绍

阶段4：ai大模型私有化部署

目标：掌握多种ai大模型的私有化部署，包括多模态和特定领域模型。
内容：
- l4.1 模型私有化部署概述
- l4.2 模型私有化部署的关键技术
- l4.3 模型私有化部署的实施步骤
- l4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立ai大模型的基础知识体系。
阶段2：2-3个月，专注于api应用开发能力的提升。
阶段3：3-4个月，深入实践ai大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的大模型 llm 学习资料已经上传csdn，朋友们如果需要可以微信扫描下方csdn官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以vx扫描下方二维码免费领取🆓

LLaMA 3：大模型之战的新序幕

2024年07月31日 • 其他编程 •我要评论

llama 3的性能如何？

文本数据扩展的极限

3

扩展规模肯定没错，但接下来该扩展什么呢？

通过从x反馈中进行迭代强化学习

生成类似于alphazero的智能体

6

结论：规模扩展竞赛的第二阶段

如何系统的去学习大模型llm ？

一、全套agi大模型学习路线

二、640套ai大模型报告合集

三、ai大模型经典pdf籍

四、ai大模型商业化落地方案

阶段1：ai大模型时代的基础理解

阶段2：ai大模型api应用开发工程

阶段3：ai大模型应用架构实践

阶段4：ai大模型私有化部署

学习计划：

这份完整版的大模型 llm 学习资料已经上传csdn，朋友们如果需要可以微信扫描下方csdn官方认证二维码免费领取【`保证100%免费`】

相关文章:

github copilot vs 通义灵码 vs 腾讯云 AI 代码助手

【AIGC使用教程】GitHub Copilot 免费注册及在 VS Code 中的安装使用

【vs2022】安装copilot和reshaper

发表评论


验证码：

LLaMA 3：大模型之战的新序幕

2024年07月31日 • 其他编程 •我要评论

llama 3的性能如何？

文本数据扩展的极限

3

扩展规模肯定没错，但接下来该扩展什么呢？

通过从x反馈中进行迭代强化学习

生成类似于alphazero的智能体

6

结论：规模扩展竞赛的第二阶段

如何系统的去学习大模型llm ？

一、全套agi大模型学习路线

二、640套ai大模型报告合集

三、ai大模型经典pdf籍

四、ai大模型商业化落地方案

阶段1：ai大模型时代的基础理解

阶段2：ai大模型api应用开发工程

阶段3：ai大模型应用架构实践

阶段4：ai大模型私有化部署

学习计划：

这份完整版的大模型 llm 学习资料已经上传csdn，朋友们如果需要可以微信扫描下方csdn官方认证二维码免费领取【保证100%免费】

相关文章:

github copilot vs 通义灵码 vs 腾讯云 AI 代码助手

【AIGC使用教程】GitHub Copilot 免费注册及在 VS Code 中的安装使用

【vs2022】安装copilot和reshaper

发表评论

这份完整版的大模型 llm 学习资料已经上传csdn，朋友们如果需要可以微信扫描下方csdn官方认证二维码免费领取【`保证100%免费`】