当前位置: 代码网 > 手机>品牌>苹果iPhone > 文本总结等方面超过 GPT-4,苹果披露 AFM AI 模型细节:谷歌 TPU 芯片训练

文本总结等方面超过 GPT-4,苹果披露 AFM AI 模型细节:谷歌 TPU 芯片训练

2024年08月04日 苹果iPhone 我要评论
苹果公司最新发布论文 [PDF],分享了关于 Apple Intelligence 模型的相关细节,部分性能已经超过 OpenAI 的 GPT-4。

7 月 31 日消息,苹果公司最新发布论文 [pdf],分享了关于 apple intelligence 模型的相关细节,部分性能已经超过 openai 的 gpt-4。

模型简介

苹果在论文中介绍了 apple foundation model(下文简称 afm)模型,共有以下两款:

  • afm-on-device:本地运行,30 亿参数,可以在 iphoneipad 等设备上高效运行;

  • afm-server:苹果尚未公布参数等细节。

训练数据来源

苹果表示训练数据集包括从出版商处获得授权的数据、经过策划的公开或开源数据集以及我们的网络爬虫 applebot 抓取的公开信息组成。

苹果强调注重保护用户隐私,数据混合物中不包括苹果用户的私人数据。

据《纽约时报》报道,苹果公司在 2023 年底与 nbc、condé nast 和 iac 等多家出版商达成了价值至少 5000 万美元的多年期协议,在出版商的新闻档案中训练模型。

苹果的 afm 模型还在 github 上托管的开源代码上进行了训练,特别是 swift、python、c、objective-c、c++、javascript、java 和 go 代码。

论文称,为了提高 afm 模型的数学技能,苹果公司特别在训练集中加入了来自网页、数学论坛、博客、教程和研讨会的数学问题和答案。

苹果利用了高质量、可公开获得的数据集(论文中未提及名称),这些数据集“拥有允许用于训练...... 模型的许可证”,并经过过滤以去除敏感信息。

afm 模型的训练数据集约有 6.3 万亿个 token(token 是小块数据,通常更容易被生成式人工智能模型吸收)。相比之下,这还不到 meta 用来训练其旗舰文本生成模型 llama 3.1 405b 的 token 数量(15 万亿)的一半。

训练硬件

根据论文描述,苹果公司使用 8192 片 tpuv4 芯片训练 afm-server 模型;2048 片 tpuv5p 芯片训练 afm-on-device 模型。

每个 v5p pod 由 8960 个芯片组成,每秒的浮点运算(flops)和内存分别是 tpu v4 的两倍和三倍,训练模型的速度快了近三倍。

模型性能

根据论文描述,苹果自研大模型在指令遵循、文本总结方面测试超 gpt-4。

苹果公司的数据显示,afm-server 有害输出违规率为 6.3%,明显低于 gpt-4 的 28.8%。同样,在设备上,afm 7.5% 的违规率低于 llama-3-8b(由 facebook 母公司 meta 训练)21.8% 的得分。

在电子邮件、信息和通知汇总方面,设备上的 afm 的满意度分别为 71.3%、63% 和 74.9%。研究论文还指出,这三个模型分别领先于 llama、gemma 和 phi-3 模型。代码网附上相关性能结果如下:

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com