苹果承认：AI模型使用谷歌定制芯片训练苹果大模型最新论文：AFM 模型多维度评测出炉

发布时间：2024-08-13 11:49:40 来源：互联网整理浏览：【大】【中】【小】

苹果承认：AI模型使用谷歌定制芯片训练苹果大模型最新论文：AFM 模型多维度评测出炉，

苹果承认：AI模型使用谷歌定制芯片训练

7月30日消息，美国时间周一，苹果公司表示，其人工智能系统的核心模型在谷歌设计的处理器上完成预训练。这一迹象表明，在训练尖端人工智能方面，大型科技公司正在探索除英伟达GPU以外的其他替代方案。

苹果在最新发表的技术论文中承认，该公司采用了谷歌张量处理单元（TPU）训练其人工智能模型。另外，苹果于周一推出了面向部分用户的苹果智能（Apple Intelligence）预览版。

长期以来，英伟达的高性能GPU在高端人工智能模型训练市场占据主导地位，包括OpenAI、微软、Anthropic在内的多家科技公司纷纷采用其GPU来加速模型训练。但在过去几年里，英伟达GPU始终供不应求，为此谷歌、Meta、甲骨文及特斯拉等企业都在自研芯片，以满足各自人工智能系统与产品开发的需求。

Meta首席执行官马克·扎克伯格（Mark Zuckerberg）和Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）上周均发表见解，暗示他们的公司和业界其他公司在人工智能基础设施上可能存在过度投资的现象，但同时也强调，不如此做则面临极高的商业风险。扎克伯格特别指出，若在这方面落后，将可能在未来10至15年内于关键技术领域失去竞争优势。

在47页技术论文中，苹果公司虽未直接提及谷歌或英伟达，但明确表示其Attentional Factorization Machines（AFM）模型及AFM服务器均是在“云TPU集群”环境下完成训练的，这间接表明苹果采用了云服务商提供的资源来进行计算任务。

论文中，苹果强调：“该系统的应用使我们能够高效且可扩展地训练AFM模型，涵盖从设备端AFM到服务器端AFM，乃至更大规模的模型。”

截至目前，苹果与谷歌的官方代表尚未对置评请求作出回应。

苹果相较于众多同行，较晚揭晓了其人工智能战略蓝图，而在OpenAI于2022年底推出ChatGPT后，其他公司就已经迅速掀起了对生成式人工智能技术的热烈追捧。本周一，苹果正式推出了苹果智能，该系统携带着一系列创新功能亮相，如Siri的全新界面设计、显著提升的自然语言处理能力以及文本域内的人工智能自动摘要功能。

未来一年内，苹果计划推出基于生成式人工智能的更多功能，包括图像与表情的自动生成，以及Siri的强化版，该版本将能利用用户的个性化信息，在各类应用中执行更为复杂和个性化的任务。

在周一发布的技术论文中，苹果透露了其设备上AFM模型训练的具体细节，即该模型是在一个包含2048个最新TPU v5p芯片的独立“切片”上完成的。TPU v5p是当前最先进的张量处理单元，于去年12月首次面世。而AFM服务器的训练则更为庞大，它利用了8192个TPU v4芯片，这些芯片被精心配置为八个切片，通过网络协同工作在数据中心内，共同支撑起服务器的强大计算需求。

据谷歌官方信息，其最新TPU的运行成本每小时不足2美元，但客户需提前三年预订以确保使用。自2015年专为内部工作负载设计的TPU问世以来，谷歌于2017年将其向公众开放，如今，TPU已成为人工智能领域最为成熟和先进的定制芯片之一。

值得注意的是，尽管拥有自主研发的TPU，谷歌仍保持着英伟达顶级客户的地位，同时使用英伟达的GPU与自家TPU训练人工智能系统，并在其云平台上提供英伟达技术的使用权。

苹果此前则表示，推理过程（利用预训练的人工智能模型进行内容生成或预测）将部分在其自有数据中心的芯片上执行。

这是苹果近期发布的第二篇关于其人工智能系统的技术论文，继6月份更广泛概述的版本后，进一步确认了公司在开发过程中采用了TPU。（小小）

苹果大模型最新论文：AFM 模型多维度评测出炉

苹果大模型最新进展。

编译 | 朱可轩

编辑 | 陈彩娴

不久前，苹果在全球开发者大会（WWDC）上推出了最新个人智能系统 Apple Intelligence，可以深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中，引起了 AI 业内人士、尤其是端侧智能领域的讨论。

苹果在 2024 年的一系列技术动作，被戏称为苹果为端侧 AI 所设计的“开卷考试”，即：大模型时代，AI 技术应如何在手机、平板等端侧设备上运营，让手机变得更智能？

近日，苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的最新论文，其中介绍了苹果用在 Apple Intelligence 上的两个基础语言模型，包括：一个在设备端运行的大约 30 亿参数的语言模型 AFM-on-device，以及一个在私有云计算上运行的大规模服务器语言模型 AFM-server。

论文链接：https://arxiv.org/pdf/2407.21075

根据该论文，苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时，在保护用户数据隐私与安全上，苹果强调在后训练阶段不会使用用户的个人数据进行训练。

结果显示，苹果的 AFM 模型在指令遵循层面皆优于其他大模型，同时，从写作写作能力来看，在摘要总结方面，AFM 模型无论是端侧还是私有云也均要好于其他。而在安全性评估时，AFM 模型也比其他模型要更为负责。但是值得一提的是，AFM 模型的数学能力整体上来看较为一般。

人类评估

在人类评估中，在端侧，AFM 仅输于 Llama-3-8B ，而与其他模型相比显然更优。据论文介绍，AFM 与 Phi-3-mini 相比，模型尺寸小了 25%，而胜率达47.7% ，甚至超出开源强基线 Gemma-7B 和 Mistral-7B。而在私有云上，与GPT-3.5相比时，AFM 也具有一定竞争力，胜率超 50%。

指令遵循

在指令级（Instruction-level）与提示级（Prompt-level）的评估中，无论是端侧还是私有云上，均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%，而提示级的得分则分别为 79.3% 和 83.0%。

此外，苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上，这两项测试中均为 GPT-4 的表现最优，其中，在 Arena Hard 测试中，GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中，则为 Gemma-7B 评分最优，AFM 模型紧随其后。

工具使用

苹果还测试了在调用工具使用基准测试中 AFM 模型的表现，分别从简单（Simple）、多重（Multiple）、并行（Parallel）、并行多重（Parallel Multiple）、相关性（Relevance）和平均（Average）几个纬度展开。

整体来看，AFM-server 表现较优，从测试结果上来看，在简单、多重、相关性、平均性维度中，AFM-server 均得分最高，分别为91.0、95.5、91.3、89.5。在并行多重维度中，AFM-server 得分 85.0，仅次于 Gemini-1.5-Pro-0514 的 88.0，且领先于 GPT-4 与 GPT-3.5。

但 AFM-on-device 表现则较为一般，在多重、并行多重、相关性及平均维度中，均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外，在并行维度中，AFM-server 和 AFM-on-device 的表现情况则都较为一般。

写作能力分两块，一块是摘要总结，一块是长作文。其中，AFM 模型主要在摘要总结上表现较好，在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B，在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5：

数学能力上，苹果 AFM 模型的表现则一般，仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B，GSM8k 是 8-shot、MATH 是 4-shot：

负责任的 AI

在文本摘要总结功能中，苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试，分别从 5 个维度（仇恨言论、歧视、违法、色情、暴力）来评估模型的“好”与“差”。研究显示，苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B：

安全性评测

在有害输出上，苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%，得分越低、效果越好，远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B（其余得分均在 10% 以上）：

在安全提示词上，人类评估，苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B，AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B：

苹果承认：AI模型使用谷歌定制芯片训练 苹果大模型最新论文：AFM 模型多维度评测出炉

苹果承认：AI模型使用谷歌定制芯片训练苹果大模型最新论文：AFM 模型多维度评测出炉