热点资讯
户外 高潮 苹果杀疯了!Mac Studio内存狂飙,跑满血DeepSeek R1耗尽448GB,M3 Ultra果然稳住了
发布日期:2025-03-17 05:20 点击次数:176
翻译 | 苏宓户外 高潮
一周前,苹果低调发布了最新款 Mac Studio,提供 M3 Ultra 和 M4 Max 两种芯片选项。其中,M3 Ultra 版块搭载 32 核 CPU 和 80 核 GPU,最高支握 512GB 营救内存。官方声称此版块可运行朝上 6000 亿参数的 LLM,也就是在家就能跑满血版的 DeepSeek R1。
这引得不少东说念主驻足围不雅,并产生了一些疑问:在 AI 大模子期间,买 Mac Studio 会比买单买 GPU 更合算吗?在 AI 任务中的实质领略,它会比其他高端 PC 领略更强吗?
最近,不少海外网友在收到新开导后,纷纷动手测试模式。其中,硅谷商议公司 Creative Strategies 的时期分析师 Max Weinbach 率先上手 256GB 版 Mac Studio,测试了 QwQ 32B、Llama 8B、Gemma2 9B 等模子,并分享了在不同开导上的评测对比数据。另外还有 YouTube 博主 Dave Lee 顺利把确立拉满,在 512 GB 的 Mac Studio 上跑了满血 DeepSeek R1,那么,Mac Studio 在 AI 范围的领略到底怎样?整个来望望!
话未几说,可以先看论断:
Max Weinba 暗示,Nvidia RTX 5090 在 GPU 基准测试和部分 AI 任务上领略出色,但苹果芯片在使用体验和踏实性上更胜一筹。符合开导者的最好组合是:Mac Studio(M3 Ultra)用于桌面 AI 开导 + 租用 Nvidia H100 做事器作念高强度缱绻任务。
Dave Lee 暗示:macOS 默许对 VRAM 分派有终止,需要手动调高了上限,把可用 VRAM 提高到了 448GB,才让 DeepSeek R1 模子凯旋运行。运行纷乱的 DeepSeek R1 模子时,整个系统的功耗不到 200W。如果用传统多 GPU 确立来跑这个模子,功耗起码是 M3 Ultra 的 10 倍。
购入 32 核 GPU、搭载 M3 Ultra 的新版 Mac Studio
当先,咱们先看 Max Weinba 的测试流程与履历。自 2020 年购入第一台 M1 MacBook Pro 以来,Max Weinbach 便成为 Apple Silicon 的诚挚用户。从 M1 MacBook Pro 升级到 M1 Max,再到 M3 Max,他最垂青的长久是内存性能。这不仅是因为 Chrome 浏览器对内存的高需求,更在于他觉得,内存长久是影响电脑性能的最大瓶颈。
在弃取 M3 Max 时,他成心确立了 128GB 内存,因为 Llama.cpp 和 MLX 这些 AI 框架越来越流行,会马上把可用内存全占完。但说真话,当今跟着 AI 模子范围的增长和自动化责任流的复杂化,128GB 内存在实质使用中早已不够用,显得衣衫不整。
而搭载 M3 Ultra 芯片的 Mac Studio 让他确切感受到性能的飞跃。在 Max Weinbach 看来,这是一款专为 AI 开导者打造的责任站:超强 GPU + 最高 512GB 营救内存(LPDDR5x)+ 819GB/s 的超高内存带宽,号称 AI 开导者的终极理思开导。
melody marks 肛交Max Weinbach 说起, AI 开导者简直清一色皆用 Mac,以致可以夸张地说——系数顶级实验室、顶级开导者的责任环境中,Mac 早已成为标配。
是以在看到新版 Mac Studio 出来之后,他就迫不足待地买了一台,具体确立如下:
搭载 M3 Ultra 芯片
32 核 CPU
80 核 GPU
256GB 营救内存(其中 192GB 可用作 VRAM)
4TB SSD
Max Weinbach 直言,M3 Ultra 是他用过最快的电脑,以致在 AI 任务上的领略比他的高端游戏 PC 还要强。而他的游戏 PC 确立可不低——Intel i9 13900K + RTX 5090 + 64GB DDR5 + 2TB NVMe SSD。
为了考证这少量,他对 M3 Ultra、M3 Max 和我方的游戏 PC 进行了 Geekbench AI 基准测试。
Geekbench AI 将按照全精度、半精度和量化模式法则排序户外 高潮。
终止怎样?顺利来看数据:
运行 LLM,为什么“吃”内存?
在阐扬聊 M3 Ultra Mac Studio 运行 LLM 的领略之前,先来讲讲 LLM 为什么需要这样多内存。如果对这部分照旧了解,可以顺利跳过,这里主如果讲授内存的遑急性。
LLM 主要有两个部分会大量占用内存,不外其中有些可以优化:
1. 模子自己的大小
LLM 时时以 FP16(半精度浮点)口头存储,也就是每个参数占 2 字节。因此,缱绻智商很简便:参数数目 × 2 = 模子大小(GB 为单元)。
举个例子:Llama 3.1 8B(80 亿参数)约莫需要 16GB 内存。而 DeepSeek R1 这种大模子用的是 FP8 口头(每个参数 1 字节),是以 6850 亿参数(685B)约莫需要 685GB 内存。面前最强的开源模子是阿里巴巴的 QwQ 32B,跟 DeepSeek R1 旗饱读相等!它聘用 BF16(16 位浮点),好意思满模子约莫 64GB。
在 LLM 运行时,如果将模子量化到 4-bit,所需的内存可以减少一半以致四分之一,具体取决于模子自己。举例,8B 参数模子在 4-bit 量化后约莫占 4GB,QwQ 32B 约 20GB,而 DeepSeek R1 依然需要 350GB 内存。天然,还有更激进的 1.5-bit 或 2-bit 量化方式,但这时时会导致模子质料着落,除了作念演示用途,基本上没什么实用价值。对于 DeepSeek R1 这样的超大模子来说,天然 2-bit 量化能把需求降到 250GB,但依然是个纷乱的数字。即就是最小版块的 DeepSeek R1,也需要 180GB 内存,但这还不是全部。
2. 凹凸文窗口
另一个占用大量内存的身分是凹凸文窗口(Context Window),也就是 LLM 贬责信息的顾忌范围。简便来说,模子能一次性贬责若干文本,决定了它生成回复时的凹凸文清爽才气。当今,大多数模子的凹凸文窗口照旧扩张到 128K Tokens,但一般用户实质使用的远低于这个数,大约 32K tokens 就够用了(ChatGPT Plus 亦然 32K)。这些 token 需要存储在 KV Cache 里,它纪录了模子输入的系数 token 以生成输出。
在客户端运行 LLM 最常用的框架是 llama.cpp,它会一次性加载好意思满的凹凸文窗口缓存 + 模子,比如 QwQ 32B 自己唯有 19GB,但加载后统统占用约 51GB 内存!这并不是赖事,在好多应用场景下,这种方式是合理的。
不外,像 Apple 的 MLX 框架就聘用了更天简直政策:仅在需要时才使用系统内存来存储 KV Cache。这样一来,QwQ 32B 启动加载时只占 19GB,跟着使用渐渐占用更多内存,最终在填满整个凹凸文窗口时达到 51GB。对于 M3 Ultra 或 M4 Max 这种配备超大内存的芯片来说,这种机制能让它们支握更高精度的模子。举例,QwQ 32B 在原生 BF16 精度下,好意思满凹凸文窗口加载后需要朝上 180GB 内存。换句话说,一个 32B 级别的模子,光是运行就可能吃掉 180GB 内存,这些大模子的施行情况就是:有若干内存,它们就能用若干。
异日的趋势是:凹凸文窗口会越来越大,是以高内存才是最值得暖和的“保值确立”。像 Qwen 和 Grok 3 这样的模子照旧扩张到 100 万 tokens 凹凸文窗口,而 Grok 3 异日还谈论开源。天然大模子的大小会受到 Scaling law(扩张定律)的终止,但更大的凹凸文窗口对实质应用来说更遑急,而这意味着需要大量内存。面前一些 RAG(检索增强生成)时期能一定进程上缓解内存需求,但从永久来看,凹凸文窗口的大小才是枢纽。思同期跑大模子 + 超大凹凸文窗口?512GB 内存起步,以致更高。
另外,Mac Studio 还能通过 Thunderbolt 5 合并多台开导,并诓骗苹果专门的高速通说念进行散播式缱绻,收场 1TB+ 的分享内存。不外,这个话题可以留到以后再聊。
总的来说,天然你可以在手机或任何札记本上运行 LLM,它如实能跑,但思要确切畅通地用在坐褥环境,进行模子评估,以致看成 AI 责任站来使用,就必须要有弥漫大的 GPU 内存。
而面前,Mac Studio(M3 Ultra)是唯独能作念到这少量的机器。
天然,如果顺利买 H100 或 AMD Instinct 级别的 GPU,在推理速率上如实会更快,但从本钱上看,这些开导的价钱至少是 Mac Studio 的 6-80 倍,而且多数东说念主最终照旧要在云霄部署模子,是以对腹地开导者来说,性价比并不高。
至于熟谙大模子,那是另一个统统不同的费事。专注于在不同开导上运行大模子的实验室 Exo Labs 面前正在开导一个基于 Apple Silicon 的 LLM 熟谙集群,他们细则更专科,异日可能会分享更多对于熟谙所需的内存细节。不外,最终的论断很简便:内存越大,体验越好。
LLM 性能实测
在不同开导上跑大模子,要点来了!Max Weinbach 指出——Mac Studio 的 LLM 运行领略,简直是系数桌面开导里最好的。
比拟市面上的大多数 PC,Mac Studio 或其他配备营救内存(Unified Memory)的 Mac 可以更快地运行更强的模子,况兼支握更大的凹凸文窗口。这不仅成绩于 Apple Silicon 的硬件上风,还与 Apple 的 MLX 框架密切有关。MLX 不仅能够让模子高效运行,同期还能幸免提前将 KV 缓存全部加载到内存中,况兼在凹凸文窗口增大的情况下依然保握较快的 Token 生成速率。
不外,他强调,此次的测试并不是一个统统公道的对比。英伟达的 Blackwell 架构如实在数据中心和消费级 AI 应用上领略出色,但本次测试的要点是评估 AI 责任站上的 LLM 实质性能,因此测试终止更适协看成参考,而非顺利比较。
以下是斟酌模子、斟酌种子、斟酌输入领导在三台不同机器上的领略,系数测试均在 128K Token 的凹凸文窗口下运行(或使用模子支握的最大窗口)。游戏 PC 使用 llama.cpp,Mac 开导则使用 MLX 进行测试:
天然,RTX 5090 也不是弗成跑更大的大模子,它可以可以通过 CPU 卸载、惰性加载等方式,在推理流程中动态使用系统内存和 CPU 来运行更大的模子。不外,这会增多延长,说真话,有了这样强的显卡,折腾这些其实没啥真理。
另外,还有像 TensorRT-LLM 这样的用具,可以把模子量化成 Blackwell 支握的原生 fp4 数据类型,但 Max Weinbach 袒露,在尝试给 RTX 5090 编译时,遭逢了不少不实,也没期间渐渐调试。表面上,如果用上 Nvidia 官方的优化,RTX 5090 在 Windows 上的领略应该比上头的测试终止好得多,但问题照旧出在内存上——RTX 5090 唯有 32GB,而 M3 Ultra 起步就是 96GB,最高能到 512GB。
这也就是 Apple Silicon 的另一大上风:宽心。系数东西皆优化好了,开箱即用。MLX 是面前最好的框架,不光苹果在更新,开源社区也在孝敬,它能充分诓骗 Apple Silicon 的营救内存。天然 RTX 5090 在 AI 缱绻的峰值性能上如实比 M3 Ultra 的 GPU 强,但 CUDA、TensorRT 这些软件栈在单机环境下反而成了终止。而在数据中心里,CUDA 和 TensorRT 如实无可替代。
是以,Max Weinbach 觉得,最符合开导者使用的最好组合其实是:桌面上用 M3 Ultra Mac Studio,数据中心租一台 8 张 H100 的做事器。Hopper 和 Blackwell 符合做事器,M3 Ultra 符合个东说念主责任站。“天然对比这些开导很真理,但实质情况是,不同开导各有长处,弗成顺利替代互相”,Max Weinbach 说说念。
Mac Studio 跑 DeepSeek R1 情况又怎样?
除了 Max Weinbach 除外,正如著述开始所述,YouTube 博主 Dave Lee 使用 512GB 内存的 Mac Studio 跑起了 DeepSeek R1 这个超大模子。
Dave Lee 暗示,DeepSeek R1 模子有 6710 亿个参数,体积高达 404GB,需要超高带宽的内存,一般来说只可靠 GPU 的专用显存(VRAM)来复旧。但成绩于苹果的营救内存架构,M3 Ultra 顺利把这部分需求整合进了系统内存里,在低功耗的情况下跑出了可以的成果。
测试中,Dave Lee 把 M3 Ultra 跑 DeepSeek R1 的领略跟苹果之前的芯片作念了对比。像 R1 这样大的模子,传统 PC 决策时时需要多块 GPU 配合超大显存才能撑得住,功耗也会飙升。但 M3 Ultra 依靠营救内存架构,让 AI 模子可以像使用 VRAM 同样调用高带宽内存,单芯片就能高效运行。
不外值得注释的是,Dave Lee 强调,跑小模子时,M3 Ultra 还能留多余力,但濒临 6710 亿参数的 DeepSeek R1,就必须用上最高配的 512GB 内存版块。另外,macOS 默许对 VRAM 分派有终止,Dave Lee 还迥殊手动调高了上限,把可用 VRAM 提高到了 448GB,才让模子凯旋运行。
最终,DeepSeek R1 在 M3 Ultra Mac Studio 领略可以。天然这里用的是 4-bit 量化版块,焚烧了一定的精度,但模子依然保握了好意思满的 6710 亿参数,速率为 16-18 tokens/秒。全体成果超出预期。比拟之下,其他平台需要多块 GPU 才能达到斟酌性能,而 M3 Ultra 的上风在于能效——整机功耗不到 200W!
Dave 还提到,如果用传统多 GPU 确立来跑这个模子,功耗起码是 M3 Ultra 的 10 倍。
总的来说,Dave Lee 暗示,M3 Ultra 的 AI 缱绻才气远超思象。而在 Max Weinbach 看来,「面前市集上根底莫得可与 Mac Studio 匹敌的 AI 责任站」。
对此户外 高潮,你奈何看?