DeepSeek炸街美股,英伟达哭了,苹果赢麻了?

当中国AI新秀DeepSeek带着“557万美元训练成本暴打OpenAI”的剧本杀入科技圈,全球股市瞬间上演了一场《鱿鱼游戏》真人版——英伟达市值一夜蒸发4万亿,而苹果却成了最大赢家,股价逆势上扬。

英伟达哭昏,苹果躺赢

被中国网友戏称为“皮衣刀客”的黄仁勋做梦也没想到,会被DeepSeek的一句“用H800就能跑”破了大防。毕竟,硅谷大佬们曾坚信“没有最贵的GPU,只有更贵的模型”,结果DeepSeek反手掏出成本仅OpenAI零头的R1模型,直接让英伟达股价表演“高空跳水”——单日暴跌17%,创下美股史上最大单日市值蒸发纪录(约4万亿人民币)。

就在硅谷一片哀嚎时,苹果股价逆势狂飙3.25%,市值重回3.5万亿美元,库克微微一笑:“感谢同行衬托。”原来,DeepSeek模型意外暴露了苹果M系列芯片运行大模型的超高性价比。

以下是当前市场上支持DeepSeek V3和R1运行的主要芯片及其性能和价格的详细比较:

芯片型号内存容量内存带宽价格每GB成本
NVIDIA H10080GB3TB/s$25,000$312.50
AMD MI300X192GB5.3TB/s$20,000$104.17
Apple M2 Ultra192GB800GB/s$5,000$26.04

苹果M2 Ultra芯片(于2023年6月发布)每GB内存的成本效益比AMD MI300X高出4倍,且比NVIDIA H100高出12倍!

DeepSeek V3和R1是稀疏专家模型(MoE,Mixture of Experts),拥有 6710亿参数,但每次生成一个token时只需激活 37亿参数。由于无法事先确定哪些参数会被激活,所有参数都需要时刻准备在高速显存中,以实现高效的运行性能。

  • 传统内存不足以满足需求: 系统RAM的加载速度过慢,无法满足每秒生成一个token的需求。
  • 显存价格昂贵: 尽管GPU显存速度快,但其成本非常高。

苹果通过 统一内存(Unified Memory)UltraFusion 技术,为DeepSeek的运行需求提供了独特且经济高效的解决方案。

苹果的技术优势

  1. 统一内存(Unified Memory):
    苹果的统一内存架构将CPU和GPU共享的内存池整合在一起,无需单独配置内存或在CPU与GPU之间复制数据。这种设计极大地减少了数据传输的开销。
  2. UltraFusion技术:
    UltraFusion是苹果的专有互联技术,通过超高速、低延迟的连接(2.5TB/s)将两个M2 Max芯片整合为M2 Ultra。此技术实现了更高的内存容量(192GB)和更快的内存带宽(800GB/s)。
  3. 下一代M4 Ultra的潜力:
    据传,M4 Ultra将通过UltraFusion连接两块M4 Max芯片,达到 256GB统一内存1146GB/s内存带宽两块M4 Ultra将能够以 每秒57个token 的速度运行DeepSeek V3/R1(4位精度)

DeepSeek的MoE模型需要高速内存随时待命,而苹果的“内存大锅饭”策略(统一内存架构+UltraFusion胶水黑科技)完美适配——既不用像英伟达那样“拆东墙补西墙”倒数据,还能用白菜价实现“内存自由”。网友辣评:“库克这波叫‘用魔法打败魔法’!”

更绝的是,苹果一位机器学习工程师(@awnihannun)甚至7台M4 Mac Mini(上图)组队成功运行了满血版的DeepSeek R1模型(6710亿参数),活生生把AI算力从机房玩到了桌面。难怪极客们惊呼:“苹果这是要革GPU的命啊!”

炼丹设备快速通道:

如果你是Windows用户,那么目前运行32B参数的 DeepSeek-r1模型性价比最高的选择依然是3090显卡:

3090英伟达全新涡轮显卡 京东链接 (到手价:7500元)

中美AI大战:苹果坐收渔翁之利

DeepSeek的横空出世,不仅让特朗普高呼“美国要敲响警钟”,还意外揭露了硅谷的“算力内卷”真相——OpenAI烧50亿刀训练模型,谷歌年砸500亿搞基建,结果中国公司靠算法优化和“榨干每一张显卡”的硬核操作,直接实现“弯道超车”。

而苹果则趁机偷家:一边在iOS 18.3默认开启“Apple Intelligence”(禁用翻过车的新闻摘要功能),一边用开源框架MLX和民间大神@exolabs的“Mac Mini集群神教”,把AI算力平民化。网友调侃:“库克这是‘借刀杀人’,用中国AI打美国芯片,自己坐收渔利!”

英伟达反杀M4的终极武器:Project Digits

但是,苹果的幸福来得突然,去的也可能很快!

英伟达Project Digits

在苹果通过其统一内存架构将M4芯片定位为本地AI推理的重要硬件时,NVIDIA以其最新的 Project Digits 项目(上图)显著拉低了本地运行尖端大语言模型(LLM)的成本,成为AI硬件市场的新焦点。


Project Digits与苹果M4芯片对比

以下是NVIDIA Project Digits与苹果M4系列设备在关键参数上的性能和价格对比:

设备内存容量内存带宽计算性能 (FP16)价格
Project Digits128GB512GB/s250 TFLOPS$3,000
M4 Pro Mac Mini64GB273GB/s17 TFLOPS$2,200
M4 Max MacBook Pro128GB546GB/s34 TFLOPS$4,700

对比数据显示:

  • Project Digits 的 内存带宽M4 Pro2倍,并且拥有 14倍的计算能力
  • 价格仅为 $3,000,相比苹果设备提供了显著的性价比优势。

Project Digits的技术优势

  1. 高效内存与算力:
    • Project Digits 配备 128GB内存512GB/s内存带宽,可在 FP16精度下实现250 TFLOPS 的计算性能。
    • 能够以 8 tokens/秒 的速度运行 Llama 3.3 70B(FP8精度),适合阅读速度的AI推理需求。
  2. 突破内存与带宽瓶颈:
    • 传统的消费级显卡(如RTX 4090)受限于显存容量(24GB)和PCIe 4.0接口带宽(64GB/s),无法将整个模型加载到显卡中,导致推理性能被系统RAM到GPU传输速度所限制。
    • Project Digits通过提供大容量内存和更高带宽,从根本上解决了这一瓶颈。
  3. 多GPU集群支持:
    • 借助即将推出的 PCIe 5.0接口,用户可以组建多个 NVIDIA 5070 GPU 的计算集群。双GPU配置支持从系统RAM到GPU的 256GB/s带宽,能够更高效地运行大语言模型。
  4. 支持 CUDA( Apple 不支持);这意味着爱好者可以更轻松地在 Digits 上训练模型。

对苹果的冲击

苹果近年来以M系列芯片的统一内存架构和卓越能效吸引了众多开发者,但与NVIDIA Project Digits的对比表明:

  • 性价比劣势: Project Digits仅需 $3,000,远低于苹果高端设备的价格。
  • 性能差距明显: 无论是内存带宽还是计算能力,苹果M4芯片都处于劣势。

DeepSeek为英伟达关上一扇门,同时打开了一扇窗

Project Digits的推出不仅让NVIDIA在消费级市场树立了更强的竞争力,还开辟了本地甚至桌面运行尖端AI模型的新市场。随着 @exolabs 宣布将从 发布第一天 开始支持 Project Digits集群 的高性能推理,这一项目的应用潜力进一步得到验证。

NVIDIA的突破预示着一场硬件技术格局的重大变革。Project Digits不仅为本地运行AI模型提供了新的可能性,还进一步巩固了NVIDIA在AI硬件领域的领导地位。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸