Cerebras vs NVIDIA · 完整架构解析(2026 终极版)
从晶体管到光纤,从单 token 延迟到 750 MW 部署 · 全栈验证后的深度对比
2,100 tok/s
Cerebras Llama 70B 速度(2026-04)
$20B
OpenAI · Cerebras 累计订单(含 4 月加码)
$48.8B
Cerebras IPO 估值(CBRS, 2026-05-14)
21 PB/s
WSE-3 片上带宽(HBM3e 8 TB/s 的 2,625×)
📖 八个章节 · 逻辑链全景
- 大背景 · 为什么 2026 是 Cerebras 决战年(IPO + OpenAI 大单)
- 物理规格 · WSE-3 vs B200/Rubin 全维度对比(验证后数据)
- 内存层级 · 从计算核到数据中心,七层介质完整地图
- 切模型策略 · TP(NVIDIA)vs PP(Cerebras)的本质差异
- 速度根源 · BW/GB 比率 · 477,000 vs 42 的 11,000× 差距
- Cerebras 的瓶颈 · MemoryX 喂权重 · 为什么必须上 CPO
- CPO 物理原理 · WDM × 低损耗 × 共封装 · 三招叠加
- NVIDIA 的应对 · Quantum-X / Spectrum-X · 2026 量产时间表
1大背景 · 为什么 2026 是关键年
2026 年是 Cerebras vs NVIDIA 这场架构之争从"理论可能"变成"商业现实"的拐点。1 月 OpenAI 签 $10B 推理订单,4 月加码到 $20B,5 月 14 日(今天)Cerebras 以 $48.8B 估值在纳斯达克上市,代号 CBRS。同时 NVIDIA Rubin Q1 进入全面量产,Quantum-X CPO 也同期出货。两家路线终于要在同一个市场上正面碰撞。
关键观察:Cerebras 走的是"从架构突破倒推商业落地"——先把 wafer-scale 做出来,再用 CPO 把瓶颈解开,最后靠 OpenAI 这种"必须有低延迟推理"的客户验证商业价值。NVIDIA 走的是"先稳住基本盘,再用 CPO 在网络层降本"。同样的光,两家放在不同层级,反映了不同的战略起点。
FAQ · 基础概念
"WSE-3" 是什么意思?
WSE-3 = Wafer-Scale Engine 第三代。Cerebras 自己造的 AI 芯片,命名直白:Wafer-Scale(整片晶圆当一颗芯片,不切)+ Engine(计算引擎)+ 3(第三代,2024 年发布)。正常工艺 1 片 300mm 晶圆切成 70-90 颗小 die;Cerebras 反着来,整片当 1 颗用。CS-3 是装 1 颗 WSE-3 的整机(15U 机柜,液冷,~23 kW)。
Cerebras 的 memory 到底放在哪?
两个地方,分工明确。① 片上 44 GB SRAM,分布在 900K 核之间,21 PB/s 带宽 —— 存 activation 和 KV cache;② 外置 MemoryX(24 TB - 1.2 PB DDR DRAM 池)—— 存模型权重,按需流式喂给 WSE。
GPU 是把权重和 activation 都塞 HBM(共享 192 GB),Cerebras 拆成"权重池超大 + activation 池超快"两条独立路径,各自压榨到极致。
2物理规格对比 · WSE-3 vs B200/Rubin
所有数字都从最新公开材料验证(2026-05 整理)。注意视觉对比:WSE-3 整片 46,225 mm² 相当于 57 颗 H100 die,是"工艺极限"撞"晶圆边界"的产物。B200 双 die 各 800 mm² 通过 NV-HBI 桥拼起来。Rubin 升级到 3nm + HBM4。
| 规格 |
Cerebras WSE-3 |
NVIDIA B200 |
NVIDIA Rubin (2026) |
| 工艺 |
TSMC 5nm |
TSMC 4NP |
TSMC 3nm |
| 晶体管 |
4 万亿 |
208 亿 |
336 亿 |
| 硅面积 |
46,225 mm² (整片晶圆) |
~1,600 mm² (2 × 800) |
~1,600 mm² (双 die) |
| 片上内存 |
44 GB SRAM |
~100 MB (L2 + shared) |
类似 |
| 片上带宽 |
21 PB/s ✨ |
~10 TB/s |
~13 TB/s |
| 片外内存 |
MemoryX 24-1,200 TB DRAM |
192 GB HBM3e |
288 GB HBM4 |
| 片外带宽 |
~5-10 TB/s (今天) → 100+ TB/s (CPO 后) |
8 TB/s |
22 TB/s |
| 节点互连 |
SwarmX (CPO 升级中) |
NVLink5 · 1.8 TB/s |
NVLink6 · 3.6 TB/s |
| 峰值算力 |
125 PFLOPS FP16 |
20 PFLOPS FP4 |
50 PFLOPS FP4 |
| 功耗 |
~23,000 W |
1,000 W |
~1,800 W |
结论:规格比较中最不可比的就是"内置内存"——B200 算上 HBM 有 192 GB,但 HBM 是 off-die 通过 CoWoS 连接的;WSE-3 的 44 GB 是真正"在硅片里"的 SRAM。带宽差 2,625× 才是真正起决定作用的指标。
FAQ · 带宽与吞吐量
MemoryX 进来的速度,跟 NVIDIA 的 HBM 比谁快?
看维度:
• 单点带宽:今天 HBM 更快(B200 HBM3e 8 TB/s · Rubin HBM4 22 TB/s vs MemoryX→WSE 约 5-10 TB/s)
• 内存容量:MemoryX 大 800-1,000 倍(1.2 PB vs 192 GB)
• 整体推理吞吐量:Cerebras 仍然赢 ~40×(2,100 vs 50 tok/s on Llama 70B)
原因是分工不同 —— HBM 既装权重又装 activation,带宽要双任务分摊;MemoryX 只喂权重,activation 由片上 21 PB/s SRAM 专享。CPO 之后 MemoryX 也能到 100+ TB/s,那时单点带宽也反超。
3内存层级 · 从计算核到数据中心
把两家从最深处(计算核)到最远处(跨数据中心)的所有数据通道画在一张图上,看每一段用什么物理介质。关键观察:Cerebras 比 NVIDIA 少 3 个层级——L3 节点内、L4 chip-to-chip、L5 off-die 显存被架构消除了。
视觉冲击:NVIDIA 的"光"只占顶部一段,下面 L3-L5 是铜 SerDes/NVLink/CoWoS 的串联。Cerebras 把 L3-L5 这三层从架构上彻底消除了——光从 L2 一路渗透到 L6 硅。这就是"光放在哪一层"的真正含义。
FAQ · 光放在哪一层
NVIDIA 最新方案是不是也用光了?
是,但放在不同的层。NVIDIA 的 Quantum-X (2026 Q1) 和 Spectrum-X (2026 H2) 在交换机层用 CPO,主要解决百万 GPU 工厂的网络功耗(3.5× 效率提升)。GPU 内部(HBM、NVLink)还是铜。Cerebras 把 CPO 焊在 wafer 边上,直连 MemoryX —— 位置更"贴肉"。
类比:NVIDIA 的光是"把数据中心高速公路换成光纤",Cerebras 的光是"把工厂大门换成光纤直出"。
SRAM 和 CPO 是一回事吗?
完全不是 —— 是两个不同维度的概念。SRAM 是"存储介质"(片内硅基存储),CPO 是"通信介质"(片外光通信)。SRAM 内部读写用的也是铜(硅片金属层走线),只是距离微米级所以超快。
口诀:SRAM = 存什么 / CPO = 怎么搬。光(CPO)替代的是"片外铜 SerDes",不是 SRAM。SRAM 永远在片内,CPO 永远在片外,两者协同不替代。
4切模型策略 · TP(NVIDIA)vs PP(Cerebras)
把 80 层的 Llama 70B 装到多卡/多 wafer 上,有两种切法。NVIDIA 主用 Tensor Parallel(每层切到多卡),Cerebras 主用 Pipeline Parallel(按层段分给多 wafer)。切法决定了跨设备流量是 TB/s 级还是 GB/s 级。
| 对比项 |
Tensor Parallel(NVIDIA 主用) |
Pipeline Parallel(Cerebras 主用) |
| 切法 |
每层切碎,所有设备共同算每层 |
按层段分,每设备独立算几层 |
| 同步要求 |
每层 AllReduce(高频高量) |
仅层边界传 activation |
| KV cache |
碎片化,attention 需 AllGather |
本地完整,attention 在片内 |
| 单 token latency |
能加速(并行算同一层) |
不加速(顺序流过) |
| 吞吐量 |
受 AllReduce 限制 |
流水线满载 95%+ 利用率 |
| 前提条件 |
单卡装不下模型时必需 |
单设备能装多层(Cerebras 20 层/wafer) |
本质:切法决定了"跨设备需要同步多少数据"。TP 切碎参数维度,每层都需要 AllReduce 收齐;PP 切层段,跨设备只传一个 activation 向量。同样是铜互连,TP 负载 100×、PP 负载 1×。
FAQ · 关于 PP 的常见疑问
B200 单卡 192 GB HBM,容量上完全能做 PP 吧?
完全可以,容量上没问题。但 单做 PP 不会让单 token 解码变快 —— PP 本质是流水线,单 token 还是要串行经过所有阶段,总时间是各阶段之和。
NVIDIA 用 TP 是因为:TP 能并行算同一个 token 的所有层,给单流加速。Cerebras 单 wafer 已经有 900K 核(相当于自带"超大 TP"),所以可以用 PP 来横向扩容量。
一句话:TP 加速单流,PP 扩容量。两家选哪种取决于单设备的算力密度。
多 wafer 之间不也是铜互连?这不是又回到 NVLink 那种瓶颈了?
表面上是,但承载量差 100 倍,所以不构成瓶颈。
NVIDIA TP:每层 AllReduce → 跨卡流量 200-400 GB/s 持续
Cerebras PP:仅层边界传 16 KB activation → 1,000 并发用户也只有 ~96 GB/s
同样的电互连,工作量决定够不够用。SwarmX 100GbE 就撑得住,CPO 上线后只会更宽裕。所以"多 wafer 有铜互连"是事实,但和 NVIDIA TP 的处境完全不同。
5速度根源 · BW/GB 比率的 11,000 倍差距
为什么 Cerebras 跑 Llama 70B 是 2,100 tok/s 而 NVIDIA 只有 ~50 tok/s?根本原因不在"算力",在于每 GB 内存可以提供多少带宽——HBM 的 42 GB/s/GB vs SRAM 的 477 TB/s/GB,差 11,000 倍。
核心公式:
推理速度 ≈ BW ÷ 模型大小
但只有 BW/GB 比率 决定了"每个内存单元能多快被读"。
HBM 给你大容量(192 GB)但慢(42 GB/s/GB),SRAM 给你小容量(44 GB)但快(477,000 GB/s/GB)。
对于 memory-bound 的 LLM decode,BW/GB 比 总容量更重要。
FAQ · 关于"铜慢光快"的误解
SRAM 比铜还慢?
反了。SRAM 内部"用"的就是铜(片内金属层走线),距离微米级所以快到 21 PB/s。
我们说"铜慢"指的是片外铜(NVLink、PCIe SerDes 等)—— 距离 cm-m 级,需要 SerDes 编码均衡,信号衰减大。
同样是铜,距离差 1,000 倍,速度差 1,000 倍。光(CPO)替代的是片外铜,不是 SRAM 内部那条路。SRAM 的速度王座光也撼动不了(光做不了微米级走线)。
6Cerebras 的瓶颈 · MemoryX 喂权重 · CPO 是唯一解
Cerebras 的 SRAM 这么快,为什么还需要 CPO?因为 44 GB SRAM 装不下大模型,权重必须放外面的 MemoryX 池里流式喂入。这条"喂权重的管子"今天只有 ~5-10 TB/s,是 Cerebras 唯一真正的瓶颈——CPO 就是为解决它而来。
核心:Cerebras 不是"觉得光更酷",是商业模式逼着必须上光。客户买 Cerebras 是为速度,速度依赖权重流速,权重流速依赖 off-wafer 带宽,off-wafer 带宽只能靠光。链上任何一环抽掉,wafer-scale 故事都讲不下去。
FAQ · KV cache 与 decode 流程
KV cache 存哪里?decode 时不是要读整个权重 + 之前所有 KV cache?
KV cache 跟该层的权重一起存在 WSE 片上 SRAM(不是 MemoryX)。这是 Cerebras 的关键设计 —— 每层映射到 wafer 的一块物理区域,本地 21 PB/s 直接访问。
数据量参考(Llama 70B GQA-8,FP16):每 token KV cache ≈ 320 KB · 8K 上下文 ≈ 2.6 GB / 用户。
代价:44 GB SRAM 紧张,大模型 + 长上下文必须串多 wafer。这也是为啥 long-context 场景 Cerebras 比 GPU 贵 —— 这才是 Cerebras 真正的护城河缺口。
用例上为啥必须上 CPO?倒着推一遍
因果链一环扣一环:
客户要 2,100 tok/s 推理 → Llama 70B × 2,100 = 294 TB/s 权重带宽需求
→ 44 GB SRAM 装不下 70B 模型 → 权重必须放外置 MemoryX
→ MemoryX 到 WSE 必须穿过 wafer 边缘(物理唯一通道)
→ 铜在边缘塞不下 PB/s 级带宽(物理硬约束)
→ 光是唯一通路,CPO 是工程实现
链上任何一环抽掉,wafer-scale 商业模式就崩。
7CPO 物理原理 · 三个超能力叠加
为什么 CPO 能突破铜的极限?三个独立物理特性叠加:① WDM 让一根纤跑 N 条数据 · ② 光在纤里几乎不衰减 · ③ Co-Packaging 省掉传统光模块的电浪费。每一个都不是新东西,但组合起来形成数量级突破。
| 对比项 |
铜 SerDes (NVLink/PCIe) |
可插拔光模块 (QSFP-DD) |
CPO 共封装光 |
| pJ/bit |
5-10 |
15-20 |
~1-1.5 |
| 单通道带宽 |
200 Gb/s (上限) |
200 Gb/s × λ |
200 Gb/s × λ (WDM) |
| 距离 |
~m 级 |
km 级 |
km 级 |
| 距离损耗 |
指数级上升 |
平坦 |
平坦 |
| 芯片到光的电路径 |
— |
~30-50 cm + 2-3 次 SerDes |
~5 mm(共封装) |
| 单 1.6T 链路功耗 |
~30 W (理论) |
30 W |
9 W(NVIDIA 实测) |
关键:这三个超能力不能拆开看。WDM 给了你密度,光的低损耗给了你能耗下降,但只有共封装(CPO)把芯片到光的最后一段电走线消除掉,才能把综合 pJ/bit 推到 ~1 级别。这就是 NVIDIA Quantum-X 能把 30W 压到 9W 的原因。
FAQ · 物理细节
为啥 CPO 能做到 100 TB/s 而铜不能?
三个独立物理超能力乘法叠加:
① WDM:一根纤跑 8-32 个波长 → 带宽密度 20-100×
② 光低损耗:100m 几乎不衰减 → pJ/bit 降到铜的 1/5-1/10
③ Co-Packaging:光引擎贴芯片旁 5mm → 省 SerDes/DSP,再 50%
综合下来同样 1 kW 预算:铜传 10 TB/s,光传 100+ TB/s。每个单独看都不算革命,三者相乘才出数量级。
CPO 物理上有什么硬骨头?
晶圆级 CPO 工程难点:
• 激光器温控:DFB 激光器需要 ±0.1°C 稳定,但旁边是 23 kW 的 WSE 热源
• 良率无冗余:WSE 缺陷可以靠冗余核兜底,CPO 光通道没有这种机制
• 测试与封装:光接口测试比电接口复杂得多
这就是为啥 Ranovus 拿了 $45M DARPA 合同,量产时间表还没公布 —— 不是没钱,是工程不简单。
8NVIDIA 的应对 · 光在网络层,2026 年量产
NVIDIA 也在上 CPO,但放在不同的层级。Quantum-X Photonics (2026 Q1) 和 Spectrum-X Photonics (2026 H2) 是放在交换机里的 CPO,目标是省网络层的电费。GPU 本身、HBM、NVLink 还是铜。Cerebras 把 CPO 放在芯片边,NVIDIA 把 CPO 放在交换机里——位置不同,战略不同。
战略对比:同样是 CPO,NVIDIA 是"锦上添花"(网络层节能),Cerebras 是"生死线"(架构闭环)。这就是为什么 NVIDIA 可以慢慢部署 CPO(先 Q1 后 H2),而 Cerebras 需要 Ranovus 加速攻关——速度决定了能否赶上 OpenAI 那 $20B 订单的交付窗口。
∞核心总结 · 9 张卡片打包所有认知
- • 2026-05-14 今天:Cerebras 上市(CBRS)
- • 估值 $48.8B · 募资 $4.8B · 20× 超额
- • 收入 $510M · 净利 $238M · 47% 净利率
- • 客户:OpenAI $20B 订单 · 750 MW 推理
- • 同期 NVIDIA Rubin Q1 量产
- • 两条路线正面对决正式开始
- • WSE-3: 4T 晶体管 · 46,225 mm² 整片晶圆
- • 44 GB 片上 SRAM · 21 PB/s 片上带宽
- • Rubin: 288 GB HBM4 · 22 TB/s(双 die)
- • 片上带宽差 2,625× 才是根本
- • 容量上 Rubin 反而大(HBM 在外面)
- • 比较容量没意义,要比 BW/GB
- • 完整内存路径有 7 层(L1-L7)
- • NVIDIA 光只到 L2(交换机层)
- • L3/L4/L5 是铜 SerDes 大头
- • Cerebras 把 L3/L4/L5 架构上消除
- • 光从 L2 直接对接 L6 硅
- • 这是"光放在哪一层"的真意
- • NVIDIA 主用 TP(纵切)
- • 每层 AllReduce → 跨卡流量大
- • Cerebras 主用 PP(横切)
- • 跨片只传 activation → 流量小
- • 关键纠错:B200 容量能 PP 但加速差
- • 每片 wafer 装 20 层是 PP 能用的前提
- • HBM: 42 GB/s 每 GB 存储
- • SRAM: 477,000 GB/s 每 GB 存储
- • BW/GB 差 11,000×
- • 这是 Cerebras 推理快的真正根源
- • Llama 70B: 2,100 tok/s vs ~50 tok/s
- • KV cache 完全在 21 PB/s SRAM 里
- • 44 GB SRAM 装不下 70B 模型
- • 权重必须放外置 MemoryX(24-1200 TB)
- • 喂权重需要 294 TB/s(70B × 2,100 tok/s)
- • 今天 SwarmX 电互连:5-10 TB/s(远远不够)
- • 这是唯一真正的瓶颈
- • 现在靠 batching + caching 撑着
- • WDM: 1 纤 = 8-32 波长 · 密度 20-100×
- • 光纤低损: ~1 pJ/bit · 距离不衰减
- • Co-Packaging: 省 SerDes/DSP · 再 50%
- • 综合:100 TB/s 跨片 800W (vs 铜 5,600W)
- • Ranovus DARPA $45M · 目标 100× 当前 CPO
- • 是 wafer-scale 最后拼图
- • Quantum-X CPO: 2026 Q1 出货 · 115 Tb/s
- • Spectrum-X CPO: 2026 H2 出货 · 400 Tb/s
- • 3.5× 功耗效率 · 30W → 9W per link
- • 但只在交换机层,GPU 内部仍铜
- • Rubin Q1 量产: 288GB HBM4, NVLink6
- • 收购 Groq $20B(防守动作)
- • Cerebras = "把所有快的东西塞进一片晶圆"
- • NVIDIA = "用最强单卡 + 高速互连堆集群"
- • 一个赌"集成",一个守"模块化"
- • SRAM 21 PB/s 是 Cerebras 的护城河
- • CPO 是这道城河的桥
- • 2026 是这场架构之争的决战年