Cerebras vs NVIDIA · 完整架构解析（2026 终极版）

从晶体管到光纤，从单 token 延迟到 750 MW 部署 · 全栈验证后的深度对比

2,100 tok/s

Cerebras Llama 70B 速度（2026-04）

$20B

OpenAI · Cerebras 累计订单（含 4 月加码）

$48.8B

Cerebras IPO 估值（CBRS, 2026-05-14）

21 PB/s

WSE-3 片上带宽（HBM3e 8 TB/s 的 2,625×）

📖 八个章节 · 逻辑链全景

大背景 · 为什么 2026 是 Cerebras 决战年（IPO + OpenAI 大单）
物理规格 · WSE-3 vs B200/Rubin 全维度对比（验证后数据）
内存层级 · 从计算核到数据中心，七层介质完整地图
切模型策略 · TP（NVIDIA）vs PP（Cerebras）的本质差异
速度根源 · BW/GB 比率 · 477,000 vs 42 的 11,000× 差距
Cerebras 的瓶颈 · MemoryX 喂权重 · 为什么必须上 CPO
CPO 物理原理 · WDM × 低损耗 × 共封装 · 三招叠加
NVIDIA 的应对 · Quantum-X / Spectrum-X · 2026 量产时间表

1大背景 · 为什么 2026 是关键年

2026 年是 Cerebras vs NVIDIA 这场架构之争从"理论可能"变成"商业现实"的拐点。1 月 OpenAI 签 $10B 推理订单，4 月加码到 $20B，5 月 14 日（今天）Cerebras 以 $48.8B 估值在纳斯达克上市，代号 CBRS。同时 NVIDIA Rubin Q1 进入全面量产，Quantum-X CPO 也同期出货。两家路线终于要在同一个市场上正面碰撞。

关键观察：Cerebras 走的是"从架构突破倒推商业落地"——先把 wafer-scale 做出来，再用 CPO 把瓶颈解开，最后靠 OpenAI 这种"必须有低延迟推理"的客户验证商业价值。NVIDIA 走的是"先稳住基本盘，再用 CPO 在网络层降本"。同样的光，两家放在不同层级，反映了不同的战略起点。

FAQ · 基础概念

"WSE-3" 是什么意思？

WSE-3 = Wafer-Scale Engine 第三代。Cerebras 自己造的 AI 芯片，命名直白：Wafer-Scale（整片晶圆当一颗芯片，不切）+ Engine（计算引擎）+ 3（第三代，2024 年发布）。正常工艺 1 片 300mm 晶圆切成 70-90 颗小 die；Cerebras 反着来，整片当 1 颗用。CS-3 是装 1 颗 WSE-3 的整机（15U 机柜，液冷，~23 kW）。

Cerebras 的 memory 到底放在哪？

两个地方，分工明确。① 片上 44 GB SRAM，分布在 900K 核之间，21 PB/s 带宽 —— 存 activation 和 KV cache；② 外置 MemoryX（24 TB - 1.2 PB DDR DRAM 池）—— 存模型权重，按需流式喂给 WSE。
GPU 是把权重和 activation 都塞 HBM（共享 192 GB），Cerebras 拆成"权重池超大 + activation 池超快"两条独立路径，各自压榨到极致。

2物理规格对比 · WSE-3 vs B200/Rubin

所有数字都从最新公开材料验证（2026-05 整理）。注意视觉对比：WSE-3 整片 46,225 mm² 相当于 57 颗 H100 die，是"工艺极限"撞"晶圆边界"的产物。B200 双 die 各 800 mm² 通过 NV-HBI 桥拼起来。Rubin 升级到 3nm + HBM4。

规格	Cerebras WSE-3	NVIDIA B200	NVIDIA Rubin (2026)
工艺	TSMC 5nm	TSMC 4NP	TSMC 3nm
晶体管	4 万亿	208 亿	336 亿
硅面积	46,225 mm² (整片晶圆)	~1,600 mm² (2 × 800)	~1,600 mm² (双 die)
片上内存	44 GB SRAM	~100 MB (L2 + shared)	类似
片上带宽	21 PB/s ✨	~10 TB/s	~13 TB/s
片外内存	MemoryX 24-1,200 TB DRAM	192 GB HBM3e	288 GB HBM4
片外带宽	~5-10 TB/s (今天) → 100+ TB/s (CPO 后)	8 TB/s	22 TB/s
节点互连	SwarmX (CPO 升级中)	NVLink5 · 1.8 TB/s	NVLink6 · 3.6 TB/s
峰值算力	125 PFLOPS FP16	20 PFLOPS FP4	50 PFLOPS FP4
功耗	~23,000 W	1,000 W	~1,800 W

结论：规格比较中最不可比的就是"内置内存"——B200 算上 HBM 有 192 GB，但 HBM 是 off-die 通过 CoWoS 连接的；WSE-3 的 44 GB 是真正"在硅片里"的 SRAM。带宽差 2,625× 才是真正起决定作用的指标。

FAQ · 带宽与吞吐量

MemoryX 进来的速度，跟 NVIDIA 的 HBM 比谁快？

看维度：
• 单点带宽：今天 HBM 更快（B200 HBM3e 8 TB/s · Rubin HBM4 22 TB/s vs MemoryX→WSE 约 5-10 TB/s）
• 内存容量：MemoryX 大 800-1,000 倍（1.2 PB vs 192 GB）
• 整体推理吞吐量：Cerebras 仍然赢 ~40×（2,100 vs 50 tok/s on Llama 70B）
原因是分工不同 —— HBM 既装权重又装 activation，带宽要双任务分摊；MemoryX 只喂权重，activation 由片上 21 PB/s SRAM 专享。CPO 之后 MemoryX 也能到 100+ TB/s，那时单点带宽也反超。

3内存层级 · 从计算核到数据中心

把两家从最深处（计算核）到最远处（跨数据中心）的所有数据通道画在一张图上，看每一段用什么物理介质。关键观察：Cerebras 比 NVIDIA 少 3 个层级——L3 节点内、L4 chip-to-chip、L5 off-die 显存被架构消除了。

视觉冲击：NVIDIA 的"光"只占顶部一段，下面 L3-L5 是铜 SerDes/NVLink/CoWoS 的串联。Cerebras 把 L3-L5 这三层从架构上彻底消除了——光从 L2 一路渗透到 L6 硅。这就是"光放在哪一层"的真正含义。

FAQ · 光放在哪一层

NVIDIA 最新方案是不是也用光了？

是，但放在不同的层。NVIDIA 的 Quantum-X (2026 Q1) 和 Spectrum-X (2026 H2) 在交换机层用 CPO，主要解决百万 GPU 工厂的网络功耗（3.5× 效率提升）。GPU 内部（HBM、NVLink）还是铜。Cerebras 把 CPO 焊在 wafer 边上，直连 MemoryX —— 位置更"贴肉"。
类比：NVIDIA 的光是"把数据中心高速公路换成光纤"，Cerebras 的光是"把工厂大门换成光纤直出"。

SRAM 和 CPO 是一回事吗？

完全不是 —— 是两个不同维度的概念。SRAM 是"存储介质"（片内硅基存储），CPO 是"通信介质"（片外光通信）。SRAM 内部读写用的也是铜（硅片金属层走线），只是距离微米级所以超快。
口诀：SRAM = 存什么 / CPO = 怎么搬。光（CPO）替代的是"片外铜 SerDes"，不是 SRAM。SRAM 永远在片内，CPO 永远在片外，两者协同不替代。

4切模型策略 · TP（NVIDIA）vs PP（Cerebras）

把 80 层的 Llama 70B 装到多卡/多 wafer 上，有两种切法。NVIDIA 主用 Tensor Parallel（每层切到多卡），Cerebras 主用 Pipeline Parallel（按层段分给多 wafer）。切法决定了跨设备流量是 TB/s 级还是 GB/s 级。

对比项	Tensor Parallel（NVIDIA 主用）	Pipeline Parallel（Cerebras 主用）
切法	每层切碎，所有设备共同算每层	按层段分，每设备独立算几层
同步要求	每层 AllReduce（高频高量）	仅层边界传 activation
KV cache	碎片化，attention 需 AllGather	本地完整，attention 在片内
单 token latency	能加速（并行算同一层）	不加速（顺序流过）
吞吐量	受 AllReduce 限制	流水线满载 95%+ 利用率
前提条件	单卡装不下模型时必需	单设备能装多层（Cerebras 20 层/wafer）

本质：切法决定了"跨设备需要同步多少数据"。TP 切碎参数维度，每层都需要 AllReduce 收齐；PP 切层段，跨设备只传一个 activation 向量。同样是铜互连，TP 负载 100×、PP 负载 1×。

FAQ · 关于 PP 的常见疑问

B200 单卡 192 GB HBM，容量上完全能做 PP 吧？

完全可以，容量上没问题。但 单做 PP 不会让单 token 解码变快 —— PP 本质是流水线，单 token 还是要串行经过所有阶段，总时间是各阶段之和。
NVIDIA 用 TP 是因为：TP 能并行算同一个 token 的所有层，给单流加速。Cerebras 单 wafer 已经有 900K 核（相当于自带"超大 TP"），所以可以用 PP 来横向扩容量。
一句话：TP 加速单流，PP 扩容量。两家选哪种取决于单设备的算力密度。

多 wafer 之间不也是铜互连？这不是又回到 NVLink 那种瓶颈了？

表面上是，但承载量差 100 倍，所以不构成瓶颈。
NVIDIA TP：每层 AllReduce → 跨卡流量 200-400 GB/s 持续
Cerebras PP：仅层边界传 16 KB activation → 1,000 并发用户也只有 ~96 GB/s
同样的电互连，工作量决定够不够用。SwarmX 100GbE 就撑得住，CPO 上线后只会更宽裕。所以"多 wafer 有铜互连"是事实，但和 NVIDIA TP 的处境完全不同。

5速度根源 · BW/GB 比率的 11,000 倍差距

为什么 Cerebras 跑 Llama 70B 是 2,100 tok/s 而 NVIDIA 只有 ~50 tok/s？根本原因不在"算力"，在于每 GB 内存可以提供多少带宽——HBM 的 42 GB/s/GB vs SRAM 的 477 TB/s/GB，差 11,000 倍。

核心公式：
推理速度 ≈ BW ÷ 模型大小
但只有 BW/GB 比率 决定了"每个内存单元能多快被读"。
HBM 给你大容量（192 GB）但慢（42 GB/s/GB），SRAM 给你小容量（44 GB）但快（477,000 GB/s/GB）。
对于 memory-bound 的 LLM decode，BW/GB 比总容量更重要。

FAQ · 关于"铜慢光快"的误解

SRAM 比铜还慢？

反了。SRAM 内部"用"的就是铜（片内金属层走线），距离微米级所以快到 21 PB/s。
我们说"铜慢"指的是片外铜（NVLink、PCIe SerDes 等）—— 距离 cm-m 级，需要 SerDes 编码均衡，信号衰减大。
同样是铜，距离差 1,000 倍，速度差 1,000 倍。光（CPO）替代的是片外铜，不是 SRAM 内部那条路。SRAM 的速度王座光也撼动不了（光做不了微米级走线）。

6Cerebras 的瓶颈 · MemoryX 喂权重 · CPO 是唯一解

Cerebras 的 SRAM 这么快，为什么还需要 CPO？因为 44 GB SRAM 装不下大模型，权重必须放外面的 MemoryX 池里流式喂入。这条"喂权重的管子"今天只有 ~5-10 TB/s，是 Cerebras 唯一真正的瓶颈——CPO 就是为解决它而来。

核心：Cerebras 不是"觉得光更酷"，是商业模式逼着必须上光。客户买 Cerebras 是为速度，速度依赖权重流速，权重流速依赖 off-wafer 带宽，off-wafer 带宽只能靠光。链上任何一环抽掉，wafer-scale 故事都讲不下去。

FAQ · KV cache 与 decode 流程

KV cache 存哪里？decode 时不是要读整个权重 + 之前所有 KV cache？

KV cache 跟该层的权重一起存在 WSE 片上 SRAM（不是 MemoryX）。这是 Cerebras 的关键设计 —— 每层映射到 wafer 的一块物理区域，本地 21 PB/s 直接访问。
数据量参考（Llama 70B GQA-8，FP16）：每 token KV cache ≈ 320 KB · 8K 上下文 ≈ 2.6 GB / 用户。
代价：44 GB SRAM 紧张，大模型 + 长上下文必须串多 wafer。这也是为啥 long-context 场景 Cerebras 比 GPU 贵 —— 这才是 Cerebras 真正的护城河缺口。

用例上为啥必须上 CPO？倒着推一遍

因果链一环扣一环：
客户要 2,100 tok/s 推理 → Llama 70B × 2,100 = 294 TB/s 权重带宽需求
→ 44 GB SRAM 装不下 70B 模型 → 权重必须放外置 MemoryX
→ MemoryX 到 WSE 必须穿过 wafer 边缘（物理唯一通道）
→ 铜在边缘塞不下 PB/s 级带宽（物理硬约束）
→ 光是唯一通路，CPO 是工程实现
链上任何一环抽掉，wafer-scale 商业模式就崩。

7CPO 物理原理 · 三个超能力叠加

为什么 CPO 能突破铜的极限？三个独立物理特性叠加：① WDM 让一根纤跑 N 条数据 · ② 光在纤里几乎不衰减 · ③ Co-Packaging 省掉传统光模块的电浪费。每一个都不是新东西，但组合起来形成数量级突破。

对比项	铜 SerDes (NVLink/PCIe)	可插拔光模块 (QSFP-DD)	CPO 共封装光
pJ/bit	5-10	15-20	~1-1.5
单通道带宽	200 Gb/s (上限)	200 Gb/s × λ	200 Gb/s × λ (WDM)
距离	~m 级	km 级	km 级
距离损耗	指数级上升	平坦	平坦
芯片到光的电路径	—	~30-50 cm + 2-3 次 SerDes	~5 mm（共封装）
单 1.6T 链路功耗	~30 W (理论)	30 W	9 W（NVIDIA 实测）

关键：这三个超能力不能拆开看。WDM 给了你密度，光的低损耗给了你能耗下降，但只有共封装（CPO）把芯片到光的最后一段电走线消除掉，才能把综合 pJ/bit 推到 ~1 级别。这就是 NVIDIA Quantum-X 能把 30W 压到 9W 的原因。

FAQ · 物理细节

为啥 CPO 能做到 100 TB/s 而铜不能？

三个独立物理超能力乘法叠加：
① WDM：一根纤跑 8-32 个波长 → 带宽密度 20-100×
② 光低损耗：100m 几乎不衰减 → pJ/bit 降到铜的 1/5-1/10
③ Co-Packaging：光引擎贴芯片旁 5mm → 省 SerDes/DSP，再 50%
综合下来同样 1 kW 预算：铜传 10 TB/s，光传 100+ TB/s。每个单独看都不算革命，三者相乘才出数量级。

CPO 物理上有什么硬骨头？

晶圆级 CPO 工程难点：
• 激光器温控：DFB 激光器需要 ±0.1°C 稳定，但旁边是 23 kW 的 WSE 热源
• 良率无冗余：WSE 缺陷可以靠冗余核兜底，CPO 光通道没有这种机制
• 测试与封装：光接口测试比电接口复杂得多
这就是为啥 Ranovus 拿了 $45M DARPA 合同，量产时间表还没公布 —— 不是没钱，是工程不简单。

8NVIDIA 的应对 · 光在网络层，2026 年量产

NVIDIA 也在上 CPO，但放在不同的层级。Quantum-X Photonics (2026 Q1) 和 Spectrum-X Photonics (2026 H2) 是放在交换机里的 CPO，目标是省网络层的电费。GPU 本身、HBM、NVLink 还是铜。Cerebras 把 CPO 放在芯片边，NVIDIA 把 CPO 放在交换机里——位置不同，战略不同。

战略对比：同样是 CPO，NVIDIA 是"锦上添花"（网络层节能），Cerebras 是"生死线"（架构闭环）。这就是为什么 NVIDIA 可以慢慢部署 CPO（先 Q1 后 H2），而 Cerebras 需要 Ranovus 加速攻关——速度决定了能否赶上 OpenAI 那 $20B 订单的交付窗口。

∞核心总结 · 9 张卡片打包所有认知

① 商业拐点

• 2026-05-14 今天：Cerebras 上市（CBRS）
• 估值 $48.8B · 募资 $4.8B · 20× 超额
• 收入 $510M · 净利 $238M · 47% 净利率
• 客户：OpenAI $20B 订单 · 750 MW 推理
• 同期 NVIDIA Rubin Q1 量产
• 两条路线正面对决正式开始

② 物理规格关键

• WSE-3: 4T 晶体管 · 46,225 mm² 整片晶圆
• 44 GB 片上 SRAM · 21 PB/s 片上带宽
• Rubin: 288 GB HBM4 · 22 TB/s（双 die）
• 片上带宽差 2,625× 才是根本
• 容量上 Rubin 反而大（HBM 在外面）
• 比较容量没意义，要比 BW/GB

③ 内存层级

• 完整内存路径有 7 层（L1-L7）
• NVIDIA 光只到 L2（交换机层）
• L3/L4/L5 是铜 SerDes 大头
• Cerebras 把 L3/L4/L5 架构上消除
• 光从 L2 直接对接 L6 硅
• 这是"光放在哪一层"的真意

④ 切模型策略

• NVIDIA 主用 TP（纵切）
• 每层 AllReduce → 跨卡流量大
• Cerebras 主用 PP（横切）
• 跨片只传 activation → 流量小
• 关键纠错：B200 容量能 PP 但加速差
• 每片 wafer 装 20 层是 PP 能用的前提

⑤ 速度根源

• HBM: 42 GB/s 每 GB 存储
• SRAM: 477,000 GB/s 每 GB 存储
• BW/GB 差 11,000×
• 这是 Cerebras 推理快的真正根源
• Llama 70B: 2,100 tok/s vs ~50 tok/s
• KV cache 完全在 21 PB/s SRAM 里

⑥ MemoryX 瓶颈

• 44 GB SRAM 装不下 70B 模型
• 权重必须放外置 MemoryX（24-1200 TB）
• 喂权重需要 294 TB/s（70B × 2,100 tok/s）
• 今天 SwarmX 电互连：5-10 TB/s（远远不够）
• 这是唯一真正的瓶颈
• 现在靠 batching + caching 撑着

⑦ CPO 三超能力

• WDM: 1 纤 = 8-32 波长 · 密度 20-100×
• 光纤低损: ~1 pJ/bit · 距离不衰减
• Co-Packaging: 省 SerDes/DSP · 再 50%
• 综合：100 TB/s 跨片 800W (vs 铜 5,600W)
• Ranovus DARPA $45M · 目标 100× 当前 CPO
• 是 wafer-scale 最后拼图

⑧ NVIDIA 应对

• Quantum-X CPO: 2026 Q1 出货 · 115 Tb/s
• Spectrum-X CPO: 2026 H2 出货 · 400 Tb/s
• 3.5× 功耗效率 · 30W → 9W per link
• 但只在交换机层，GPU 内部仍铜
• Rubin Q1 量产: 288GB HBM4, NVLink6
• 收购 Groq $20B（防守动作）

⑨ 一句话总结

• Cerebras = "把所有快的东西塞进一片晶圆"
• NVIDIA = "用最强单卡 + 高速互连堆集群"
• 一个赌"集成"，一个守"模块化"
• SRAM 21 PB/s 是 Cerebras 的护城河
• CPO 是这道城河的桥
• 2026 是这场架构之争的决战年