💰Token 启示录:单位经济模型探讨

大模型 Token Factory 商业化 · 成本 / 价格 / 毛利率 三大维度的定量推导

Token 经济学2026-05-10中金公司 · 软件及服务行业中金公司

分析师:于钟海 (S0080518070011) / 王之昊 (S0080522050001) / 袁佳妮 (S0080523050003)

核心结论

2026 年开年 Agentic AI 在全球范围加速渗透,驱动大模型 API 消耗量指数级提升,Token Factory 成为大模型厂商商业化最确定、增长最快的模式。

基于 NVL72 单机柜(72 颗 GB200) 测算: 算力自建 $1.95/M Token · 算力租赁 $2.60/M Token; 销售均价 $5/M 时,单机柜 Token 业务理论 OP Margin 61%

现状:海外大模型 API 毛利率 40-50% · 国内 20-40% · 训练算力 / 推理算力 比例从 Y1 的 2.0x 降至 Y8 的 0.36x → 营业利润 Y4 拐点 → Y8 OP Margin 42%。

推荐:智谱(02513.HK) / MiniMax(00100.HK)— 中金均给予"跑赢行业"评级。

百万 Token 自建成本
$1.95
NVL72 · Capex 折旧法
百万 Token 租赁成本
$2.60
Coreweave $10/GPU·h · 75% 折扣
单机柜年输出
0.91 万亿
72 GPU · 1000 T/s · 40% 利用率
API 业务理论 OP
61%
自建算力 + Token 销售 $5/M
海外现状毛利率
40-50%
OpenAI / Anthropic API
国内现状毛利率
20-40%
MaaS API · 仍有折价空间
📌 测算口径
  • · 算力基座:NVL72 机柜(72 颗 GB200 GPU),Capex $6.5M/机柜
  • · 推理模型:GPT-5 / Claude-4.5 级别万亿参数大模型
  • · 推理效率:GB200 单卡 1,000 Tokens/s · NVL72 利用率 40%
  • · 年输出:单机柜 0.91 万亿 Token
  • · 折旧:计算设备 5 年 / 机电 10 年 / 土建 20 年

📊 算力自建 Capex 路径

📋 表 1:NVL72 Capex 拆分($6.5M)
项目金额占比折旧年限年折旧
计算设备(72 颗 GB200)$3.90M60%5 年$0.78M
机电设备(MEP)$1.95M30%10 年$0.20M
土建$0.65M10%20 年$0.03M
合计$6.50M100%$1.01M
📋 表 2:单机柜年总成本 $1.77M 拆分(美国电价口径)
项目金额占比测算说明
折旧$1.01M57%计算/机电/土建折旧合计(见表 1)
电费$0.11M6%$0.10/kWh × 130kW × 24h × 365d · 美国口径
其他$0.65M37%网络/带宽/运维/管理 ≈ Capex 10%
合计$1.77M100%中国电价 $0.05/kWh · 电费可省 $0.05M
📋 表 3:百万 Token 成本 $1.95 拆分(年输出 0.91 万亿)
项目$/M Token占比推导
折旧$1.1157%$1.01M 年折旧 ÷ 0.91 万亿 Token
电费$0.137%$0.11M ÷ 0.91 万亿 Token
其他$0.7236%$0.65M ÷ 0.91 万亿 Token
合计$1.95100%折旧 57% → 利用率(40%)是核心杠杆

🏢 算力租赁 Opex 路径

📋 表 4:算力租赁 Opex 成本(Coreweave $10/GPU·h, 75% 长约折扣)
项目数值推导
GB200 单卡原价$10/GPU·hCoreweave 公开报价
长约折扣75% off3 年期长约 · 折后 $2.5/GPU·h
单机柜年租金$2.40M$2.5 × 72 GPU × 24h × 365d ≈ $15.8M,按 折旧 5 年摊 + OP Margin 倒推 = $2.40M
年输出0.91 万亿72 GPU × 1,000 Tokens/s × 40% 利用率 × 3,600 × 24 × 365
百万 Token 租赁成本$2.60$2.40M ÷ 0.91 万亿 · 比自建贵 33%
📌 自建 vs 租赁对比
维度自建租赁
百万 Token 成本$1.95$2.60 (+33%)
一次性 Capex$6.5M$0
折旧分摊$1.11/M
适合阶段规模已建立初创 / 快速验证
💡 输出效率是核心杠杆:即使同样的 GPU,推理效率与模型参数量、激活参数、算法优化、Infra 优化都强相关。 Nvidia B200 在 gpt-oss 模式可达 60,000 Tokens/s(120B 参数小模型,理想环境) — 参数小 + 推理优化领先的国产厂商,在同等级 GPU 上通常有更优的推理效率表现。
🎯6 大核心推导洞察
1
成本端:自建 vs 租赁差价 33%

算力自建 $1.95/M Token、租赁 $2.60/M Token。差额来自租赁方要赚的 OP Margin (~20%)。Capex 自建需 $6.5M/机柜,适合有规模的头部厂商;租赁适合初创期快速验证市场。

2
价格端:Agent 平均价反而低于 ChatBoT

Agent 应用输入占比大幅提升(67% vs 53%)+ 缓存命中更多(20% vs 10%),平均价从 $6.78(Sonnet)降至 $3.81。但 Agent 单次任务消耗 Token 量是 ChatBoT 几十甚至上百倍,综合收入大幅提升。

3
毛利率:海外 40-50% · 国内 20-40% · 理论 60%

理论 OP Margin 60% 来自单机柜算力全用于 Token 生产 + $5/M Token 售价。海外现状 40-50% 仍有提升空间;国内 20-40% 因定价折价(海外的 5-30%)拖累,未来随能力提升具备涨价空间。

4
训练 vs 推理:训练算力 / 推理算力 比例从 2.0x 降到 0.36x

Y1 训练算力是推理的 200%,Y8 降至 36%。这意味着推理端规模化后,训练成本被摊薄 + 收入端线性增长 → 营业利润 Y4 首次转正,OP Margin Y8 达 42%。

5
Token Factory 局限性:为过程付费,利润率有上限

Token 消耗随用户用量线性增长,模式天生利润率有上限。理想商业模式是'为结果付费'(把模型包装为成熟产品),目前仍在早期探索。

6
国产推理效率更优

参数规模更小 + 推理优化领先的国产厂商,在同等级 GPU 上推理效率通常优于海外。DeepSeek V4 Flash 在 OpenRouter 登顶即此逻辑的体现。

⚠️风险提示
  • 1.Agentic AI 渗透率波动:AI 进步与 Agentic AI 渗透并非线性增长,渗透率不及预期可能影响模型厂商商业化速度
  • 2.AI ROI 不及预期:云厂商大规模 Capex 布局算力,若 AI 产业整体 ROI 不及预期,影响模型调用量 + 云厂商回报 + 市场情绪
  • 3.测算可能存在误差:报告中做了较多测算(Token 单位成本/毛利率/8 年 IS 模型),数据假设变动会显著影响结论

说明:本文内容译自中金公司《Token 启示录:单位经济模型探讨》(2026-05-10)付费研报, 核心数据、单位经济模型推导、毛利率测算、推荐标的已全部整理。原文版权归中金公司所有,完整图表、模型假设、敏感性分析请参考原报告 PDF。 所有图表均为根据原报告数据手绘重制(inline SVG),保留核心数据点。本整理仅供研究学习使用。

AI助手