💰Token 启示录:单位经济模型探讨

大模型 Token Factory 商业化 · 成本 / 价格 / 毛利率三大维度的定量推导

Token 经济学2026-05-10中金公司 · 软件及服务行业中金公司

分析师:于钟海 (S0080518070011) / 王之昊 (S0080522050001) / 袁佳妮 (S0080523050003)

核心结论

2026 年开年 Agentic AI 在全球范围加速渗透,驱动大模型 API 消耗量指数级提升,Token Factory 成为大模型厂商商业化最确定、增长最快的模式。

基于 NVL72 单机柜(72 颗 GB200) 测算: 算力自建 $1.95/M Token · 算力租赁 $2.60/M Token; 销售均价 $5/M 时,单机柜 Token 业务理论 OP Margin 61%。

现状:海外大模型 API 毛利率 40-50% · 国内 20-40% · 训练算力 / 推理算力比例从 Y1 的 2.0x 降至 Y8 的 0.36x → 营业利润 Y4 拐点 → Y8 OP Margin 42%。

推荐:智谱(02513.HK) / MiniMax(00100.HK)— 中金均给予"跑赢行业"评级。

百万 Token 自建成本

$1.95

NVL72 · Capex 折旧法

百万 Token 租赁成本

$2.60

Coreweave $10/GPU·h · 75% 折扣

单机柜年输出

0.91 万亿

72 GPU · 1000 T/s · 40% 利用率

API 业务理论 OP

61%

自建算力 + Token 销售 $5/M

海外现状毛利率

40-50%

OpenAI / Anthropic API

国内现状毛利率

20-40%

MaaS API · 仍有折价空间

📌 测算口径

· 算力基座:NVL72 机柜(72 颗 GB200 GPU),Capex $6.5M/机柜
· 推理模型:GPT-5 / Claude-4.5 级别万亿参数大模型
· 推理效率:GB200 单卡 1,000 Tokens/s · NVL72 利用率 40%
· 年输出:单机柜 0.91 万亿 Token
· 折旧:计算设备 5 年 / 机电 10 年 / 土建 20 年

📊 算力自建 Capex 路径

📋 表 1:NVL72 Capex 拆分($6.5M)

项目	金额	占比	折旧年限	年折旧
计算设备(72 颗 GB200)	$3.90M	60%	5 年	$0.78M
机电设备(MEP)	$1.95M	30%	10 年	$0.20M
土建	$0.65M	10%	20 年	$0.03M
合计	$6.50M	100%	—	$1.01M

📋 表 2:单机柜年总成本 $1.77M 拆分(美国电价口径)

项目	金额	占比	测算说明
折旧	$1.01M	57%	计算/机电/土建折旧合计(见表 1)
电费	$0.11M	6%	$0.10/kWh × 130kW × 24h × 365d · 美国口径
其他	$0.65M	37%	网络/带宽/运维/管理 ≈ Capex 10%
合计	$1.77M	100%	中国电价 $0.05/kWh · 电费可省 $0.05M

📋 表 3:百万 Token 成本 $1.95 拆分(年输出 0.91 万亿)

项目	$/M Token	占比	推导
折旧	$1.11	57%	$1.01M 年折旧 ÷ 0.91 万亿 Token
电费	$0.13	7%	$0.11M ÷ 0.91 万亿 Token
其他	$0.72	36%	$0.65M ÷ 0.91 万亿 Token
合计	$1.95	100%	折旧 57% → 利用率(40%)是核心杠杆

🏢 算力租赁 Opex 路径

📋 表 4:算力租赁 Opex 成本(Coreweave $10/GPU·h, 75% 长约折扣)

项目	数值	推导
GB200 单卡原价	$10/GPU·h	Coreweave 公开报价
长约折扣	75% off	3 年期长约 · 折后 $2.5/GPU·h
单机柜年租金	$2.40M	$2.5 × 72 GPU × 24h × 365d ≈ $15.8M,按折旧 5 年摊 + OP Margin 倒推 = $2.40M
年输出	0.91 万亿	72 GPU × 1,000 Tokens/s × 40% 利用率 × 3,600 × 24 × 365
百万 Token 租赁成本	$2.60	$2.40M ÷ 0.91 万亿 · 比自建贵 33%

📌 自建 vs 租赁对比

维度	自建	租赁
百万 Token 成本	$1.95	$2.60 (+33%)
一次性 Capex	$6.5M	$0
折旧分摊	$1.11/M	—
适合阶段	规模已建立	初创 / 快速验证

💡 输出效率是核心杠杆:即使同样的 GPU,推理效率与模型参数量、激活参数、算法优化、Infra 优化都强相关。 Nvidia B200 在 gpt-oss 模式可达 60,000 Tokens/s(120B 参数小模型,理想环境) — 参数小 + 推理优化领先的国产厂商,在同等级 GPU 上通常有更优的推理效率表现。

🎯6 大核心推导洞察

成本端:自建 vs 租赁差价 33%

算力自建 $1.95/M Token、租赁 $2.60/M Token。差额来自租赁方要赚的 OP Margin (~20%)。Capex 自建需 $6.5M/机柜,适合有规模的头部厂商;租赁适合初创期快速验证市场。

价格端:Agent 平均价反而低于 ChatBoT

Agent 应用输入占比大幅提升(67% vs 53%)+ 缓存命中更多(20% vs 10%),平均价从 $6.78(Sonnet)降至 $3.81。但 Agent 单次任务消耗 Token 量是 ChatBoT 几十甚至上百倍,综合收入大幅提升。

毛利率:海外 40-50% · 国内 20-40% · 理论 60%

理论 OP Margin 60% 来自单机柜算力全用于 Token 生产 + $5/M Token 售价。海外现状 40-50% 仍有提升空间;国内 20-40% 因定价折价(海外的 5-30%)拖累,未来随能力提升具备涨价空间。

训练 vs 推理:训练算力 / 推理算力比例从 2.0x 降到 0.36x

Y1 训练算力是推理的 200%,Y8 降至 36%。这意味着推理端规模化后,训练成本被摊薄 + 收入端线性增长 → 营业利润 Y4 首次转正,OP Margin Y8 达 42%。

Token Factory 局限性:为过程付费,利润率有上限

Token 消耗随用户用量线性增长,模式天生利润率有上限。理想商业模式是'为结果付费'(把模型包装为成熟产品),目前仍在早期探索。

国产推理效率更优

参数规模更小 + 推理优化领先的国产厂商,在同等级 GPU 上推理效率通常优于海外。DeepSeek V4 Flash 在 OpenRouter 登顶即此逻辑的体现。

⚠️风险提示

1.Agentic AI 渗透率波动:AI 进步与 Agentic AI 渗透并非线性增长,渗透率不及预期可能影响模型厂商商业化速度
2.AI ROI 不及预期:云厂商大规模 Capex 布局算力,若 AI 产业整体 ROI 不及预期,影响模型调用量 + 云厂商回报 + 市场情绪
3.测算可能存在误差:报告中做了较多测算(Token 单位成本/毛利率/8 年 IS 模型),数据假设变动会显著影响结论

说明:本文内容译自中金公司《Token 启示录:单位经济模型探讨》(2026-05-10)付费研报, 核心数据、单位经济模型推导、毛利率测算、推荐标的已全部整理。原文版权归中金公司所有,完整图表、模型假设、敏感性分析请参考原报告 PDF。所有图表均为根据原报告数据手绘重制(inline SVG),保留核心数据点。本整理仅供研究学习使用。