🏟️ Arena AI 排行榜

真实人类投票驱动的 5 大模型能力榜 · 总投票 870 万 + · 数据日期 2026-06-05 ~ 06-16

原始数据 ↗
WebDev
90
模型 · 381K 票
Text
661
模型 · Top 30 展示
Vision
131
模型 · 1M 票
Agent
27
模型 · 755K sessions
Text-to-Image
70
模型 · 5.4M 票
🏆 WebDev Leaderboard · Top 50

网页开发任务(含多步推理 + 工具调用的 Agent 编码工作流)· 数据日期 2026-06-16 · 90 模型 · 381,168 票

3 个模板Overall / HTML / React7 领域筛选置信区间 / 对战胜负 / A对B
#模型提供方分数 ± CI投票数$/M 输入/输出上下文
1claude-fable-5Anthropic1654±162.1K$10 / $501M
2glm-5.2 (max)Z.ai1595±161.6K$1.4 / $4.41M
3claude-opus-4-7-thinkingAnthropic1566±87.4K$5 / $251M
4claude-opus-4-8-thinkingAnthropic1561±132.6K$5 / $251M
5claude-opus-4-7Anthropic1556±86.8K$5 / $251M
6claude-opus-4-6-thinkingAnthropic1541±79.9K$5 / $251M
7claude-opus-4-8Anthropic1541±123.0K$5 / $251M
8claude-opus-4-6Anthropic1538±711.0K$5 / $251M
9glm-5.1Z.ai1531±113.6K$1.4 / $4.4202.8K
10qwen3.7-max-20260517Alibaba1531±113.4K$1.25 / $3.751M
11claude-sonnet-4-6Anthropic1522±613.2K$3 / $151M
12kimi-k2.6Moonshot1513±95.6K$0.95 / $4262.1K
13minimax-m3MiniMax1511±122.8K$0.6 / $2.4
14muse-sparkMeta1507±161.6K /
15gemini-3.5-flashGoogle1506±132.2K$1.5 / $91M
16gpt-5.5-xhigh (codex-harness)OpenAI1502±96.1K /
17claude-opus-4-5-20251101-thinking-32kAnthropic1490±713.1K$5 / $25200K
18qwen3.6-max-previewAlibaba1484±122.5K$1.04 / $6.24262.1K
19gpt-5.5-high (codex-harness)OpenAI1483±86.3K /
20kimi-k2.7-codeMoonshot1478±141.9K$0.74 / $3.5262.1K
21mimo-v2.5-proXiaomi1470±86.5K$0.43 / $0.871M
22claude-opus-4-5-20251101Anthropic1466±615.3K$5 / $25200K
23qwen3.6-plusAlibaba1462±78.0K$0.33 / $1.951M
24deepseek-v4-pro-thinkingDeepSeek1459±95.9K$0.43 / $0.871M
25gpt-5.4-high (codex-harness)OpenAI1457±171.5K$2.5 / $151.1M
26gpt-5.5 (codex-harness)OpenAI1450±86.1K /
27gemini-3.1-pro-previewGoogle1447±612.4K$2 / $121M
28glm-4.7Z.ai1440±104.9K$0.4 / $1.75202.8K
29gemini-3-proGoogle1439±717.2K$2 / $121M
30gpt-5.4-medium (codex-harness)OpenAI1437±161.4K$2.5 / $151.1M
31gemini-3-flashGoogle1437±713.3K$0.5 / $31M
32glm-5Z.ai1435±86.6K /
33mimo-v2.5Xiaomi1433±95.6K /
34mimo-v2-proXiaomi1432±86.8K /
35kimi-k2.5-thinkingMoonshot1430±612.4K /
36kimi-k2.5-instantMoonshot1408±113.6K /
37gpt-5.3-codex (codex-harness)OpenAI1407±123.0K /
38gpt-5.2OpenAI1405±171.5K /
39gpt-5.4-mini-highOpenAI1398±87.3K /
40gpt-5.4OpenAI1398±30406 /
41gpt-5-mediumOpenAI1394±133.8K /
42qwen3.5-397b-a17bAlibaba1394±611.6K /
43minimax-m2.7MiniMax1394±77.9K /
44minimax-m2.1-previewMiniMax1392±89.3K /
45gpt-5.1-mediumOpenAI1392±96.1K /
46claude-sonnet-4-5-20250929-thinking-32kAnthropic1388±715.7K /
47gemini-3-flash (thinking-minimal)Google1388±518.4K /
48grok-4.20-beta-0309-reasoningxAI1387±79.1K /
49claude-opus-4-1-20250805Anthropic1386±98.6K /
50claude-sonnet-4-5-20250929Anthropic1386±618.4K /

* 仅展示 Top 50,完整 90 模型请见原站

关于数据:Arena.ai 排行榜基于人类对模型两两盲投结果,由 LMSYS Chatbot Arena 团队运营,是 LLM 评测领域公信力最高的 ELO 排名之一。 所有分数均含 95% 置信区间,投票数越大分数越稳定。本页数据为快照,更新频率建议月级(如需自动抓取可加 cron)。

AI助手