AI大模型排名榜单 LMArena AI 大模型竞技场排名

LMArena由加州大学伯克利分校的研究人员创建,是一个开放平台,任何人都可以轻松访问、探索和使用世界领先的 AI 模型。通过并排比较模型并投票选出最佳模型,社区成员共同构建了一个公开排行榜,使 AI 的发展更加透明,并更加贴近实际应用。

AI 大模型 文本生成 (Text) 排名TOP10

排名 模型名称 得分 (Score) 票数 (Votes)
1 gemini-3-pro 1492 9799
2 grok-4.1-thinking 1482 10067
3 claude-opus-4-5-20251101 1466 4677
4 grok-4.1 1464 9967
5 gpt-5.1-high 1461 7893
6 claude-opus-4-5-20251101-thinking-32k 1460 2763
7 gemini-2.5-pro 1452 70875
8 claude-sonnet-4-5-20250929-thinking-32k 1448 22000
9 claude-opus-4-1-20250805-thinking-16k 1448 37617
10 claude-sonnet-4-5-20250929 1445 16961

AI 大模型 Web 开发 (Web Dev) 排名TOP10

排名 模型名称 得分 (Score) 票数 (Votes)
1 claude-opus-4-5-20251101-thinking-32k 1493 1109
2 claude-opus-4-5-20251101 1479 1421
3 gemini-3-pro 1473 6037
4 gpt-5-medium 1399 3937
5 claude-sonnet-4-5-20250929-thinking-32k 1397 5376
6 gpt-5.1-medium 1395 2431
7 claude-opus-4-1-20250805 1393 5204
8 claude-sonnet-4-5-20250929 1387 6422
9 glm-4.6 1370 5035
10 kimi-k2-thinking-turbo 1358 4258

AI 大模型 视觉理解 (Vision) 排名TOP10

排名 模型名称 得分 (Score) 票数 (Votes)
1 gemini-3-pro 1324 2969
2 gemini-2.5-pro 1249 64806
3 chatgpt-4o-latest-20250326 1237 16494
4 gpt-4.5-preview-2025-02-27 1226 2925
5 gemini-2.5-flash-preview-09-2025 1225 4037
6 gpt-5-chat 1222 37598
7 o3-2025-04-16 1219 44441
8 gpt-4.1-2025-04-14 1216 40504
9 gemini-2.5-flash 1214 39523
10 claude-opus-4-20250514-thinking-16k 1210 1419

AI 大模型 文生图 (Text-to-Image) 排名TOP10

排名 模型名称 得分 (Score) 票数 (Votes)
1 gemini-3-pro-image-preview (nano-banana-pro) 1242 3720
2 hunyuan-image-3.0 1161 57245
3 gemini-2.5-flash-image-preview (nano-banana) 1158 579254
4 seedream-4-2k 1144 14507
5 imagen-4.0-ultra-generate-preview-06-06 1143 478685
6 imagen-4.0-generate-preview-06-06 1130 479234
7 seedream-4-high-res-fal 1127 47180
8 wan2.5-t2i-preview 1124 5642
9 gpt-image-1 1121 228474
10 seedream-4-fal 1118 13460

AI 大模型 图像处理 (Image Editing) 排名TOP10

排名 模型名称 得分 (Score) 票数 (Votes)
1 gemini-3-pro-image-preview (nano-banana-pro) 1371 6164
2 gemini-2.5-flash-image-preview (nano-banana) 1330 9157299
3 seedream-4-2k 1311 218951
4 seedream-4-high-res-fal 1250 474011
5 reve-v1 1234 218780
6 seedream-4-fal 1212 150173
7 qwen-image-edit 1202 1249826
8 reve-edit-fast 1201 62492
9 flux-1-kontext-max 1194 338591
10 flux-1-kontext-pro 1183 5773765

AI 大模型 文生视频 (Text-to-Video) 排名TOP10

排名 模型名称 得分 (Score) 票数 (Votes)
1 veo-3.1-audio 1382 4727
2 veo-3.1-fast-audio 1379 4854
3 veo-3-fast-audio 1366 22829
4 sora-2-pro 1359 4608
5 veo-3-audio 1344 16323
6 sora-2 1321 5095
7 veo-3-fast 1263 12488
8 veo-3 1255 12119
9 kling-2.5-turbo-1080p 1223 1734
10 ray-3 1208 1104

AI 大模型 图生视频 (Image-to-Video) 排名TOP10

排名 模型名称 得分 (Score) 票数 (Votes)
1 veo-3.1-audio 1396 9119
2 veo-3.1-fast-audio 1395 8964
3 wan2.5-i2v-preview 1341 2469
4 veo-3-audio 1333 27958
5 veo-3-fast-audio 1329 35806
6 kling-2.5-turbo-1080p 1277 2309
7 seedance-v1-pro 1275 30864
8 vidu-q2-turbo 1253 2201
9 veo-3 1247 21730
10 veo-3-fast 1241 21629

LMArena AI 大模型竞技场排名 介绍

LMArena(LMSYS Chatbot Arena)是一个开源的、社区驱动的平台,旨在通过实时和动态的环境评估大型语言模型(LLM)。该平台由 LMSYS 和加州大学伯克利分校 SkyLab 的成员开发,其使命是通过开放和社区驱动的评估来推动 LLM 的发展和理解。

不同于传统的静态基准测试,Chatbot Arena 采用众包方式,让用户在匿名状态下与两个不同的模型并排对话,并投票选出更好的回答。这种基于人类偏好的成对比较方法(Pairwise Comparison)能够更真实地反映模型在实际应用中的表现。平台使用 Elo 等级分系统(类似于国际象棋排名)来生成公正、透明的排行榜。

LMArena AI 大模型竞技场常见问题

什么是 LMArena (Chatbot Arena)?

LMArena 是一个众包平台,用户可以在其中并排与两个匿名的大语言模型(LLM)互动,并投票选出他们认为回答更好的模型。这些投票结果被汇总用于生成公开的 Elo 排名。

为什么要创建这个竞技场?

传统的 LLM 基准测试通常是静态的,容易受到数据污染(模型可能在测试数据上进行过训练)。Chatbot Arena 通过引入来自真实用户的持续、动态的提示流,提供了更真实、更具挑战性的评估环境。

评估过程是如何进行的?

用户输入一个提示,两个匿名模型同时生成回答。用户根据回答质量进行投票(如“模型 A 更好”、“模型 B 更好”或“平局”)。投票提交后,模型名称才会揭晓。

什么是 Elo 评分系统?

Elo 评分系统最初用于国际象棋排名。在 LMArena 中,它根据模型在成对“对战”中的胜负关系来计算相对技能水平。战胜强对手会获得更多分数,输给弱对手会扣除更多分数。

如何保证排名的公正性?

评估过程中模型是匿名的,防止品牌偏见。平台还使用算法过滤垃圾投票,并公开评估方法和部分数据集,以确保透明度和可重复性。

涵盖了哪些类型的模型?

竞技场评估了超过 90 种主流 LLM,包括商业模型(如 GPT-4, Claude 3, Gemini)和开源模型(如 Llama 3, Mistral, Qwen)。

什么是“Hard Prompts”类别?

这是专门针对复杂、高难度提示的分类。旨在识别能够处理需要深层领域知识、复杂推理和创造性解决问题能力的模型。

我可以参与投票吗?

是的,任何人都可以访问 chat.lmsys.org 参与投票。你的每一次真实投票都会直接影响模型的排名。

LMArena 的数据来源是什么?

数据完全来自社区用户的真实互动。平台已收集了数百万次用户参与和数十万次有效投票,构成了多样化且高质量的评估数据集。

排名更新频率如何?

由于是基于实时投票,排名会根据新的投票数据定期更新,确保反映模型最新的性能表现。