AI大模型排名榜单 LMArena AI 大模型竞技场排名
LMArena由加州大学伯克利分校的研究人员创建,是一个开放平台,任何人都可以轻松访问、探索和使用世界领先的 AI 模型。通过并排比较模型并投票选出最佳模型,社区成员共同构建了一个公开排行榜,使 AI 的发展更加透明,并更加贴近实际应用。
AI 大模型 文本生成 (Text) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | gemini-3-pro | 1492 | 9799 |
| 2 | grok-4.1-thinking | 1482 | 10067 |
| 3 | claude-opus-4-5-20251101 | 1466 | 4677 |
| 4 | grok-4.1 | 1464 | 9967 |
| 5 | gpt-5.1-high | 1461 | 7893 |
| 6 | claude-opus-4-5-20251101-thinking-32k | 1460 | 2763 |
| 7 | gemini-2.5-pro | 1452 | 70875 |
| 8 | claude-sonnet-4-5-20250929-thinking-32k | 1448 | 22000 |
| 9 | claude-opus-4-1-20250805-thinking-16k | 1448 | 37617 |
| 10 | claude-sonnet-4-5-20250929 | 1445 | 16961 |
AI 大模型 Web 开发 (Web Dev) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | claude-opus-4-5-20251101-thinking-32k | 1493 | 1109 |
| 2 | claude-opus-4-5-20251101 | 1479 | 1421 |
| 3 | gemini-3-pro | 1473 | 6037 |
| 4 | gpt-5-medium | 1399 | 3937 |
| 5 | claude-sonnet-4-5-20250929-thinking-32k | 1397 | 5376 |
| 6 | gpt-5.1-medium | 1395 | 2431 |
| 7 | claude-opus-4-1-20250805 | 1393 | 5204 |
| 8 | claude-sonnet-4-5-20250929 | 1387 | 6422 |
| 9 | glm-4.6 | 1370 | 5035 |
| 10 | kimi-k2-thinking-turbo | 1358 | 4258 |
AI 大模型 视觉理解 (Vision) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | gemini-3-pro | 1324 | 2969 |
| 2 | gemini-2.5-pro | 1249 | 64806 |
| 3 | chatgpt-4o-latest-20250326 | 1237 | 16494 |
| 4 | gpt-4.5-preview-2025-02-27 | 1226 | 2925 |
| 5 | gemini-2.5-flash-preview-09-2025 | 1225 | 4037 |
| 6 | gpt-5-chat | 1222 | 37598 |
| 7 | o3-2025-04-16 | 1219 | 44441 |
| 8 | gpt-4.1-2025-04-14 | 1216 | 40504 |
| 9 | gemini-2.5-flash | 1214 | 39523 |
| 10 | claude-opus-4-20250514-thinking-16k | 1210 | 1419 |
AI 大模型 文生图 (Text-to-Image) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | gemini-3-pro-image-preview (nano-banana-pro) | 1242 | 3720 |
| 2 | hunyuan-image-3.0 | 1161 | 57245 |
| 3 | gemini-2.5-flash-image-preview (nano-banana) | 1158 | 579254 |
| 4 | seedream-4-2k | 1144 | 14507 |
| 5 | imagen-4.0-ultra-generate-preview-06-06 | 1143 | 478685 |
| 6 | imagen-4.0-generate-preview-06-06 | 1130 | 479234 |
| 7 | seedream-4-high-res-fal | 1127 | 47180 |
| 8 | wan2.5-t2i-preview | 1124 | 5642 |
| 9 | gpt-image-1 | 1121 | 228474 |
| 10 | seedream-4-fal | 1118 | 13460 |
AI 大模型 图像处理 (Image Editing) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | gemini-3-pro-image-preview (nano-banana-pro) | 1371 | 6164 |
| 2 | gemini-2.5-flash-image-preview (nano-banana) | 1330 | 9157299 |
| 3 | seedream-4-2k | 1311 | 218951 |
| 4 | seedream-4-high-res-fal | 1250 | 474011 |
| 5 | reve-v1 | 1234 | 218780 |
| 6 | seedream-4-fal | 1212 | 150173 |
| 7 | qwen-image-edit | 1202 | 1249826 |
| 8 | reve-edit-fast | 1201 | 62492 |
| 9 | flux-1-kontext-max | 1194 | 338591 |
| 10 | flux-1-kontext-pro | 1183 | 5773765 |
AI 大模型 搜索 (Search) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | grok-4-fast-search | 1166 | 14957 |
| 2 | ppl-sonar-pro-high | 1149 | 18453 |
| 3 | gemini-2.5-pro-grounding | 1142 | 19350 |
| 4 | o3-search | 1142 | 19254 |
| 5 | grok-4-search | 1141 | 18132 |
| 6 | gpt-5-search | 1132 | 18997 |
| 7 | claude-opus-4-1-search | 1132 | 19123 |
| 8 | claude-opus-4-search | 1130 | 19344 |
| 9 | ppl-sonar-reasoning-pro-high | 1127 | 18881 |
| 10 | diffbot-small-xl | 1023 | 6433 |
AI 大模型 文生视频 (Text-to-Video) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | veo-3.1-audio | 1382 | 4727 |
| 2 | veo-3.1-fast-audio | 1379 | 4854 |
| 3 | veo-3-fast-audio | 1366 | 22829 |
| 4 | sora-2-pro | 1359 | 4608 |
| 5 | veo-3-audio | 1344 | 16323 |
| 6 | sora-2 | 1321 | 5095 |
| 7 | veo-3-fast | 1263 | 12488 |
| 8 | veo-3 | 1255 | 12119 |
| 9 | kling-2.5-turbo-1080p | 1223 | 1734 |
| 10 | ray-3 | 1208 | 1104 |
AI 大模型 图生视频 (Image-to-Video) 排名TOP10
| 排名 | 模型名称 | 得分 (Score) | 票数 (Votes) |
|---|---|---|---|
| 1 | veo-3.1-audio | 1396 | 9119 |
| 2 | veo-3.1-fast-audio | 1395 | 8964 |
| 3 | wan2.5-i2v-preview | 1341 | 2469 |
| 4 | veo-3-audio | 1333 | 27958 |
| 5 | veo-3-fast-audio | 1329 | 35806 |
| 6 | kling-2.5-turbo-1080p | 1277 | 2309 |
| 7 | seedance-v1-pro | 1275 | 30864 |
| 8 | vidu-q2-turbo | 1253 | 2201 |
| 9 | veo-3 | 1247 | 21730 |
| 10 | veo-3-fast | 1241 | 21629 |
LMArena AI 大模型竞技场排名 介绍
LMArena(LMSYS Chatbot Arena)是一个开源的、社区驱动的平台,旨在通过实时和动态的环境评估大型语言模型(LLM)。该平台由 LMSYS 和加州大学伯克利分校 SkyLab 的成员开发,其使命是通过开放和社区驱动的评估来推动 LLM 的发展和理解。
不同于传统的静态基准测试,Chatbot Arena 采用众包方式,让用户在匿名状态下与两个不同的模型并排对话,并投票选出更好的回答。这种基于人类偏好的成对比较方法(Pairwise Comparison)能够更真实地反映模型在实际应用中的表现。平台使用 Elo 等级分系统(类似于国际象棋排名)来生成公正、透明的排行榜。
LMArena AI 大模型竞技场常见问题
什么是 LMArena (Chatbot Arena)?
LMArena 是一个众包平台,用户可以在其中并排与两个匿名的大语言模型(LLM)互动,并投票选出他们认为回答更好的模型。这些投票结果被汇总用于生成公开的 Elo 排名。
为什么要创建这个竞技场?
传统的 LLM 基准测试通常是静态的,容易受到数据污染(模型可能在测试数据上进行过训练)。Chatbot Arena 通过引入来自真实用户的持续、动态的提示流,提供了更真实、更具挑战性的评估环境。
评估过程是如何进行的?
用户输入一个提示,两个匿名模型同时生成回答。用户根据回答质量进行投票(如“模型 A 更好”、“模型 B 更好”或“平局”)。投票提交后,模型名称才会揭晓。
什么是 Elo 评分系统?
Elo 评分系统最初用于国际象棋排名。在 LMArena 中,它根据模型在成对“对战”中的胜负关系来计算相对技能水平。战胜强对手会获得更多分数,输给弱对手会扣除更多分数。
如何保证排名的公正性?
评估过程中模型是匿名的,防止品牌偏见。平台还使用算法过滤垃圾投票,并公开评估方法和部分数据集,以确保透明度和可重复性。
涵盖了哪些类型的模型?
竞技场评估了超过 90 种主流 LLM,包括商业模型(如 GPT-4, Claude 3, Gemini)和开源模型(如 Llama 3, Mistral, Qwen)。
什么是“Hard Prompts”类别?
这是专门针对复杂、高难度提示的分类。旨在识别能够处理需要深层领域知识、复杂推理和创造性解决问题能力的模型。
我可以参与投票吗?
是的,任何人都可以访问 chat.lmsys.org 参与投票。你的每一次真实投票都会直接影响模型的排名。
LMArena 的数据来源是什么?
数据完全来自社区用户的真实互动。平台已收集了数百万次用户参与和数十万次有效投票,构成了多样化且高质量的评估数据集。
排名更新频率如何?
由于是基于实时投票,排名会根据新的投票数据定期更新,确保反映模型最新的性能表现。