排名	模型名称	得分 (Score)	票数 (Votes)
1	gemini-3-pro	1492	9799
2	grok-4.1-thinking	1482	10067
3	claude-opus-4-5-20251101	1466	4677
4	grok-4.1	1464	9967
5	gpt-5.1-high	1461	7893
6	claude-opus-4-5-20251101-thinking-32k	1460	2763
7	gemini-2.5-pro	1452	70875
8	claude-sonnet-4-5-20250929-thinking-32k	1448	22000
9	claude-opus-4-1-20250805-thinking-16k	1448	37617
10	claude-sonnet-4-5-20250929	1445	16961

AI 大模型 Web 开发 (Web Dev) 排名TOP10

排名	模型名称	得分 (Score)	票数 (Votes)
1	claude-opus-4-5-20251101-thinking-32k	1493	1109
2	claude-opus-4-5-20251101	1479	1421
3	gemini-3-pro	1473	6037
4	gpt-5-medium	1399	3937
5	claude-sonnet-4-5-20250929-thinking-32k	1397	5376
6	gpt-5.1-medium	1395	2431
7	claude-opus-4-1-20250805	1393	5204
8	claude-sonnet-4-5-20250929	1387	6422
9	glm-4.6	1370	5035
10	kimi-k2-thinking-turbo	1358	4258

AI 大模型视觉理解 (Vision) 排名TOP10

排名	模型名称	得分 (Score)	票数 (Votes)
1	gemini-3-pro	1324	2969
2	gemini-2.5-pro	1249	64806
3	chatgpt-4o-latest-20250326	1237	16494
4	gpt-4.5-preview-2025-02-27	1226	2925
5	gemini-2.5-flash-preview-09-2025	1225	4037
6	gpt-5-chat	1222	37598
7	o3-2025-04-16	1219	44441
8	gpt-4.1-2025-04-14	1216	40504
9	gemini-2.5-flash	1214	39523
10	claude-opus-4-20250514-thinking-16k	1210	1419

AI 大模型文生图 (Text-to-Image) 排名TOP10

排名	模型名称	得分 (Score)	票数 (Votes)
1	gemini-3-pro-image-preview (nano-banana-pro)	1242	3720
2	hunyuan-image-3.0	1161	57245
3	gemini-2.5-flash-image-preview (nano-banana)	1158	579254
4	seedream-4-2k	1144	14507
5	imagen-4.0-ultra-generate-preview-06-06	1143	478685
6	imagen-4.0-generate-preview-06-06	1130	479234
7	seedream-4-high-res-fal	1127	47180
8	wan2.5-t2i-preview	1124	5642
9	gpt-image-1	1121	228474
10	seedream-4-fal	1118	13460

AI 大模型图像处理 (Image Editing) 排名TOP10

排名	模型名称	得分 (Score)	票数 (Votes)
1	gemini-3-pro-image-preview (nano-banana-pro)	1371	6164
2	gemini-2.5-flash-image-preview (nano-banana)	1330	9157299
3	seedream-4-2k	1311	218951
4	seedream-4-high-res-fal	1250	474011
5	reve-v1	1234	218780
6	seedream-4-fal	1212	150173
7	qwen-image-edit	1202	1249826
8	reve-edit-fast	1201	62492
9	flux-1-kontext-max	1194	338591
10	flux-1-kontext-pro	1183	5773765

AI 大模型搜索 (Search) 排名TOP10

排名	模型名称	得分 (Score)	票数 (Votes)
1	grok-4-fast-search	1166	14957
2	ppl-sonar-pro-high	1149	18453
3	gemini-2.5-pro-grounding	1142	19350
4	o3-search	1142	19254
5	grok-4-search	1141	18132
6	gpt-5-search	1132	18997
7	claude-opus-4-1-search	1132	19123
8	claude-opus-4-search	1130	19344
9	ppl-sonar-reasoning-pro-high	1127	18881
10	diffbot-small-xl	1023	6433

AI 大模型文生视频 (Text-to-Video) 排名TOP10

排名	模型名称	得分 (Score)	票数 (Votes)
1	veo-3.1-audio	1382	4727
2	veo-3.1-fast-audio	1379	4854
3	veo-3-fast-audio	1366	22829
4	sora-2-pro	1359	4608
5	veo-3-audio	1344	16323
6	sora-2	1321	5095
7	veo-3-fast	1263	12488
8	veo-3	1255	12119
9	kling-2.5-turbo-1080p	1223	1734
10	ray-3	1208	1104

AI 大模型图生视频 (Image-to-Video) 排名TOP10

排名	模型名称	得分 (Score)	票数 (Votes)
1	veo-3.1-audio	1396	9119
2	veo-3.1-fast-audio	1395	8964
3	wan2.5-i2v-preview	1341	2469
4	veo-3-audio	1333	27958
5	veo-3-fast-audio	1329	35806
6	kling-2.5-turbo-1080p	1277	2309
7	seedance-v1-pro	1275	30864
8	vidu-q2-turbo	1253	2201
9	veo-3	1247	21730
10	veo-3-fast	1241	21629

LMArena AI 大模型竞技场排名介绍

LMArena（LMSYS Chatbot Arena）是一个开源的、社区驱动的平台，旨在通过实时和动态的环境评估大型语言模型（LLM）。该平台由 LMSYS 和加州大学伯克利分校 SkyLab 的成员开发，其使命是通过开放和社区驱动的评估来推动 LLM 的发展和理解。

不同于传统的静态基准测试，Chatbot Arena 采用众包方式，让用户在匿名状态下与两个不同的模型并排对话，并投票选出更好的回答。这种基于人类偏好的成对比较方法（Pairwise Comparison）能够更真实地反映模型在实际应用中的表现。平台使用 Elo 等级分系统（类似于国际象棋排名）来生成公正、透明的排行榜。

LMArena AI 大模型竞技场常见问题

什么是 LMArena (Chatbot Arena)？

LMArena 是一个众包平台，用户可以在其中并排与两个匿名的大语言模型（LLM）互动，并投票选出他们认为回答更好的模型。这些投票结果被汇总用于生成公开的 Elo 排名。

为什么要创建这个竞技场？

传统的 LLM 基准测试通常是静态的，容易受到数据污染（模型可能在测试数据上进行过训练）。Chatbot Arena 通过引入来自真实用户的持续、动态的提示流，提供了更真实、更具挑战性的评估环境。

评估过程是如何进行的？

用户输入一个提示，两个匿名模型同时生成回答。用户根据回答质量进行投票（如“模型 A 更好”、“模型 B 更好”或“平局”）。投票提交后，模型名称才会揭晓。

什么是 Elo 评分系统？

Elo 评分系统最初用于国际象棋排名。在 LMArena 中，它根据模型在成对“对战”中的胜负关系来计算相对技能水平。战胜强对手会获得更多分数，输给弱对手会扣除更多分数。

如何保证排名的公正性？

评估过程中模型是匿名的，防止品牌偏见。平台还使用算法过滤垃圾投票，并公开评估方法和部分数据集，以确保透明度和可重复性。

涵盖了哪些类型的模型？

竞技场评估了超过 90 种主流 LLM，包括商业模型（如 GPT-4, Claude 3, Gemini）和开源模型（如 Llama 3, Mistral, Qwen）。

什么是“Hard Prompts”类别？

这是专门针对复杂、高难度提示的分类。旨在识别能够处理需要深层领域知识、复杂推理和创造性解决问题能力的模型。

我可以参与投票吗？

是的，任何人都可以访问 chat.lmsys.org 参与投票。你的每一次真实投票都会直接影响模型的排名。

LMArena 的数据来源是什么？

数据完全来自社区用户的真实互动。平台已收集了数百万次用户参与和数十万次有效投票，构成了多样化且高质量的评估数据集。

排名更新频率如何？

由于是基于实时投票，排名会根据新的投票数据定期更新，确保反映模型最新的性能表现。

硬件参数对比

新热游戏配置查询

游戏破解状态查询

无广 Bing 壁纸

宝藏工具

AI大模型排名榜单 LMArena AI 大模型竞技场排名

AI 大模型文本生成 (Text) 排名TOP10

AI 大模型 Web 开发 (Web Dev) 排名TOP10

AI 大模型视觉理解 (Vision) 排名TOP10

AI 大模型文生图 (Text-to-Image) 排名TOP10

AI 大模型图像处理 (Image Editing) 排名TOP10

AI 大模型搜索 (Search) 排名TOP10

AI 大模型文生视频 (Text-to-Video) 排名TOP10

AI 大模型图生视频 (Image-to-Video) 排名TOP10

LMArena AI 大模型竞技场排名介绍

LMArena AI 大模型竞技场常见问题

什么是 LMArena (Chatbot Arena)？

为什么要创建这个竞技场？

评估过程是如何进行的？

什么是 Elo 评分系统？

如何保证排名的公正性？

涵盖了哪些类型的模型？

什么是“Hard Prompts”类别？

我可以参与投票吗？

LMArena 的数据来源是什么？

排名更新频率如何？

最近页面

最新文章

搜索

硬件参数对比

新热游戏配置查询

游戏破解状态查询

无广 Bing 壁纸

宝藏工具

AI大模型排名榜单 LMArena AI 大模型竞技场排名

AI 大模型 文本生成 (Text) 排名TOP10

AI 大模型 Web 开发 (Web Dev) 排名TOP10

AI 大模型 视觉理解 (Vision) 排名TOP10

AI 大模型 文生图 (Text-to-Image) 排名TOP10

AI 大模型 图像处理 (Image Editing) 排名TOP10

AI 大模型 搜索 (Search) 排名TOP10

AI 大模型 文生视频 (Text-to-Video) 排名TOP10

AI 大模型 图生视频 (Image-to-Video) 排名TOP10

LMArena AI 大模型竞技场排名 介绍

LMArena AI 大模型竞技场常见问题

什么是 LMArena (Chatbot Arena)？

为什么要创建这个竞技场？

评估过程是如何进行的？

什么是 Elo 评分系统？

如何保证排名的公正性？

涵盖了哪些类型的模型？

什么是“Hard Prompts”类别？

我可以参与投票吗？

LMArena 的数据来源是什么？

排名更新频率如何？

最近页面

最新文章

AI 大模型文本生成 (Text) 排名TOP10

AI 大模型视觉理解 (Vision) 排名TOP10

AI 大模型文生图 (Text-to-Image) 排名TOP10

AI 大模型图像处理 (Image Editing) 排名TOP10

AI 大模型搜索 (Search) 排名TOP10

AI 大模型文生视频 (Text-to-Video) 排名TOP10

AI 大模型图生视频 (Image-to-Video) 排名TOP10

LMArena AI 大模型竞技场排名介绍