首页/💬 AI对话/Leaderboard by lmsys.org

Leaderboard by lmsys.org

Leaderboard by lmsys.org

LLM竞技场排行榜，基于真实用户投票的AI模型评测

分类

价格

付费 / 免费增值

官网

chat.lmsys.org/?leaderboard

产品介绍

Chatbot Arena Leaderboard是由LMSYS组织维护的大语言模型排行榜，通过真实用户的盲测投票评估AI模型性能。这是目前最权威、最客观的LLM评测平台之一，被AI社区广泛认可。

核心特点：

盲测评估：用户同时与两个匿名AI对话，选择更好的回答
Elo评分系统：类似国际象棋评分，动态更新模型排名
真实场景：基于用户实际使用场景的问题和反馈
多维度评测：编程、数学、推理、写作等分类排名
持续更新：每天更新排名，新模型即时加入

意义和价值：相比传统基准测试，Chatbot Arena更接近真实使用场景。许多AI公司将Arena排名作为模型性能的重要指标。排行榜记录了AI模型的进化历程，见证了从GPT-4到Claude、Gemini、DeepSeek等模型的竞争。

适用场景：AI研究人员、开发者、用户可以通过排行榜了解最新最强的AI模型，帮助选择合适的模型使用或集成。

同类推荐

AI新闻动态

AI领域最新动态和技术资讯集合

《GPT-4 ，通用人工智能的火花》论文内容精选与翻译

《GPT-4 ，通用人工智能的火花》论文内容精选与翻译

微软研究院GPT-4早期评测论文的中文精选翻译

Evals by MosaicML

MosaicML的AI模型评测工具，开源评测框架

Holistic Evaluation of Language Models (HELM)

Holistic Evaluation of Language Models (HELM)

斯坦福HELM评测体系，全面评估语言模型多维度能力

LLM-Leaderboard

AI模型排行榜，综合比较各类大语言模型

TextSynth Server Benchmarks

TextSynth Server Benchmarks

AI模型推理性能基准测试，评估服务器效率

Open LLM Leaderboard by Hugging Face

Open LLM Leaderboard by Hugging Face

Hugging Face的开源模型排行榜，评测开源AI性能

Apache 2.0

Apache 2.0

Allows users to use the software for any