LYi 林哥的大模型野榜 - AI导航网官网

这两年各种号称能超越 OpenAI 的大模型层出不穷。为找出最好用的大模型，作者搭建了一个大模型竞技场的网站，并免费开放，希望借助大家的力量做出更适合中国的第三方大模型产品排行榜。目前网站已开始运行，前期模型可能排名不太稳定

“大模型竞技场”的灵感源于LMSYS提出来的Chatbot Arena，聊天机器人竞技场。

测试原理是引入了 ELO 机制，让模型与模型对抗。具体为让两个大模型同时回答用户的一个问题，再由用户选择哪个模型回答得更好。用户出题、用户打分，题目灵活多变，评判标准更接近人的真实感受。

随后还介绍了大模型竞技场中的自动化决定和防作弊功能。通过小AI统计模型在不同维度下的表现，并减少简单重复性问题的影响。同时采用连坐方式防止模型泄露关键信息，保证竞技场的公平性。用户可通过网站进行大模型对抗赛和查看排名信息。

介绍视频：https://www.bilibili.com/video/BV1RS421972P/

相关导航

AGI-Eval评测社区，AI大模型评测社区

LiveBench 是一个针对大型语言模型（LLM）的权威基准测试平台，提供一个公平、客观且无污染的评测环境，以评估和比较不同 LLM 的性能

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

SuperBench是由清华大学基础模型研究中心联合中关村实验室在2024年共同发布的大模型综合能力评测榜单

Chatbot Arena LLM 排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的开源平台，用于通过人类偏好评估人工智能

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名，同时提供多能力维度的评分参考，以便用户能够更全面地了解大模型的能力水平。

暂无评论...