OpenCompass司南 - AI导航网官网

OpenCompass（司南）是由上海人工智能实验室发布的开源大模型评测体系，目前已成为业界权威的大模型评估平台，涵盖学科、语言、知识、理解、推理等评测维度，可全面评估大模型的综合能力。

以下为2024年9月截取的图片，模型排名可能随着日期不同而不同，截图仅供参考，具体以网站内为准：

相关导航

FlagEval （天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。

Chatbot Arena LLM 排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的开源平台，用于通过人类偏好评估人工智能

是一个关于中文大模型能力评测的榜单仓库，涵盖 195 个商用及开源大模型，进行多维度能力评测（包括医疗、教育、法律等众多领域），有多种排行榜分类且记录详细更新信息。

让用户出题，安排AI模型回答，由用户选择评判，从而对大模型进行评分排名和产品介绍，帮助用户筛选合适模型

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

Hugging Face 推出新版开源大模型排行榜（Open LLM Leaderboard）

暂无评论...