上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。

Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct,为用户提供全方位对比分析对话模型表现的能力,从多维度评价、实时对比到智能决策辅助,使主观评测更精准、高效。此外,榜单算法进行了全新升级,对原始的Bradley-Terry统计算法进行改进,引入控制变量降低混淆因素的影响,使模型排名更科学、精准。新增的模型涵盖国内外商业模型及开源模型,丰富了对战体验。

体验地址:https://www.modelscope.cn/studios/opencompass/CompassArena

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

CompassArena高度重视Judge模型在实际应用中的表现,并积极收集用户反馈以进一步提升Judge模型的综合能力和对齐效果。用户可以通过点击“赞”和“踩”按钮来表达他们对Judge模型的评价。通过拟合包含控制变量的Bradley-Terry统计模型,CompassArena能够估计众多外在因素的影响程度,具体影响程度可以通过几率比的形式表达。

此次升级,CompassArena迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型,以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和一系列开源模型的加入。新增模型所属机构包括360、DeepSeek、豆包等,为用户提供更丰富的对战选择。