数据来源:后端 API 实时加载…
| 模型 | 推理 | 编程 | 知识 | 数学 | 多语言 | 多模态 | 数据来源 |
|---|
推理:ARC-AGI-2 · HLE · GPQA Diamond · LongBench v2
编程:SWE-bench Pro · LiveCodeBench · Terminal-Bench 2.0
知识:MMLU-Pro · HLE · SimpleQA · FrontierScience
数学:AIME 2025 · FrontierMath · MATH-500
多语言:MMLU-ProX · MGSM(含中文场景评测)
多模态:MMMU-Pro · OfficeQA Pro · 视觉分辨率
注:标注"部分估算"的维度为该模型在 BenchLM 类别中数据缺失,基于 LLM Stats 及同类模型推算。