大模型 6 维能力雷达图

数据来源：后端 API 实时加载…

选择要对比的模型（多选，建议2-4个）

加载中…

叠合雷达图（已选模型并排对比）

选择模型后显示…

模型	推理	编程	知识	数学	多语言	多模态	数据来源

推理：ARC-AGI-2 · HLE · GPQA Diamond · LongBench v2

编程：SWE-bench Pro · LiveCodeBench · Terminal-Bench 2.0

知识：MMLU-Pro · HLE · SimpleQA · FrontierScience

数学：AIME 2025 · FrontierMath · MATH-500

多语言：MMLU-ProX · MGSM（含中文场景评测）

多模态：MMMU-Pro · OfficeQA Pro · 视觉分辨率

注：标注"部分估算"的维度为该模型在 BenchLM 类别中数据缺失，基于 LLM Stats 及同类模型推算。