大模型 6 维能力雷达图

数据来源:后端 API 实时加载…

选择要对比的模型(多选,建议2-4个)
加载中…

叠合雷达图(已选模型并排对比)

各模型独立雷达图

选择模型后显示…

6维度评分表 + 数据来源

模型 推理 编程 知识 数学 多语言 多模态 数据来源

评分方法论

推理:ARC-AGI-2 · HLE · GPQA Diamond · LongBench v2

编程:SWE-bench Pro · LiveCodeBench · Terminal-Bench 2.0

知识:MMLU-Pro · HLE · SimpleQA · FrontierScience

数学:AIME 2025 · FrontierMath · MATH-500

多语言:MMLU-ProX · MGSM(含中文场景评测)

多模态:MMMU-Pro · OfficeQA Pro · 视觉分辨率

注:标注"部分估算"的维度为该模型在 BenchLM 类别中数据缺失,基于 LLM Stats 及同类模型推算。