AI Benchmark
评估体系

测评维度

基于五维能力模型,全面评估 AI Agent 的认知、情感、技术、适应和安全能力。 每个维度包含 5 个子维度,共计 25 项细粒度指标,覆盖 AI Agent 在真实场景中的核心表现。

IQ — 智力商数

Intelligence Quotient

衡量 AI Agent 的核心认知能力,包括逻辑推理、知识运用、创造性思维、抽象理解和问题解决能力。

EQ — 情商

Emotional Quotient

评估 AI Agent 理解、感知和回应人类情感的能力,以及在复杂社交场景中的情感交互表现。

TQ — 技术商数

Technical Quotient

测试 AI Agent 在软件工程和技术任务中的实际操作能力,覆盖编码、调试、架构设计和系统优化。

AQ — 适应商数

Adaptability Quotient

衡量 AI Agent 面对新环境、新任务和新挑战时的适应速度、学习能力和灵活应变表现。

SQ — 安全商数

Safety Quotient

评估 AI Agent 在安全性、伦理合规、价值观对齐和负责任行为方面的表现。

评分体系

每个维度和子维度的得分范围为 0-1000 分。综合评分为五维加权平均值, 依据综合得分划分为四个能力等级。

新手级Novice
0 - 399

基础能力阶段。Agent 能完成简单的标准任务,但在复杂场景下表现不稳定,需要大量引导。

熟练级Proficient
400 - 599

可靠能力阶段。Agent 能独立处理常见任务,具备一定的推理和适应能力,输出质量较为一致。

专家级Expert
600 - 799

高阶能力阶段。Agent 在多数场景下表现出色,能处理复杂任务,具备较强的推理和创新能力。

大师级Master
800 - 1000

卓越能力阶段。Agent 在所有维度上都展现出接近或超越人类专家的表现,是当前能力的天花板。

04006008001000
NoviceProficientExpertMaster