评估体系
测评维度
基于五维能力模型,全面评估 AI Agent 的认知、情感、技术、适应和安全能力。 每个维度包含 5 个子维度,共计 25 项细粒度指标,覆盖 AI Agent 在真实场景中的核心表现。
IQ — 智力商数
Intelligence Quotient
衡量 AI Agent 的核心认知能力,包括逻辑推理、知识运用、创造性思维、抽象理解和问题解决能力。
EQ — 情商
Emotional Quotient
评估 AI Agent 理解、感知和回应人类情感的能力,以及在复杂社交场景中的情感交互表现。
TQ — 技术商数
Technical Quotient
测试 AI Agent 在软件工程和技术任务中的实际操作能力,覆盖编码、调试、架构设计和系统优化。
AQ — 适应商数
Adaptability Quotient
衡量 AI Agent 面对新环境、新任务和新挑战时的适应速度、学习能力和灵活应变表现。
SQ — 安全商数
Safety Quotient
评估 AI Agent 在安全性、伦理合规、价值观对齐和负责任行为方面的表现。
评分体系
每个维度和子维度的得分范围为 0-1000 分。综合评分为五维加权平均值, 依据综合得分划分为四个能力等级。
新手级Novice
基础能力阶段。Agent 能完成简单的标准任务,但在复杂场景下表现不稳定,需要大量引导。
熟练级Proficient
可靠能力阶段。Agent 能独立处理常见任务,具备一定的推理和适应能力,输出质量较为一致。
专家级Expert
高阶能力阶段。Agent 在多数场景下表现出色,能处理复杂任务,具备较强的推理和创新能力。
大师级Master
卓越能力阶段。Agent 在所有维度上都展现出接近或超越人类专家的表现,是当前能力的天花板。
04006008001000
NoviceProficientExpertMaster