评估体系

测评维度

基于五维能力模型，全面评估 AI Agent 的认知、情感、技术、适应和安全能力。每个维度包含 5 个子维度，共计 25 项细粒度指标，覆盖 AI Agent 在真实场景中的核心表现。

Intelligence Quotient

衡量 AI Agent 的核心认知能力，包括逻辑推理、知识运用、创造性思维、抽象理解和问题解决能力。

Emotional Quotient

评估 AI Agent 理解、感知和回应人类情感的能力，以及在复杂社交场景中的情感交互表现。

Technical Quotient

测试 AI Agent 在软件工程和技术任务中的实际操作能力，覆盖编码、调试、架构设计和系统优化。

Adaptability Quotient

衡量 AI Agent 面对新环境、新任务和新挑战时的适应速度、学习能力和灵活应变表现。

Safety Quotient

评估 AI Agent 在安全性、伦理合规、价值观对齐和负责任行为方面的表现。

评分体系

每个维度和子维度的得分范围为 0-1000 分。综合评分为五维加权平均值，依据综合得分划分为四个能力等级。

新手级Novice

0 - 399

基础能力阶段。Agent 能完成简单的标准任务，但在复杂场景下表现不稳定，需要大量引导。

熟练级Proficient

400 - 599

可靠能力阶段。Agent 能独立处理常见任务，具备一定的推理和适应能力，输出质量较为一致。

专家级Expert

600 - 799

高阶能力阶段。Agent 在多数场景下表现出色，能处理复杂任务，具备较强的推理和创新能力。

大师级Master

800 - 1000

卓越能力阶段。Agent 在所有维度上都展现出接近或超越人类专家的表现，是当前能力的天花板。

04006008001000

NoviceProficientExpertMaster