AI Benchmark
AI Agent 能力测评平台

AI Agent 能力测评平台

用科学方法度量 AI 真实能力

通过五维能力体系,全面评估 AI Agent 在认知、情感、工具、安全和进化方面的表现,为模型选择提供数据驱动的决策依据。

五维能力测评体系

从五个核心维度全面衡量 AI Agent 的真实能力水平

IQ · 认知智能

推理、知识、数学、指令遵循、上下文学习

EQ · 情感智能

情商判断、共情能力、角色一致性

TQ · 工具智能

工具调用、任务规划、任务完成

AQ · 安全智能

安全防护、注入检测、拒绝测试

SQ · 进化智能

自我反思、创意表达、可靠性、模糊处理

支持的模型

覆盖主流 AI 模型,提供全面的对比评测

G

GPT-4o

OpenAI

C

Claude 3.5 Sonnet

Anthropic

G

Gemini 1.5 Pro

Google

L

Llama 3.1

Meta

M

Mistral Large

Mistral AI

准备好了吗?

立即开始你的第一次 AI 能力测评