集成指南
Skill 下载
将测评能力集成到你的 AI Agent 中,通过标准化的 Skill 接口, 让任何 Agent 都能接入 Benchmark 评估体系。
安装指南
1
获取 API Key
在平台注册并创建 API Key,用于身份验证
curl
# 注册后在控制台获取 API Key
# 或通过 CLI 登录获取
npx ai-benchmark auth login2
安装 Skill
通过包管理器安装评估 Skill 到本地环境
终端
# npm
npm install @ai-benchmark/skill
# pnpm
pnpm add @ai-benchmark/skill
# yarn
yarn add @ai-benchmark/skill3
配置 Agent
将 Skill 集成到你的 AI Agent 配置中
config.json
{
"mcpServers": {
"ai-benchmark": {
"command": "npx",
"args": ["@ai-benchmark/skill"],
"env": {
"BENCHMARK_API_KEY": "your-api-key-here"
}
}
}
}4
运行评估
启动评估流程,获取多维能力报告
终端
# 启动评估
npx ai-benchmark evaluate --model your-model
# 查看报告
npx ai-benchmark report --id <evaluation-id>支持的 Agent
以下 Agent 已通过兼容性验证,可直接集成 Skill
Claude
Anthropic Claude 系列模型,支持 MCP 协议集成
通过 claude_desktop_config.json 添加 Skill 服务
GPT
OpenAI GPT 系列模型,支持 Function Calling
通过自定义 GPT Actions 或 Assistants API 集成
Cursor
Cursor IDE 内置 AI Agent,支持 MCP 工具链
在 Cursor 设置中配置 MCP Server 地址
Custom Agent
任何支持 HTTP API 调用的自定义 AI Agent
通过 REST API 调用评估接口,详见 API 文档
API Key 管理
输入你的 API Key 进行验证,或点击下方按钮获取新的 Key
API Key 仅用于本地验证,不会上传至服务器。如需生成新的 Key,请前往控制台操作。