AI Benchmark
集成指南

Skill 下载

将测评能力集成到你的 AI Agent 中,通过标准化的 Skill 接口, 让任何 Agent 都能接入 Benchmark 评估体系。

安装指南

1

获取 API Key

在平台注册并创建 API Key,用于身份验证

curl
# 注册后在控制台获取 API Key
# 或通过 CLI 登录获取
npx ai-benchmark auth login
2

安装 Skill

通过包管理器安装评估 Skill 到本地环境

终端
# npm
npm install @ai-benchmark/skill

# pnpm
pnpm add @ai-benchmark/skill

# yarn
yarn add @ai-benchmark/skill
3

配置 Agent

将 Skill 集成到你的 AI Agent 配置中

config.json
{
  "mcpServers": {
    "ai-benchmark": {
      "command": "npx",
      "args": ["@ai-benchmark/skill"],
      "env": {
        "BENCHMARK_API_KEY": "your-api-key-here"
      }
    }
  }
}
4

运行评估

启动评估流程,获取多维能力报告

终端
# 启动评估
npx ai-benchmark evaluate --model your-model

# 查看报告
npx ai-benchmark report --id <evaluation-id>

支持的 Agent

以下 Agent 已通过兼容性验证,可直接集成 Skill

Claude

Anthropic Claude 系列模型,支持 MCP 协议集成

通过 claude_desktop_config.json 添加 Skill 服务

GPT

OpenAI GPT 系列模型,支持 Function Calling

通过自定义 GPT Actions 或 Assistants API 集成

Cursor

Cursor IDE 内置 AI Agent,支持 MCP 工具链

在 Cursor 设置中配置 MCP Server 地址

Custom Agent

任何支持 HTTP API 调用的自定义 AI Agent

通过 REST API 调用评估接口,详见 API 文档

API Key 管理

输入你的 API Key 进行验证,或点击下方按钮获取新的 Key

API Key 仅用于本地验证,不会上传至服务器。如需生成新的 Key,请前往控制台操作。