新建测评
选择测试集并确认运行参数,系统将使用默认设置执行测评
1
编辑测试集 ↗
选择测试集
选择要运行的测试集
2
3
启动前校验
校验依赖服务与关键信息是否可用
测试集
查看、导入和整理可运行的评测用例
| Case ID | 问题 | 标准答案 | 标签 | 状态 | 操作 | |
|---|---|---|---|---|---|---|
| 请选择测试集 | ||||||
任务队列
查看当前与历史测评运行
| 任务 ID | Agent | 状态 | 耗时(min) | 进度 | 用例数 | 重复次数 | 创建时间 | 操作 |
|---|
第 1 / 1 页 · 共 0 条
运行详情
已完成
失败会话链接
Agent 会话
Judge测评
选择任务后可下载报告
失败用例复核 0 个失败
报告
报告格式在下载时选择,运行时不做格式绑定
下载策略
从运行详情或失败复核进入下载弹窗,按需选择 JSON、Excel 或两者都下载,并选择全部用例或失败用例。
日志
查询运行过程、Agent 调用与 Judge 判定事件
| 时间 | 级别 | 来源 | 任务 ID | Case ID | 内容摘要 | 耗时 |
|---|
设置
管理本地评测运行的默认连接、规则与路径
Defaults
运行默认值
并发与重试
Agent 连接
Judge 连接
判定规则
操作