新建测评

选择测试集并确认运行参数,系统将使用默认设置执行测评

1

选择测试集

选择要运行的测试集

编辑测试集 ↗
用例数量-
来源文件-
格式YAML
更新时间-
2

本次运行

设置本次运行的基础参数,其余使用设置中心默认值

将使用以下默认设置 修改默认值 ↗
3

启动前校验

校验依赖服务与关键信息是否可用

测试集

查看、导入和整理可运行的评测用例

Case ID 问题 标准答案 标签 状态 操作
请选择测试集

任务队列

查看当前与历史测评运行

任务 ID Agent 状态 耗时(min) 进度 用例数 重复次数 创建时间 操作
第 1 / 1 页 · 共 0 条

运行详情

已完成 运行 - 遍
任务ID:-
失败会话链接
Agent 会话
Judge测评

选择任务后可下载报告

失败用例复核 0 个失败

报告

报告格式在下载时选择,运行时不做格式绑定

下载策略

从运行详情或失败复核进入下载弹窗,按需选择 JSON、Excel 或两者都下载,并选择全部用例或失败用例。

日志

查询运行过程、Agent 调用与 Judge 判定事件

时间 级别 来源 任务 ID Case ID 内容摘要 耗时

设置

管理本地评测运行的默认连接、规则与路径

Defaults

运行默认值

并发与重试
Agent 连接
Judge 连接
判定规则
操作