diff --git a/document/content/docs/introduction/guide/dashboard/evaluation.mdx b/document/content/docs/introduction/guide/dashboard/evaluation.mdx new file mode 100644 index 000000000..067d9c9b6 --- /dev/null +++ b/document/content/docs/introduction/guide/dashboard/evaluation.mdx @@ -0,0 +1,74 @@ +--- +title: '应用评测(Beta)' +description: '快速了解 FastGPT 应用评测功能' +--- + +FastGPT v4.11.0 版本开始支持应用批量评测功能。通过传入多组问答对,系统会对应用执行结果进行自动打分,实现应用运行效果的定量评估。 + +系统支持三种评估指标:回答准确性、问题相关性和语义准确性。当前测试版仅包含回答准确性这一个指标,其余指标将在后续版本中补充完善。 + +## 创建应用评测 + +### 进入评测页面 + +![创建应用评测](/imgs/evaluation1.png) + +进入工作台下的应用评测目录,点击右上角的"创建任务"按钮。 + +### 填写评测信息 + +![创建应用评测](/imgs/evaluation2.png) + +在创建任务页面中,需要填写以下信息: + +- **评测任务名**:任务的标识名称 +- **评测模型**:用于本次任务打分的模型 +- **评测应用**:需要被打分的应用 + +### 准备评测数据 + +![创建应用评测](/imgs/evaluation2.png) + +选择评测应用后,系统会弹出下载CSV模板的按钮。模板包含以下字段: + +- 全局变量 +- q(问题) +- a(标准答案) +- 历史记录 + +**注意事项:** + +- 最多支持1000组问答对 +- 请按照模板格式填写数据 + +填写完成后上传文件并点击"开始评测",即可创建一个应用评测任务 + +## 查看应用评测 + +### 评测列表 + +![查看应用评测](/imgs/evaluation4.png) + +评测列表页面显示所有评测任务,包含以下关键信息: + +- **进度**:当前评测任务的执行状态 +- **执行人**:创建评测任务的用户 +- **评测应用**:被评测的应用名称 +- **开始时间/结束时间**:评测任务的执行时间范围 +- **综合评分**:评测任务的整体得分 + +通过这些信息,可以清晰地比较每次应用改进后的效果。 + +### 评测详情 + +![查看应用评测](/imgs/evaluation5.png) + +点击"查看详情"可进入评测任务的详情页面: + +**任务概览**:页面顶部显示任务的整体信息,包括评测配置和统计结果。 + +**详细结果**:页面下方展示评测任务中的每一条问答对及其评分,可以查看: + +- 用户问题 +- 标准输出 +- 应用输出 diff --git a/document/content/docs/introduction/guide/dashboard/meta.json b/document/content/docs/introduction/guide/dashboard/meta.json index 26e51f74d..c23b1c1db 100644 --- a/document/content/docs/introduction/guide/dashboard/meta.json +++ b/document/content/docs/introduction/guide/dashboard/meta.json @@ -1,5 +1,5 @@ { "title": "工作台", "description": "FastGPT 工作台及工作流节点的使用说明", - "pages": ["basic-mode","intro","workflow","mcp_server","mcp_tools","gapier"] -} \ No newline at end of file + "pages": ["basic-mode", "intro", "workflow", "mcp_server", "mcp_tools", "gapier", "evaluation"] +} diff --git a/document/i18n.js b/document/i18n.js index 1e4c24eda..645029497 100644 --- a/document/i18n.js +++ b/document/i18n.js @@ -7,7 +7,7 @@ import { globby } from 'globby'; import pLimit from 'p-limit'; const API_URL = 'https://api.siliconflow.cn/v1/chat/completions'; -const API_KEY = 'sk-vuhtbufojlsnrqnivoscchhtjskhwwkybeemcdqqxebqhirg'; // 替换为你的密钥 +const API_KEY = ''; // 替换为你的密钥 const MODEL_NAME = 'Qwen/QwQ-32B'; const limit = pLimit(2); // 限制并发翻译数量 diff --git a/document/public/imgs/evaluation1.png b/document/public/imgs/evaluation1.png new file mode 100644 index 000000000..155042889 Binary files /dev/null and b/document/public/imgs/evaluation1.png differ diff --git a/document/public/imgs/evaluation2.png b/document/public/imgs/evaluation2.png new file mode 100644 index 000000000..b98b4be3d Binary files /dev/null and b/document/public/imgs/evaluation2.png differ diff --git a/document/public/imgs/evaluation3.png b/document/public/imgs/evaluation3.png new file mode 100644 index 000000000..2e7311fe0 Binary files /dev/null and b/document/public/imgs/evaluation3.png differ diff --git a/document/public/imgs/evaluation4.png b/document/public/imgs/evaluation4.png new file mode 100644 index 000000000..a411e9520 Binary files /dev/null and b/document/public/imgs/evaluation4.png differ diff --git a/document/public/imgs/evaluation5.png b/document/public/imgs/evaluation5.png new file mode 100644 index 000000000..191c791e0 Binary files /dev/null and b/document/public/imgs/evaluation5.png differ