自动评估

Lighthouse 的 LLM 可观测模块的自动评估功能，是基于评估器（Evaluator）实现的。通过评估器，可以配置评估的目标数据、评估模型、评估维度，按照设定的规则，对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求，快速调整策略，从而加速产品迭代，确保应用的性能和功能符合业务目标。

目前，Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时，系统内置了多种常用的评估维度模板，提高用户上手速度。

两步快速开始

准备工作： 开始自动评估前，需要提前准备的有：数据成功上报的 LLM 应用、模型 API。

步骤 1️⃣ ： 进入「自动评估 - 评估器」页面，单击「+ 新建评估器」，按提示选择必要的评估 Prompt、评估模型。

步骤 2️⃣ ： 进入「自动评估 - 评估任务」页面，单击「+ 新建评估任务」，按提示填写必要信息。成功创建后，即可在「评估任务列表」看到新建的评估任务。等评估任务开始执行后，即可看到评估数据。

评估任务

自动评估任务，提供了对 LLM 应用数据评估能力，帮您评估应用的质量表现。

评估任务列表

进入「自动评估」模块，默认展示评估任务的列表页。

⬆️ 上方搜索框，可以通过评估任务名称快速筛选出目标数据。

⬅️ 左侧快捷筛选，可以根据状态、类型、评估器、关联应用，快速筛选出目标数据。

➡️ 右侧数据列表，默认展示评估任务的状态、名称、类型、评估器、关联应用、创建时间。拥有权限的成员，可以对其进行克隆、删除的操作。

危险

删除评估任务，相关记录会被删除，且无法恢复。

新建评估任务

↗️ 单击「+ 新建评估任务」后，按提示填写必要信息，即可完成创建。涉及到的信息说明如下：

评估任务类型：目前可选两种，持续性或一次性。（周期性正在开发中）
评估任务名称：不可重复。
目标数据：指定被评估的数据。
- 会话数据类型：可选应用 Traces 或应用 Spans。
- 应用范围：指定应用或者所有应用。
  
  所有应用：当前及未来新建的所用 LLM 应用。
任务规则：根据所选评估任务类型，需要配置相应的任务规则。
- 持续性任务规则：指定某个时间开始，对新产生的目标数据进行评估。（任务执行时间，不能早于新建任务时间。）
- 一次性任务规则：指定某个时间开始，对指定时间范围内的目标数据进行评估。（任务执行时间，要晚于所选目标数据的结束时间）
评估器：可选择多个评估器，对目标数据进行评估。
采样率：默认 100%，可以按需调整。
描述（可选填）：补充说明当前评估任务的信息。

信息

持续性任务执行过程中，可以手动暂停；暂停状态时，可再次开始执行。

一次性任务执行过程中，不支持暂停。任务完成后，会自动转为完成状态。

评估任务详情

在「评估任务列表页」单击某个评估任务名称，即可进入对应详情页。

单击 ↖️ 左上角评估任务名称或 ↗️ 右上角“设置”按钮，即可查看当前评估任务的配置详情。

⬇️ 下方数据表格，展示当前评估任务相关执行记录，包括每条数据状态、Trace ID、应用、评估开始时间、评估结束时间、评估器及评分值。

鼠标悬浮在某行数据时。下方数据列会出现功能按钮：

Trace ID列：可以查看被评估的 Trace。
评分器列：可以查看评估器详情和评估 Trace。

注意：“待处理”状态的数据，Trace 详情页无内容展示。

评估器

评估器的配置，主要包含了评估 Prompt 和评估所用模型，可用于自动评估、数据集实验功能。

同时，评估器可以进行版本管理，在同一个评估器中，修改评估 Prompt 、评估所用模型或其他信息，即可保存为当前评估器的一个新版本，并被自动评估、数据集实验所使用。有效帮助您不断迭代升级评估器，直至满足您对特定业务场景的需求。

评估器列表

进入「自动评估」模块，默认展示评估器的列表页。

⬆️ 上方搜索框，可以通过评估器名称快速筛选出目标数据。

⬇️ 下方数据列表，默认展示评估器的名称、版本数量、最后更新时间。拥有权限的成员，可以对其进行删除的操作。

危险

删除评估器，相关记录会被删除，且无法恢复。

同时，与其关联的正在运行的评估任务、数据集实验功能，将会受到影响。

新建评估器

↗️ 单击「+ 新建评估器」后，按提示填写必要信息，即可完成创建(当前评估器默认为版本 1。)涉及到的信息说明如下：

评估器名称：不可重复。
评估 Prompt：引用当前已经存在的评估 Prompt 及版本。同时，也可以在此基础上进行修改，修改后会保存为所选评估 Prompt 的最新版本并使用。
模型设置：可选用的模型，来源于「模型管理 - 模型 API」模块。若没有合适的，连接器下拉框底部可以直接「+ 新建连接器」，创建成功后即可选用。
评分值：返回一个数字，表示被评估内容与上述 Prompt 中评估标准的匹配程度。

注意：评分值范围默认取 0.0 到 1.0。1.0 代表评分结果是积极、正向的，0.0 代表评分结果是消极、负面的。
评分原因：（可选填）期望模型如何解释评分的原因。
描述（可选填）：补充说明当前评估器的信息。

提示

一个评估器，只能配置一个评估 Prompt 、一个评估模型。

模型设置

您需要提前在「模型 API」模块成功创建，才可以在此处使用相关模型。

同时，在高级设置中还可以配置相关的“温度”、“ Token 返回量上限”、“Top P”参数，精细化配置模型。

温度：调高温度会提高模型返回的多样性和创新性，数值范围为 0 到 2。反之，降低温度会使返回内容更加遵循指令要求但减少多样性。建议不要与“Top P”同时调整。

Token 返回量上限：设置模型输出的最大 Token 数，数值范围为 0 到 4096。通常 100 Tokens 约等于 150 个中文汉字。

Top P：设置模型的累计概率，限制模型只选择这些高概率的词汇，从而控制输出内容的多样性。数值范围为 0 到 1。建议不要与“温度”同时调整。

评估器版本列表

单击「评估器列表」中的某个评估器，即可进入对应版本列表页。

⬆️ 上方搜索框，可以通过评估器版本号、描述内容快速筛选出目标数据。

⬇️ 下方数据列表，根据版本顺序展示评估器每个版本的状态、评估 Prompt 、所选模型、关联自动评估任务、关联数据集、创建时间。拥有权限的成员，可以对其进行开启、禁用、克隆的操作。

↗️ 单击「+ 新建版本」后，按提示填写必要信息，即可在当前评估器创建一个最新版本。

单击版本号，即可查看当前评估器该版本的详情页。主要包括配置详情和关联功能。

两步快速开始​

评估任务​

评估任务列表​

新建评估任务​

评估任务详情​

评估器​

评估器列表​

新建评估器​

评估器版本列表​