跳到主要内容

自动评估

Lighthouse 的 LLM 可观测模块的自动评估功能,是基于评估器(Evaluator)实现的。通过评估器,可以配置评估的目标数据、评估模型、评估维度,按照设定的规则,对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求,快速调整策略,从而加速产品迭代,确保应用的性能和功能符合业务目标。

目前,Lighthouse 支持对应用的 Trace 数据、数据集进行自动评估。同时,系统内置了多种常用的评估维度模板,提高用户上手速度。

两步快速开始

准备工作: 开始自动评估前,需要提前准备的有:数据成功上报的 LLM 应用模型 API

步骤 1️⃣ : 进入「自动评估 - 评估器」页面,单击「+ 新建评估器」,按提示选择必要的评估 Prompt、评估模型。

步骤 2️⃣ : 进入「自动评估 - 评估任务」页面,单击「+ 新建评估任务」,按提示填写必要信息。成功创建后,即可在「评估任务列表」看到新建的评估任务。等评估任务开始执行后,即可看到评估数据。

评估任务

自动评估任务,提供了对 LLM 应用数据评估能力,帮您评估应用的质量表现。

评估任务列表

img

进入「自动评估」模块,默认展示评估任务的列表页。

⬆️ 上方搜索框,可以通过评估任务名称快速筛选出目标数据。

⬅️ 左侧快捷筛选,可以根据状态、类型、评估器、关联应用,快速筛选出目标数据。

➡️ 右侧数据列表,默认展示评估任务的状态、名称、类型、评估器、关联应用、创建时间。拥有权限的成员,可以对其进行克隆、删除的操作。

危险

删除评估任务,相关记录会被删除,且无法恢复。

新建评估任务

img

↗️ 单击「+ 新建评估任务」后,按提示填写必要信息,即可完成创建。涉及到的信息说明如下:

  • 评估任务类型:目前可选两种,持续性或一次性。(周期性正在开发中)
  • 评估任务名称:不可重复。
  • 目标数据:指定被评估的数据。
    • 会话数据类型:可选应用 Traces 或应用 Spans。
    • 应用范围:指定应用或者所有应用。

      所有应用:当前及未来新建的所用 LLM 应用。

  • 任务规则:根据所选评估任务类型,需要配置相应的任务规则。
    • 持续性任务规则:指定某个时间开始,对新产生的目标数据进行评估。(任务执行时间,不能早于新建任务时间。)
    • 一次性任务规则:指定某个时间开始,对指定时间范围内的目标数据进行评估。(任务执行时间,要晚于所选目标数据的结束时间)
  • 评估器:可选择多个评估器,对目标数据进行评估。
  • 采样率:默认 100%,可以按需调整。
  • 描述(可选填):补充说明当前评估任务的信息。
信息

持续性任务执行过程中,可以手动暂停;暂停状态时,可再次开始执行。

一次性任务执行过程中,不支持暂停。任务完成后,会自动转为完成状态。

评估任务详情

img

在「评估任务列表页」单击某个评估任务名称,即可进入对应详情页。

单击 ↖️ 左上角评估任务名称或 ↗️ 右上角“设置”按钮,即可查看当前评估任务的配置详情。

⬇️ 下方数据表格,展示当前评估任务相关执行记录,包括每条数据状态、Trace ID、应用、评估开始时间、评估结束时间、评估器及评分值。

鼠标悬浮在某行数据时。下方数据列会出现功能按钮:

  • Trace ID列:可以查看被评估的 Trace。
  • 评分器列:可以查看评估器详情和评估 Trace。

    注意:“待处理”状态的数据,Trace 详情页无内容展示。

评估器

评估器的配置,主要包含了评估 Prompt 和评估所用模型,可用于自动评估、数据集实验功能。

同时,评估器可以进行版本管理,在同一个评估器中,修改评估 Prompt 、评估所用模型或其他信息,即可保存为当前评估器的一个新版本,并被自动评估、数据集实验所使用。有效帮助您不断迭代升级评估器,直至满足您对特定业务场景的需求。

评估器列表

img

进入「自动评估」模块,默认展示评估器的列表页。

⬆️ 上方搜索框,可以通过评估器名称快速筛选出目标数据。

⬇️ 下方数据列表,默认展示评估器的名称、版本数量、最后更新时间。拥有权限的成员,可以对其进行删除的操作。

危险

删除评估器,相关记录会被删除,且无法恢复。

同时,与其关联的正在运行的评估任务、数据集实验功能,将会受到影响。

新建评估器

img

↗️ 单击「+ 新建评估器」后,按提示填写必要信息,即可完成创建(当前评估器默认为版本 1。)涉及到的信息说明如下:

  • 评估器名称:不可重复。
  • 评估 Prompt:引用当前已经存在的评估 Prompt 及版本。同时,也可以在此基础上进行修改,修改后会保存为所选评估 Prompt 的最新版本并使用。
  • 模型设置:可选用的模型,来源于「模型管理 - 模型 API」模块。若没有合适的,连接器下拉框底部可以直接「+ 新建连接器」,创建成功后即可选用。
  • 评分值:返回一个数字,表示被评估内容与上述 Prompt 中评估标准的匹配程度。

    注意:评分值范围默认取 0.0 到 1.0。1.0 代表评分结果是积极、正向的,0.0 代表评分结果是消极、负面的。

  • 评分原因:(可选填)期望模型如何解释评分的原因。
  • 描述(可选填):补充说明当前评估器的信息。
提示

一个评估器,只能配置一个评估 Prompt 、一个评估模型。

模型设置

您需要提前在「模型 API」模块成功创建,才可以在此处使用相关模型。

同时,在高级设置中还可以配置相关的“温度”、“ Token 返回量上限”、“Top P”参数,精细化配置模型。

  • 温度:调高温度会提高模型返回的多样性和创新性,数值范围为 0 到 2。反之,降低温度会使返回内容更加遵循指令要求但减少多样性。建议不要与“Top P”同时调整。
  • Token 返回量上限:设置模型输出的最大 Token 数,数值范围为 0 到 4096。通常 100 Tokens 约等于 150 个中文汉字。
  • Top P:设置模型的累计概率,限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。数值范围为 0 到 1。建议不要与“温度”同时调整。

评估器版本列表

img

单击「评估器列表」中的某个评估器,即可进入对应版本列表页。

⬆️ 上方搜索框,可以通过评估器版本号、描述内容快速筛选出目标数据。

⬇️ 下方数据列表,根据版本顺序展示评估器每个版本的状态、评估 Prompt 、所选模型、关联自动评估任务、关联数据集、创建时间。拥有权限的成员,可以对其进行开启、禁用、克隆的操作。

↗️ 单击「+ 新建版本」后,按提示填写必要信息,即可在当前评估器创建一个最新版本。

单击版本号,即可查看当前评估器该版本的详情页。主要包括配置详情和关联功能。