🤖 LLM 可观测 | Lighthouse 产品文档

📄️ 应用分析

Lighthouse 成功采集到您的 LLM 应用数据后，即可进入分析模块查看数据。

📄️ 人工评估

不同的 LLM 应用，有不同的业务目标，企业通常根据 LLM 应用的 input 和 output 内容来判断模型输出效果是否符合预期。Lighthouse 的人工评估功能，可以自定义评估维度（如准确性、简洁性、安全性等），并对每条 Trace、Span 数据进行多维度评分。帮助开发团队深入了解模型表现、识别问题、并持续优化模型质量，确保企业推出真正符合业务目标的优质 LLM 应用。

📄️ 自动评估

Lighthouse 的 LLM 可观测模块的自动评估功能，是基于评估器（Evaluator）实现的。通过评估器，可以配置评估的目标数据、评估模型、评估维度，按照设定的规则，对目标数据进行自动给出合适的评分值。有效解决了人工评估效率低、准确性不足的问题。帮助企业在开发和优化 LLM 应用过程中精准定位需求，快速调整策略，从而加速产品迭代，确保应用的性能和功能符合业务目标。

📄️ 数据集

在 Lighthouse 平台的 LLM 可观测模块，「数据集」指的是一组用于评估大模型在特定任务上的输出表现，这些数据集通常包含一系列的输入内容（Input）和输出参考答案(Reference Output)。

📄️ Prompt 管理

在开发 LLM 应用时，提示词版本混乱、缺乏效果追踪、缺少数据回溯、团队协作困难等问题，会拉低调试 Prompt 的工作效率。Lighthouse 的 Prompt 管理功能，提供 Prompt 的集中式存储库，可以对 Prompt 进行版本控制、数据对比、高效维护，显著提升 LLM 应用的质量及开发效率。

📄️ Prompt 调试

在开发 LLM 应用的过程中，高质量的提示词（Prompt）是至关重要的一环。Prompt 内容和模型的合理搭配，可以最大限度地激发模型的潜能，满足多样化、个性化的应用场景。

📄️ 模型管理

模型 API