传统可观测性的尽头，是 LLM 可观测性的起点

2025年5月28日 · 阅读需 7 分钟

VP @ Cyritex

当我们谈论“可观测性”时，默认的语境一直是微服务架构、容器调度、指标告警、链路追踪这些已经在业界成熟多年且工程体系高度标准化的范式。

而在大模型（LLM）应用逐步成为企业核心能力的今天，传统可观测性的范式，正在触碰它的边界。

不是它无用，而是它不够。

可观测性不是日志、指标和链路的堆砌

传统可观测性体系的底层假设，是系统是可拆解的、行为是确定的、根因是可溯源的。知名开源方案 Prometheus 可以帮你捕捉 CPU 和内存等时序指标的趋势，Jaeger/OTel 可以串起服务间的调用链路，ELK 可以让你对日志进行全文搜索。

这些工具在面对服务雪崩、数据库连接耗尽、容器资源竞争时游刃有余。

但一旦进入大模型应用的语境，情况开始变得棘手：

传统可观测性擅长告诉你“发生了什么”，却无能为力于“这合理吗？”

在传统系统中，我们观察的是“系统行为”，而在 LLM 应用中，我们观察的是“模型行为”。

后者更接近一个“人”——它会遗忘、会理解错上下文、会答非所问，甚至会胡说八道还一脸自信。

你不能用旧时代看机器的方式去评估一个复杂的 GenAI-based 的应用。

我们不再观察机器的状态，而是在判断智能体的行为；这是一种从系统到语义的迁移。

举个例子，当一个用户投诉“机器人胡说八道”时，传统的 Observability 平台给你的信息可能是：请求成功、延迟正常、服务健康。

但对于业务方而言，这没有任何价值，因为问题的本质是质量、不是可用性。

这就是为什么我们看到越来越多的公司，开始引入“评估（Evaluation）”的能力——它补上了传统可观测体系对“语义正确性”和“业务目标契合度”完全无感的短板。

LLM 应用的可观测性，不再是单纯数据呈现，而是要构建“对行为的判断体系”。

它需要回答的问题，不再是“服务有没有挂”，而是：

这些都无法靠 Status code 和 Trace ID 得到答案，而是需要新的基础设施：Prompt 版本管理、自动评估、Few-shot 标准示例、Embedding 检索上下文、跨模型对比分析等。

在人类系统中，信任来自对规则一致性的判断；在智能系统中，信任则来自对“行为合理性”的持续观测。

所以，当我们在构建面向 LLM 应用的新一代可观测平台时，它不只是传统可观测性平台 + 一个 LLM 监控插件，而是：

这是一种范式的跃迁，涉及的是新对象、新指标、新目标，当然也需要新工具。

模型是流动的认知，Prompt 是瞬时的意图，行为才是唯一可以被判断和反馈的真相。

我们过去花了十几年建立了一整套可观测性基础设施，从 Metrics、Logs、Traces，到 Alerts、Dashboards、SLOs 等。

现在，面对 LLM 带来的生成式智能系统，我们需要从头再来一次——不是抛弃旧工具，而是认识到新世界有新的复杂度。

真正值得观测的，不再是“系统是否按预期运行”，而是“智能是否按预期思考”。

传统可观测性的尽头，是 LLM 可观测性的起点。