传统可观测性的尽头,是 LLM 可观测性的起点
· 阅读需 7 分钟
当我们谈论“可观测性”时,默认的语境一直是微服务架构、容器调度、指标告警、链路追踪这些已经在业界成熟多年且工程体系高度标准化的范式。
而在大模型(LLM)应用逐步成为企业核心能力的今天,传统可观测性的范式,正在触碰它的边界。
不是它无用,而是它不够。
可观测性不是日志、指标和链路的堆砌
传统可观测性体系的底层假设,是系统是可拆解的、行为是确定的、根因是可溯源的。 知名开源方案 Prometheus 可以帮你捕捉 CPU 和内存等时序指标的趋势,Jaeger/OTel 可以串起服务间的调用链路,ELK 可以让你对日志进行全文搜索。
这些工具在面对服务雪崩、数据库连接耗尽、容器资源竞争时游刃有余。
但一旦进入大模型应用的语境,情况开始变得棘手:
- 模型输出不再是固定路径里的函数返回,而是生成带有概率性的字符;
- 一个 prompt 的响应结果,无法通过 response time 和 status code 判断是否“正常”;
- 出现 hallucination 幻觉的模型行为,从链路上看一切健康;
- 同一个输入 prompt,在不同时间点或不通模型版本下,输出质量可能天差地别。
传统可观测性擅长告诉你“发生了什么”,却无能为力于“这合理吗?”
可观测性的“对象”变了
在传统系统中,我们观察的是“系统行为”,而在 LLM 应用中,我们观察的是“模型行为”。
后者更接近一个“人”——它会遗忘、会理解错上下文、会答非所问,甚至会胡说八道还一脸自信。
你不能用旧时代看机器的方式去评估一个复杂的 GenAI-based 的应用。
我们不再观察机器的状态,而是在判断智能体的行为;这是一种从系统到语义的迁移。
举个例子,当一个用户投诉“机器人胡说八道”时,传统的 Observability 平台给你的信息可能是:请求成功、延迟正常、服务健康。
但对于业务方而言,这没有任何价值,因为问题的本质是质量、不是可用性。
这就是为什么我们看到越来越多的公司,开始引入“评估(Evaluation)”的能力——它补上了传统可观测体系对“语义正确性”和“业务目标契合度”完全无感的短板。