基础设施监控
基础设施监控,是指观测和分析企业服务器、虚拟机、容器、网络等性能和可用性的过程,这些设施在向最终用户提供应用程序或服务方面发挥着至关重要的作用。
其价值包括但不限于:
- 性能优化:可以跟踪关键性能指标,确定待改进领域,例如优化 CPU 或内存使用率以提高性能等。
- 主动问题检测:通过实时监控基础设施,可以在问题影响最终用户或导致服务中断之前主动发现问题。告警和通知功能,还可以帮助 IT 团队在潜在的基础设施问题升级为严重事件之前发现并解决这些问题。
- SLA 合规性:通过跟踪和报告关键绩效指标(KPI)来帮助企业满足服务级别协议(SLA)要求。监控运行时间、响应时间和可用性等指标可以提供必要的数据,以确保符合 SLA 并证明 IT 服务的可靠性。
- 容量优化和成本管理:监控基础设施资源和使用情况使组织能够优化资源分配,发现闲置或未充分利用的资源,并就资源配置做出明智决策。
- 容量规划和可扩展性:通过监控一段时间内的基础设施指标,能够分析使用模式、预测未来的资源需求并规划容量扩展。
基础设施监控模块,展示所有采集到的主机、容器、进程、网络数据,可以帮助用户快速了解资源的使用及性能情况。默认展示主页列表页。
主机
主机列表
主机列表页,展示所有采集到的主机资源数据。
⬆️ 上方左侧可以自由切换列表和蜂窝图视图;右侧搜索栏,可以输入主机名称快速过滤出目标数据。
⬅️ 左侧快捷筛选框,可以通过多种筛选项快速过滤出目标主机数据。主机列表页面默认的筛选项有操作系统、主机状态。
➡️ 右侧数据列表,默认展示所选中时间段内,每台主机的名称、IP、操作系统、状态、CPU 使用率、内存使用率、CPU 负载。
- 列表数据更新频率为 5 分钟
- 列表数据判断及统计逻辑如下:
- 性能指标:每 5 分钟统计最近 15 分钟的平均值,非实时数据。
- 状态:15 分钟内无数据上报,判断为离线。
- 超过 48 小时无数据上报,列表将不再展示主机信息。
- 当前页面时间轴,固定查看最近 48 小时的数据。
主机蜂窝图
主机蜂窝图页面,以图形的形式展示所有采集到的主机资源数据。
一个六边形代表一台主机,颜色填充指标,默认按照 CPU 使用率,还可以切换成内存使用率;鼠标悬浮 在某个六边形上,会展示该主机的名称、CPU 使用率、内存使用率、CPU 负载指标。
主机详情
点击主机列表中某条数据,右侧弹出抽屉页展示主机详情页,展示对应主机的系统信息、容器、进程、日志信息。
- 系统信息:展示该主机属性、处理器、网络、内存、磁盘信息。
- 性能:默认展示过去 1 小时,该主机核心性能指标趋势图,包括 CPU 、内存、磁盘、网络方面的性能。右上角时间轴可以自由切换时间范围。
- 容器:展示该主机过去 10 分钟内,容器运行状况。包括容器名称、状态、CPU 使用率、内存使用率,默认按照容器名称顺序排列。
- 进程:展示该主机过去 10 分钟内,进程运行状况。包括进程名称、状态、CPU 使用率、内存使用率,默认按照进程名称顺序排列。
- 日志:展示该主机过去 1 小时内的日志信息。包括日志的时间、日志级别、日志信息,默认按照时间倒序排列。此外,点击某条日志,可以直接查看该条日志详情。
容器
容器列表
容器列表页,展示所有采集到的容器资源数据。
⬆️ 上方左侧可以自由切换列表和蜂窝图视图;右侧搜索框,可以输入容器名称快速过滤出目标数据。
⬅️ 左侧快捷筛选框,可以通过多种筛选项快速过滤出目标容器数据。容器列表页面默认的筛选项有主机、容器镜像、容器状态。
➡️ 右侧数据列表,默认展示所选中时间段内,每个容器的名称、操作系统、状态、镜像、IP、主机、CPU 使用率、内存使用率。
- 列表数据更新频率为 5 分钟
- 列表数据判断及统计逻辑如下:
- 性能指标:每 5 分钟统计最近 15 分钟的平均值,非实时数据。
- 状态:15 分钟内无数据上报,判断为离线。
- 当前页面时间轴,最多可查看 48 小时内的数据,自定义时间区间跨度为 5 分钟。
- 每次进入容器列表页面,默认展示最近 10 分钟的数据,可能会出现数据重复的情况。(因为数据更新频率为 5 分钟)
容器蜂窝图
容器蜂窝图页面,以图形的形式展示所有采集到的容器资源数据。
一个六边形代表一个容器,颜色填充指标,默认按照 CPU 使用率,还可以切换成内存使用率;鼠标悬浮在某个六边形上,会展示该容器的名称、CPU 使用率、内存使用率。
容器详情
点击容器列表中某条数据,右侧弹出抽屉页展示容器详情页。
- 容器性能:默认展示过去 10 分钟,该容器核心性能指标趋势图,包括 CPU 、内存、网络方面的性能。
- 主机性能:默认展示过去 1 小时,该容器所关联的主机的性能状况,包括主机的 CPU 、内存、磁盘、网络方面的性能。
进程
进程列表
进程列表页,展示所有采集到的进程数据。
⬆️ 上方搜索框,可以输入不同的标签和标签值,快速过滤出目标数据,如进程名称、主机等。
⬅️ 左侧快捷筛选框,可以通过多种筛选项快速过滤出目标进程数据。进程列表页面默认的筛选项有主机、状态、用户名。
➡️ 右侧数据列表,默认展示所选中时间段内,每个进程的名称、用户名、主机、状态、CPU 使用率、内存使用率、启动时间。
- 列表数据更新频率为 5 分钟
- 列表数据判断及统计逻辑如下:
- 性能指标:每 5 分钟统计最近 15 分钟的平均值,非实时数据。
- 当前页面时间轴,最多可查看 48 小时内的数据,自定义时间区间跨度为 5 分钟。
- 每次进入进程列表页面,默认展示最近 10 分钟的数据,可能会出现数据重复的情况。(因为数据更新频率为 5 分钟)
进程详情
点击进程列表中某条数据,右侧弹出抽屉页展示进程详情页。
- 进程性能:默认展示过去 10 分钟,该进程核心性能指标趋势图,包括 CPU 使用率、内存使用率、常驻内存、线程数、打开文件数方面的性能。
- 主机性能:默认展示过去 1 小时,该进程所关联的主机的性能状况,包括主机的 CPU 、内存、磁盘、网络方面的性能。
网络
列表
网络列表页,展示通过 eBPF 所有采集到的服务数据。
⬆️ 上方搜索栏,可以输入服务名称快速过滤出目标数据。
⬇️ 下方数据列表,默认展示所选中时间段内,每个服务的名称、类型、错误率、延时、最大网络耗时、实例数(在线数量/上报总数量)。
服务拓扑
服务拓扑页面,直观展示所有采集到的服务之间的相互调用关系,以及服务名称、服务类型。
鼠标停留在某个服务图标上,会悬浮显示该服务的名称、错误率、延时、网络耗时、实例数。另外,与该服务有直接调用关系的会高亮显示,无直接调用关系的灰度显示。服务图标呈绿色,代表错误率为 0 ;服务图标呈红色,代表错误率大于 0 。
鼠标点击某个服务图标,提供「查看上下游」按钮,点击即可查看该服务的上下游拓扑,此处可以识别某个服 务存在多个实例的不同调用关系。
主机分组
主机分组页面,展示不同主机上运行了哪些服务。服务图标呈绿色,代表错误率为 0 ;服务图标呈红色,代表错误率大于 0 。
指标含义
指标名称 | 含义 |
---|---|
主机-CPU 使用率 | 一定时间内,服务器主机的中央处理器(CPU)被使用的比例。 |
主机-内存使用率 | 一定时间内,服务器主机的物理内存被使用的比例。 |
主机-CPU 负载 | 一定时间内,系统中正在使用 CPU 或等待 CPU 资源的进程数量的平均值。通常以过去 1 分钟、5 分钟和 15 分钟的平均负载来衡量。 注意:Lighthouse 默认展示的是 15 分钟平均负载。 |
容器-CPU 使用率 | 一定时间内,在容器化环境中,单个容器的 CPU 使用率。 |
容器-内存使用率 | 一定时间内,在容器化环境中,单个容器的内存使用率。 |
进程-CPU 使用率 | 一定时间内,单个进程在占用 CPU 资源的比例。 |
进程-内存使用率 | 一定时间内,单个进程在占用内存资源的比例。 |
网络-服务错误率 | 一定时间内,该服务失败的请求数占总请求数的百分比。 |
网络-服务平 均延时 | 一定时间内,服务所有请求从发出到收到响应所经历的时间间隔的平均值。 |
一定时间内,服务之间 ping 的最大耗时。 | |
网络-服务实例数 | 一定时间内,服务在运行环境中实际部署的副本数量,每个副本被称为一个实例。 注意:Lighthouse 默认展示的是"在线数/上报总数"。 |