Kubernetes监控开源工具基本介绍以及如何使用Sysdig进行监控
Kubernetes集群的监控报警策略最佳实践
Kubernetes中的服务发现与故障排除
请求时间:我们密切关注前端和API的请求和响应时间。如果出现问题或变化,这些是需要首先关注的指标。 例如,一次新构建可能会导致应用程序执行失败,或者,一次网络配置错误可能会对用户产生负面影响。
后端查询响应时间:这些可能直接与数据库或Java后端相关。 当然,这是寻找潜在问题的好地方,也是改善系统的机会。 如果通常情况下,查询运行缓慢,便可以将其返回给团队进行研究和修复。
堆使用和垃圾回收:虽然不经常使用,但我们已经使用这些数据来调试基于JVM级数据的数据仓库。 从应用程序级别来看,我们确实需要关注这些资源指标。
Pod重启和容器计数:告诉我们是否有变化发生。
启动失败:这些是可以用来关联其他指标的重要事件,无论是应用还是基础架构。
服务请求延迟:这一点极具挑战。 它涉及汇总来自特定服务的所有容器的延迟信息,并以一个统一的视图呈现。 这是在监控中使用“Kubernetes视点”的最佳例子。
容器平均资源利用率:我们最近在Kubernetes中添加了资源请求和限制机制,这意味着我们可以更有效地追踪资源利用率。 相比根据主机级别CPU和内存信息来监控资源利用率,我们选择根据分配给特定容器的资源来进行监控。 这能在资源分配问题上更早的提示警告,而不是仅仅在主机利用率级别进行监控。