-
记一次靠谱的 K8S 排错实战过程,硬核!
一 背景 收到测试环境集群告警,登陆 K8s 集群进行排查。 二 故障定位 2.1 查看 Pod 查看 kube-system node2 节点 calico pod 异常。 查看详细信息,查看node2节点没有存储空间,cgroup泄露。 2.2 查看存储 登陆 node2 查看服务器存储信息,目前空间还很充足。 集群使用到的分布式存储为ceph,因此查看ceph集群状态。 三 操作 3.1 ceph修复 目前查看到 ceph 集群异常,可能导致 node2 节点 cgroup 泄露异常,进行…