如提,问了运维,只说是因为我们服务健康检查不通过导致的,但是我的疑问是我开启了存活以及就绪,为什么旧的也杀掉了,新的也检查就绪且 consul 也上线了,为什么突然又全部下线,感觉是流水线盘点就绪以及存活逻辑有问题
举报· 49 次点击
登录 注册 站外分享
5 条回复  
LanLiang 小成 2024-7-3 10:00:49
你的意思是 pod 服务在 consul 侧下线? 但是在 K8S pod 正常?
dreamusername 小成 2024-7-3 09:24:52
https://kubernetes.io/zh-cn/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/#define-readiness-probes 看文档,最合理的推断是服务过了探针后,自己出错了,如果在运维层面加强的话,需要再加一个 livenessProbe 来判断服务的存活,这需要程序提供可用的接口,当程序健康检查异常,则会终止这个 Pod ,然后重新拉起一个,不过这样做没办法保留现场,不利于排查问题,特别是程序代码原因导致 crash ,则会反复终止 Pod 、拉起 Pod 。
morphyhu 小成 2024-7-2 23:14:59
pod  crash 了. 程序运行出错.
mephisto 小成 2024-7-2 22:36:22
探针检测就是体检,通过只能表示那一刻正常. 一会后又跑挂了,得去看日志为什么没通过,各种原因都有可能。比如只能硬 50s, 那后面肯定是被咔了啊,为什么只能去查原因。
FoxRiverMan 小成 2024-7-2 19:45:28
可以看下 POD 日志,应该是服务就绪启动后又 CrashLoopBackOff
返回顶部