关于远程执行(ansible 等工具)相关问题

McreeWu · 2024-9-5 17:31:25 · 218 次点击
背景:
服务器较多,3w 台左右(且 IP 等都是浮动的,在 2-5w 台),可能会存在同时更新或执行命令的情况,现在是使用 ansible 来管理,但是因为机器数量过多导致经常性同步延迟过大,或者有部分服务器无法联通动问题卡在某个任务上,且运维平台跑 ansible 内存会挤爆( 16G ),不过这个不是大问题,如果方案可行易用,配置不是问题,可以直接上顶配服务器供给运维平台使用。

故:
现在想结合运维平台调研一个新的远程执行方案,需要能批量跑任务,或直接跑 bash 得到输出值,服务器上可以部署 agent 。

目前在看 saltstack ,问题点是在于我们服务器大多走公网进行维护,网络链路分布全球,没办法保证连接质量。

想知道各位公司都是用什么方案,或者什么工具呢?
举报· 218 次点击
登录 注册 站外分享
18 条回复  
hetal 小成 2024-9-5 17:39:00
其实就是差一个 CI/CD 的流程呗~
mightybruce 小成 2024-9-5 17:46:45
这种情况估计你们需要自己研发了,ansible 模块通过 ssh 协议(或者 Kerberos 、LDAP )推送到被管节点执行,执行完之后自动删除, 几万台服务器肯定是满足不了的, 每个服务器装 agent 是需要的
cqu1980 小成 2024-9-5 17:58:08
只有自己研发,做任务池,卡的报警,再手工查看执行
vacuitym 小成 2024-9-5 18:01:57
github 上有个开源的运维平台叫 salt ,不知道是不是你们要的
NevadaLi 初学 2024-9-5 18:06:38
checkmk 试试?
dododada 初学 2024-9-5 18:14:21
我记得前司当年是请腾讯来做的,大概 4W 台机器,后来慢慢的就自研了,CI/CI 是基于禅道做的二开,其他的不太了解,反正你这个 3W 台,比较复杂,你这个可能还有异地多活的网络,要找个运维架构师咨询一下,没经验的话比较难搞
rushpu 小成 2024-9-5 21:40:46

关于远程执行(ansible 等工具)相关问题

你可以看下这个,基于 ansible ,https://github.com/ansible/awx/blob/devel/docs/clustering.md
dbak 小成 2024-9-5 21:55:10

关于远程执行(ansible 等工具)相关问题

可以看看 salt-syndic 分布式架构
povsister 小成 2024-9-5 22:02:22

关于远程执行(ansible 等工具)相关问题

声明式+agent ,自研吧。做好任务管理下发,执行和回报交给 agent 。
超大规模的想走 worker+shell 真的是坐大牢。

当然,我觉得最简单的方式。k8s ,damonset 跑 agent ,或者直接上 job ,日志也能统一回收。以 pod 状态/job 状态作为任务执行的结果标识。
12下一页
返回顶部