VictoriaMetrics, 我之前用来上位替换 prometheus 的, 可以看看小红书技术团队之类的设计方案, 他们也都用 VictoriaMetrics 了, 还可以保留部分集群的 prometheus, 平滑迁移.
目前看了 vmagent, vmalert 的代码, 确实在很多设计和细节上相较于 prometheus 在性能和高可用方面更好, 并且基本兼容原有的 prometheus 配置文件, 支持 prometheus 协议.
Prometheus 经常出现的问题就是一个集群节点数较多, 一个节点的 cpu 和内存都分配给它使用了, 还是不够, 经常 oomkill, 调存储时间之类的也不是个长久的办法, 并且费运维. 用 VictoriaMetrics 之后, 运维只需要关心全局集群的 VictoriaMetrics 了.
可能要关注的点是 vmstorage 的存储消耗(所有集群的数据都收集在一起了), 但不用在每个集群上都部署一个 prometheus 了, 总的消耗是更小了. vmagent 基本上给个 2 核 4G 就够了
一点经验, 仅供参考 |