>>场景为一个分布式环境,大概十几个服务,不同团队分别维护自己,历史原因链路比较长,且复杂

**目前的需求是**
1. 如何监控这十几个服务工作是否正常
2. 当一个功能模块出现问题的时候,如何快速定位到是谁的服务出了问题
3. 如何对指定的功能模块做监控,如果出现问题,及时报警,通知相关人员

了解到分布式链路追踪,trace-id 什么的,不知道现在有么有更先进的,最好是无侵入的方案
举报· 75 次点击
登录 注册 站外分享
4 条回复  
crossoverJie 小成 2024-8-28 10:12:40
推荐直接使用 OpenTelemetry 一步到位,Java 的话使用 agent 完全无侵入。

https://opentelemetry.io/docs/zero-code/java/agent/getting-started/
chenzezeya 小成 2024-8-28 19:09:19
@Curiosity777 feginclient 改造一下,header 里面穿 traceid
foolishcrab 小成 2024-8-28 21:19:22
单说这个场景的话,一个接入方便的包>>>agent>每个服务开发手动串 trace

你的需求其实是一个很庞大的话题,需要看你公司基建,和你个人在公司的话语权来决策。
wolfie 初学 2024-8-29 17:34:44
skywalking ,agent 无侵入的。
基本功能就是定位问题的,拿到 tid 秒定位。

一般链路追踪本身不提供警报功能,即使搭配一些工具也是针对系统整体运行情况。

你就让所有团队,接口报错都往一个 mq 扔错误上下文。
消费时候在自定义警报通知。
返回顶部