29 条回复  ·  3256 次点击
ETiV 小成 2025-8-21 20:51:32
我也给我们项目写过 - 日志每天 gzip 上传到阿里云 oss 、AWS S3 这种地方,存储路径、文件名都有规律的 - 配置好归档冷存储策略 - 等需要搜索的时候,大批量开按量计费的虚拟机,然后用分布式、多进程、管道化的方式来 gunzip | grep 想要搜索的内容 * 机器都开在了同 region ,访问走内网域名,不会收取 egress 流量费 - 上面的工作是一个异步的任务,开跑了就可以挂着了 - 跑完会给企业微信群里发条消息,说最终 grep 匹配出来的结果放在了什么路径下。然后把跑任务的机器自动关机。
lscho 小成 2025-8-21 21:40:15
便宜 不折腾 能直接用( SQL 能直接捞出来) 以上不可能三角
JungleZZ 小成 2025-8-21 21:45:06
@sjbsjb233 笋都让你夺完了...hhh
wupher 小成 2025-8-21 21:54:49
- 常用查询放 ELK ,一般双周或一月,视各项目重要情况。 - 归档日志存放于 Hadoop ,通过 API 进行检索。
defunct9 初学 2025-8-21 21:56:35
@ETiV 你这一股子的咖喱味,能行吗
ITisCool 小成 2025-8-21 21:59:23
@sjbsjb233 #18 你说得这么详细,想必是正在这么干 https://i.imgur.com/duWRpIu.png
zed1018 小成 2025-8-21 21:59:45
@phrack 实际上一点也不,除了 s3 配置一下,剩下就是 replica 的设置搞一搞绝大部分用 helm values 的默认值就完事了
1423 小成 2025-8-21 22:16:11
每天上传几十 GB 日志,会不会被认定跑 PCDN 被限速?
512357301 小成 2025-8-21 23:02:37
用 duckdb 转成 parquet ,然后随便放哪里(本地或者 s3 ,甚至 http 文件服务器也行),用 duckdb 读取,速度也很快。
512357301 小成 2025-8-21 23:03:49
每天啊,那这量不算小,一般建议数仓了,可以先用 duckdb 试试,不行就上 ck 数仓
123
返回顶部