飞社-令人惊奇的创意工作者社区-数据库团队日志要存几年，怎么找一个便宜又能查的地方？

ETiV

我也给我们项目写过 - 日志每天 gzip 上传到阿里云 oss 、AWS S3 这种地方，存储路径、文件名都有规律的 - 配置好归档冷存储策略 - 等需要搜索的时候，大批量开按量计费的虚拟机，然后用分布式、多进程、管道化的方式来 gunzip | grep 想要搜索的内容 * 机器都开在了同 region ，访问走内网域名，不会收取 egress 流量费 - 上面的工作是一个异步的任务，开跑了就可以挂着了 - 跑完会给企业微信群里发条消息，说最终 grep 匹配出来的结果放在了什么路径下。然后把跑任务的机器自动关机。

lscho

便宜不折腾能直接用（ SQL 能直接捞出来）以上不可能三角

JungleZZ

@sjbsjb233 笋都让你夺完了...hhh

wupher

- 常用查询放 ELK ，一般双周或一月，视各项目重要情况。 - 归档日志存放于 Hadoop ，通过 API 进行检索。

defunct9

@ETiV 你这一股子的咖喱味，能行吗

ITisCool

@sjbsjb233 #18 你说得这么详细，想必是正在这么干 https://i.imgur.com/duWRpIu.png

zed1018

@phrack 实际上一点也不，除了 s3 配置一下，剩下就是 replica 的设置搞一搞绝大部分用 helm values 的默认值就完事了

每天上传几十 GB 日志,会不会被认定跑 PCDN 被限速?

用 duckdb 转成 parquet ，然后随便放哪里(本地或者 s3 ，甚至 http 文件服务器也行)，用 duckdb 读取，速度也很快。

每天啊，那这量不算小，一般建议数仓了，可以先用 duckdb 试试，不行就上 ck 数仓

浏览过的版块