设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
资源
节点
飞墙
Follow
明白贴
影视
报酬
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
Linux
›
[求助] 在百万到千万级个文件中查找最大的几个。 ...
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
卫生巾实测
›
看了《再见爱人》气的晚上睡不着
›
请教一下大家是如何清理机械键盘缝隙中的灰
›
点外卖食物中毒,但是太无奈了
›
怎么看待 [十点前下班没必要来深圳] 的说法
今日热议主题
含锂离子电池报废设备应该怎么妥善处理?
家人看病如何使用自己的医保?
将表格导入到 Confluence,有什么好办法?
好用的在线批量图片压缩工具网站
Android 美团 APP 中销量看不到
无限收 88VIP 芒果/优酷会员:36 网易云:46
出 11.26 88vip
最近封号很猛,但是继续头铁一次吧,继续续
出一个 8 位 QQ, 288
如何能够办理到一条比较便宜的宽带?
[求助] 在百万到千万级个文件中查找最大的几个。
huangsijun17
· 2024-9-4 11:14:33 · 84 次点击
现有一个 Linux ,安装有 minio ,存储在 XFS 文件系统下。我现在想找到某个 minio 存储路径下的若干子文件里最大的是哪几个文件?
文件总数未知,单个文件大小约为 1M~10M 级,初步估算的文件数量约为百万到千万级个。
find 后 sort 排序是基本不可能的了,我该怎么操作?
举报
·
84 次点击
登录
注册
站外分享
微信扫一扫
QQ分享
微博分享
豆瓣分享
复制链接
显示全部
|
最新评论
11 条回复
沙发
devopsdogdog
小成
2024-9-4 11:34:38
😂你就不能记录下来然后再去排序,或者多次分割后取数?
板凳
hello2090
小成
2024-9-4 11:43:21
TopK 优先级队列 线性复杂度
地板
GeekGao
小成
2024-9-4 11:45:03
使用 Python 的 os.walk() 函数和 yield 生成器递归遍历吧,写个简易统计程序。
5#
ArmsZ
小成
2024-9-4 12:00:44
程序员代码面试指南(第 2 版)值得你一看
6#
NoOneNoBody
小成
2024-9-4 12:05:36
除非你之前有安装一些记录文件位置的工具(类似 windows eferything ),不然总要实时搜磁盘
如果之前有安装定位工具,且有记录文件信息如字节数等,那参考该工具的手册,这样搜数据库比搜磁盘快
python pandas 排序应该也很快,因为只有路径和字节数两个字段,只是前面递归获取全部路径比较慢
总的来说,瓶颈在于是实时搜磁盘,还是从定位工具搜数据库
7#
MoYi123
小成
2024-9-4 15:46:10
find + sort 为什么不行, 这不是最简单的办法吗?
8#
ZZ74
小成
2024-9-4 16:05:10
@MoYi123 文件数量太多了。
用 python 之类的写个程序 top k 就好了
9#
me1onsoda
小成
2024-9-4 16:25:33
能把每个文件大小都记录下来就简单了,搞个大顶堆
10#
doraemonki
小成
2024-9-4 16:56:17
帮你把代码写好了 golang ,https://codecopy.cn/post/ez6qqh
下一页 »
1
2
/ 2 页
下一页
返回顶部