设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
资源
节点
飞墙
Follow
明白贴
影视
报酬
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
Linux
›
[求助] 在百万到千万级个文件中查找最大的几个。 ...
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
卫生巾实测
›
看了《再见爱人》气的晚上睡不着
›
怎么看待 [十点前下班没必要来深圳] 的说法
›
去医院看发烧,检查花了 640
›
请教一下大家是如何清理机械键盘缝隙中的灰
今日热议主题
深圳靠谱的月嫂
有多少兄弟被国产化改造坑过
爬取了大量的 twitter,有什么可以赚钱的路
请教各位前端大佬, 3d 礼物动画怎么做?
[小鹏汽车] 新开 HC,数据开发高级/资深工程
蒲公英平台什么时候挂了吗?
各位的 iPhone 都是几年一换?
海外内容增长 面向海外的 2C 信息/内容平台
Gopeed 是不是都是 pcdn 刷流量专用的
奇怪的 chrome 视频解码问题
[求助] 在百万到千万级个文件中查找最大的几个。
huangsijun17
· 2024-9-4 11:14:33 · 88 次点击
现有一个 Linux ,安装有 minio ,存储在 XFS 文件系统下。我现在想找到某个 minio 存储路径下的若干子文件里最大的是哪几个文件?
文件总数未知,单个文件大小约为 1M~10M 级,初步估算的文件数量约为百万到千万级个。
find 后 sort 排序是基本不可能的了,我该怎么操作?
举报
·
88 次点击
登录
注册
站外分享
微信扫一扫
QQ分享
微博分享
豆瓣分享
复制链接
显示全部
|
最新评论
11 条回复
沙发
devopsdogdog
小成
2024-9-4 11:34:38
😂你就不能记录下来然后再去排序,或者多次分割后取数?
板凳
hello2090
小成
2024-9-4 11:43:21
TopK 优先级队列 线性复杂度
地板
GeekGao
小成
2024-9-4 11:45:03
使用 Python 的 os.walk() 函数和 yield 生成器递归遍历吧,写个简易统计程序。
5#
ArmsZ
小成
2024-9-4 12:00:44
程序员代码面试指南(第 2 版)值得你一看
6#
NoOneNoBody
小成
2024-9-4 12:05:36
除非你之前有安装一些记录文件位置的工具(类似 windows eferything ),不然总要实时搜磁盘
如果之前有安装定位工具,且有记录文件信息如字节数等,那参考该工具的手册,这样搜数据库比搜磁盘快
python pandas 排序应该也很快,因为只有路径和字节数两个字段,只是前面递归获取全部路径比较慢
总的来说,瓶颈在于是实时搜磁盘,还是从定位工具搜数据库
7#
MoYi123
小成
2024-9-4 15:46:10
find + sort 为什么不行, 这不是最简单的办法吗?
8#
ZZ74
小成
2024-9-4 16:05:10
@MoYi123 文件数量太多了。
用 python 之类的写个程序 top k 就好了
9#
me1onsoda
小成
2024-9-4 16:25:33
能把每个文件大小都记录下来就简单了,搞个大顶堆
10#
doraemonki
小成
2024-9-4 16:56:17
帮你把代码写好了 golang ,https://codecopy.cn/post/ez6qqh
下一页 »
1
2
/ 2 页
下一页
返回顶部