Board logo

标题: [电脑] 有没有软件可以自动合并电脑所有硬盘里的相同文件? [打印本页]

作者: 真忘私绵    时间: 2016-11-11 15:02     标题: 有没有软件可以自动合并电脑所有硬盘里的相同文件?

比如我有CDEFG
里面有一些资源是重复的
但是我没空一个个找
有吗?
作者: TotemG    时间: 2016-11-11 15:04

有很多,其中一款只有100多k:

http://www.iplaysoft.com/finddupfile.html
作者: 真忘私绵    时间: 2016-11-11 15:21

谢谢!

https://pan.baidu.com/s/1i3L74DB
作者: 真忘私绵    时间: 2016-11-11 15:22

引用:
原帖由 TotemG 于 2016-11-11 15:04 发表
有很多,其中一款只有100多k:

http://www.iplaysoft.com/finddupfile.html
有些不明白,比如说这个左边和右边不是同一个文件吗?
为啥是重复的

[attach]886201[/attach]

[ 本帖最后由 真忘私绵 于 2016-11-11 15:38 编辑 ]
作者: niubility    时间: 2016-11-11 16:25

posted by wap, platform: Chrome
有个叫 doublekiller的小工具,可以按文件大小,MD5等条件来找出重复的文件
作者: dreamlost    时间: 2016-11-11 17:48

posted by wap, platform: Firefox
引用:
原帖由 @真忘私绵  于 2016-11-11 15:22 发表
有些不明白,比如说这个左边和右边不是同一个文件吗?
为啥是重复的

886201
路径不一样
作者: 真忘私绵    时间: 2016-11-11 18:50

posted by wap, platform: iPhone
引用:
原帖由 @dreamlost  于 2016-11-11 17:48 发表
路径不一样
你看看图一样啊
作者: n2    时间: 2016-11-11 19:11

posted by wap, platform: Windows
引用:
原帖由 @真忘私绵  于 2016-11-11 18:50 发表
你看看图一样啊
请多看几次。。。。。。。。。
作者: 真忘私绵    时间: 2016-11-11 19:20

posted by wap, platform: iPhone
引用:
原帖由 @n2  于 2016-11-11 19:11 发表
请多看几次。。。。。。。。。
喔喔 我sb了
那是不是右边都删了没风险?
作者: lastescaper    时间: 2016-11-11 19:30

posted by wap, platform: Android
mark
作者: n2    时间: 2016-11-11 19:58

posted by wap, platform: Samsung
引用:
原帖由 @真忘私绵  于 2016-11-11 19:20 发表
喔喔 我sb了
那是不是右边都删了没风险?
不是啊,看程序啊
作者: yuhui    时间: 2016-11-11 20:05

posted by wap, platform: Galaxy S6 EDGE
Mark
作者: ntxdz    时间: 2016-11-11 20:54

posted by wap, platform: iPhone
扫描起来老慢了吧
作者: 安非他命    时间: 2016-11-11 21:36

posted by wap, platform: iPhone
自己写代码
从起始目录开始遍历
每个文件算md5
相同的只留一个
作者: ffcactus    时间: 2016-11-11 22:58

posted by wap, platform: iPhone
不好办
作者: xxhunter    时间: 2016-11-12 08:50

posted by wap, platform: iPhone
查重这个很多软件 都还好用 可以去zdfans去看看
作者: riven    时间: 2016-11-12 08:53

posted by wap, platform: Android
马克一下
作者: clark99    时间: 2016-11-12 12:49

posted by wap, platform: iPhone
马克化肥
作者: 备常炭    时间: 2016-11-12 13:51

posted by wap, platform: iPhone
引用:
原帖由 @安非他命  于 2016-11-11 21:36 发表
自己写代码
从起始目录开始遍历
每个文件算md5
相同的只留一个
你写过吗?写过就知道这方案不可行

或者说需要复杂的优化策略才可以
作者: 888999000    时间: 2016-11-12 15:32

posted by wap, platform: Galaxy S5(CDMA)
懒得查重,不断买新硬盘就行了。
作者: sceic    时间: 2016-11-12 15:45

posted by wap, platform: GOOGLE Nexus 5X
everything
作者: 安非他命    时间: 2016-11-12 16:07

引用:
原帖由 备常炭 于 2016-11-12 13:51 发表
posted by wap, platform: iPhone
你写过吗?写过就知道这方案不可行

或者说需要复杂的优化策略才可以
老天爷

https://github.com/artzers/Pytho ... eleteRepeatFiles.py
作者: 备常炭    时间: 2016-11-12 16:13

posted by wap, platform: iPhone
引用:
原帖由 @安非他命  于 2016-11-12 16:07 发表
老天爷

https://github.com/artzers/Pytho ... eleteRepeatFiles.py
10T硬盘1000w个文件你拿这玩意试试看
作者: 安非他命    时间: 2016-11-12 19:48

引用:
原帖由 备常炭 于 2016-11-12 16:13 发表
posted by wap, platform: iPhone
10T硬盘1000w个文件你拿这玩意试试看
这么多文件!
好厉害哦!
好高端哦!
肯定是高级程序员才可能有这么多文件哦!
作者: jun4rui    时间: 2016-11-12 21:11

posted by wap, platform: Samsung
软件算md5代价不低的,很消耗时间
作者: 备常炭    时间: 2016-11-12 21:55

posted by wap, platform: iPhone
引用:
原帖由 @安非他命  于 2016-11-12 19:48 发表
这么多文件!
好厉害哦!
好高端哦!
肯定是高级程序员才可能有这么多文件哦!
实际上我公司的开发机是4T硬盘现在有650w文件,因为确实代码很多而且svn本地缓存就不说了

我认为py是搞不定的,实际上用c++不来点狠的方法32位程序也不太容易,无论是内存占用还是速度,要是扫一遍要几天那毫无价值
作者: solbadguy    时间: 2016-11-12 21:59

posted by wap, platform: Galaxy S7 Edge
我也一直找这个作用的软件,但是不太理想。比如一张图片有几个大小,想保留质量最好那张。
作者: 备常炭    时间: 2016-11-12 22:02

posted by wap, platform: iPhone
引用:
原帖由 @solbadguy  于 2016-11-12 21:59 发表
我也一直找这个作用的软件,但是不太理想。比如一张图片有几个大小,想保留质量最好那张。
这个功能我厂手机app上面有…pc端真有很大需求吗?真要呼声很高我可以要代码看看能不能搞搞
作者: solbadguy    时间: 2016-11-12 22:14

posted by wap, platform: Galaxy S7 Edge
引用:
原帖由 @备常炭  于 2016-11-12 10:02 PM 发表
这个功能我厂手机app上面有…pc端真有很大需求吗?真要呼声很高我可以要代码看看能不能搞搞
我觉得摄影爱好者或者图片多的人都需要吧。有时候编辑过图片大小,或者调整过尺寸,又另存一张。这样一张图片就要有很多个版本,但是真正需要保存的一般都是原始图片。我现在只能用超大缩略图来筛选,但是超大缩略图有时还是分不清细微区别,但是一张张用看图软件打开筛选会死人的……
作者: 真忘私绵    时间: 2016-11-13 01:39

posted by wap, platform: iPad
清了128g
40000多个

作者: cc0128    时间: 2016-11-13 09:17

posted by wap, platform: Samsung
引用:
原帖由 @备常炭  于 2016-11-12 21:55 发表
实际上我公司的开发机是4T硬盘现在有650w文件,因为确实代码很多而且svn本地缓存就不说了

我认为py是搞不定的,实际上用c++不来点狠的方法32位程序也不太容易,无论是内存占用还是速度,要是扫一遍要几天那毫无价值
算了下。md5 hash 是128bit 长度。
假如1000w个文件内存占用 128 * 1000w = 160MB。
计算时间 貌似md5 是O(n) 复杂度?(n 为文件大小)
loop一遍file也是o(n)?
对比hash用hash map。 复杂度还是o(n).


这算法看起来瓶颈在md5 上。而不是内存上。(当然文件是肯定不能放到内存里。)。

可以考虑可以写一个类似md5的算法。大文件可以考虑不读取全部文件,读一部分chunk来生成hash。。



我的结论是我不认为py干不了。这就是个很简单的程序。。运行速度瓶颈更主要在于硬盘速度。而不是语言上。。。
作者: cc0128    时间: 2016-11-13 09:18

posted by wap, platform: Samsung
引用:
原帖由 @solbadguy  于 2016-11-12 22:14 发表
我觉得摄影爱好者或者图片多的人都需要吧。有时候编辑过图片大小,或者调整过尺寸,又另存一张。这样一张图片就要有很多个版本,但是真正需要保存的一般都是原始图片。我现在只能用超大缩略图来筛选,但是超大缩略图有时还是分不清细微区别,但是一张张用看图软件打开筛选会死人的……
这个想法有意思啊。
作者: eva3d    时间: 2016-11-13 10:10

posted by wap, platform: iPhone
Mac上有 Gemini
作者: 备常炭    时间: 2016-11-13 13:19

引用:
原帖由 cc0128 于 2016-11-13 09:17 发表
posted by wap, platform: Samsung
算了下。md5 hash 是128bit 长度。
假如1000w个文件内存占用 128 * 1000w = 160MB。
计算时间 貌似md5 是O(n) 复杂度?(n 为文件大小)
loop一遍file也是o(n)?
对比hash用has ...
too young……

就一个文件来说,MD5才16个byte,那么消重和删除还得有文件的路径吧,你存吗?
就算存NTFS FRN这还是要多8个字节,这就240MB了,存全路径直接血崩。当然不用存全路径,内存里放个目录树就行了,每个文件指向自己的parent dir,这个指针4个字节,又多了40M

当然这都是只算数据本身,没有算容器的内存消耗,我只想说无论是vector还是map还是hashmap在这个数量级上都是血崩的,特别是new(malloc)本身的内存消耗。
不信你new 1000w个 16字节的结构体看看用了多少内存。

前段时间蛋疼恰好撸了这么一个玩意,直接上C++不用奇技淫巧,600w文件用大于1G内存。当然后来我用奇技淫巧优化后好看太多就不说了。
作者: shcxujun    时间: 2016-11-13 13:26

posted by wap, platform: Samsung
马克思主义
作者: 真忘私绵    时间: 2016-11-13 15:35

posted by wap, platform: iPhone
话说我点了以后程序立刻没响应等了一分钟才跳出来界面
作者: cc0128    时间: 2016-11-13 19:08

posted by wap, platform: Samsung
引用:
原帖由 @备常炭  于 2016-11-13 13:19 发表
too young……

就一个文件来说,MD5才16个byte,那么消重和删除还得有文件的路径吧,你存吗?
就算存NTFS FRN这还是要多8个字节,这就240MB了,存全路径直接血崩。当然不用存全路径,内存里放个目录树就行了,每个文件指向自己的parent dir,这个指针4个字节,又多了40M

当然这都是只算数据本身,没有算容器的内存消耗,我只想说无论是vector还是map还是hashmap在这个数量级上都是血崩的,特别是new(malloc)本身的内存消耗。
不信你new 1000w个 16字节的结构体看看用了多少内存。

前段时间蛋疼恰好撸了这么一个玩意,直接上C++不用奇技淫巧,600w文件用大于1G内存。当然后来我用奇技淫巧优化后好看太多就不说了。
实在怕内存不够弄个no sql不就okay了。
还是不能理解Python为啥做不了。
这东西瓶颈在磁盘速度。
作者: zzergs    时间: 2016-11-14 10:33

posted by wap, platform: Chrome
推荐这个:
Duplicate Cleaner Pro
可以按文件名称,md5,日期大小等等选项。
对图片不仅仅是按大小,还可以按内容相似度比较(还可以选择相似度百分比),可以比较出已经旋转、翻转,分辨率不一样也可以。
图片筛重我没试过不知道慢不慢,比文件是很快的。
作者: warakia    时间: 2016-11-14 12:09

posted by wap, platform: Chrome
马克一下 正好需要这种功能的软件
作者: 一瞬千万    时间: 2016-11-14 13:39

posted by wap, platform: Android
很喜欢这种软件
作者: 提拉    时间: 2016-11-14 13:47

posted by wap, platform: Android
不错的帖子
作者: soloyu    时间: 2016-11-14 13:54

posted by wap, platform: Android
mark
作者: 我爱一条柴啊    时间: 2016-11-14 14:12

posted by wap, platform: Chrome
马克
作者: awingbird    时间: 2016-11-14 21:49

posted by wap, platform: iPhone
人肉马克司机
作者: akiravf    时间: 2016-11-15 06:29

posted by wap, platform: iPhone
马克思马克思
作者: blaze1999    时间: 2016-11-15 08:21

posted by wap, platform: iPhone
不错 下的片子多了 清一清好
作者: slaimlin    时间: 2016-11-15 12:18

posted by wap, platform: Chrome
window自带搜索后按大小排序
everything也可以
作者: natrs    时间: 2016-11-15 15:34

posted by wap, platform: Galaxy S7 Edge
这种软件真的很需要。经常在用到的时候就会想有这么个软件就方便很多了。文件名相同的倒还好找,关键是文件名不同,文件尺寸大小有略微差别的。就和楼上说的有高清的照片和修改过的照片。
作者: finalx    时间: 2016-11-16 15:46

posted by wap, platform: iPhone
引用:
原帖由 @安非他命  于 2016-11-12 16:07 发表
老天爷

https://github.com/artzers/Pytho ... eleteRepeatFiles.py
提个建议,计算每个文件hash没什么意义,inode里直接查找hard links > 1就可以了
作者: n2    时间: 2016-11-18 23:37

posted by wap, platform: Windows
顶一下,1楼那个很不错,速度快, 但是比较sb只能全选右边。。。不能选左边。。太多的话就用按键精灵来按。

然后是后面提到的 pro ,http://dl.pconline.com.cn/download/61067.html        我要找相似名称。。看看行不行
作者: 真忘私绵    时间: 2016-11-18 23:42

posted by wap, platform: iPhone
引用:
原帖由 @n2  于 2016-11-18 23:37 发表
顶一下,1楼那个很不错,速度快, 但是比较sb只能全选右边。。。不能选左边。。太多的话就用按键精灵来按。

然后是后面提到的 pro ,http://dl.pconline.com.cn/download/61067.html        我要找相似名称。。看看行不行
左边是你初始选的硬盘
作者: n2    时间: 2016-11-19 00:52

posted by wap, platform: Windows
引用:
原帖由 @真忘私绵  于 2016-11-18 23:42 发表
左边是你初始选的硬盘
然而不是。。。。。。。。。。。。。。。。。。。我试过切换上面的目录,下面的没区别。。
作者: 真忘私绵    时间: 2016-11-19 02:03

posted by wap, platform: iPhone
引用:
原帖由 @n2  于 2016-11-19 00:52 发表
然而不是。。。。。。。。。。。。。。。。。。。我试过切换上面的目录,下面的没区别。。
就是你选的第一个硬盘作为基础
后面添加的都在右边
重复是优先基础的
作者: 小兵    时间: 2016-11-19 06:13

posted by wap, platform: LG
马克




欢迎光临 TGFC Lifestyle (http://bbs.tgfcer.com/) Powered by Discuz! 6.0.0