Removed the MD5 option which was useless.
[finddup.git] / finddup.1
index 18c27e5..e262386 100644 (file)
--- a/finddup.1
+++ b/finddup.1
@@ -66,14 +66,17 @@ files with same inode are considered as different
 
 None known, probably many. Valgrind does not complain though.
 
+The current algorithm is dumb, that is it does not use any hashing of
+the file content. I tried md5 on the whole file, which is not
+satisfactory because files are often never read entirely hence the md5
+can not be properly computed. I also tried XOR of the first 4, 16 and
+256 bytes with rejection as soon as one does not match. Did not help
+either.
+
 .SH "WISH LIST"
 
 The format of the output should definitely be improved. Not clear how.
 
-The comparison algorithm could maybe be improved with some MD5 kind of
-signature. However, most of the time is taken by comparison for
-matching files, which are required even when using a hash.
-
 Their could be some fancy option to link two instances of the command
 running on different machines to reduce network disk accesses. Again,
 this may not help much, for the reason given above.