Cosmetics.
[finddup.git] / finddup.1
index 840c977..46a4326 100644 (file)
--- a/finddup.1
+++ b/finddup.1
@@ -61,19 +61,32 @@ show the real path of the files
 .TP
 \fB-i\fR, \fB--same-inodes-are-different\fR
 files with same inode are considered as different
+.TP
+\fB-m\fR, \fB--md5\fR
+use MD5 hashing
 
 .SH "BUGS"
 
 None known, probably many. Valgrind does not complain though.
 
+The MD5 hashing is not satisfactory. It is computed for a file only if
+the said file has to be read fully for a comparison (i.e. two files
+match and we have to read them completely).
+
+Hence, in practice lot of partial MD5s are computed, which costs a lot
+of cpu and is useless. This often hurts more than it helps, hence it
+is off by default. The only case when it should really be useful is
+when you have plenty of different files of same size, and lot of
+similar ones, which does not happen often.
+
+Forcing the files to be read fully so that the MD5s are properly
+computed is not okay neither, since it would fully read certain files,
+even if we will never need their MD5s.
+
 .SH "WISH LIST"
 
 The format of the output should definitely be improved. Not clear how.
 
-The comparison algorithm could maybe be improved with some MD5 kind of
-signature. However, most of the time is taken by comparison for
-matching files, which are requires even when using a hash.
-
 Their could be some fancy option to link two instances of the command
 running on different machines to reduce network disk accesses. Again,
 this may not help much, for the reason given above.