Programme um doppelte Daten aufzuspüren [gelöst]

Valdez · Beitrag von **Valdez** » 13.01.2010 16:00:13

z.b. mp3 bzw generell für sound & video & bilder

um meinen datenmüll beseitigen zu können =?

danke

Six · Beitrag von **Six** » 13.01.2010 16:13:03

cruft, fslint

coresploit · Beitrag von **coresploit** » 13.01.2010 21:47:38

Das Thema würde mich auch interessieren. Es gibt ja einmal die Programme, die exakt gleiche Dateien aufspüren. Gibt es aber auch Programme, die ein Musikstück erkennen, dass einmal als mp3 und noch ein zweites Mal als ogg encodiert ist?

pluvo · Beitrag von **pluvo** » 13.01.2010 22:17:09

Hi!

fdupes

Code: Alles auswählen

fdupes --recurse --size --delete Ordner/

Beispiel:

Code: Alles auswählen

$ fdupes --recurse --size --delete Ordner/
[1] Ordner/test1                        
[2] Ordner/test2

Set 1 of 1, preserve files [1 - 2, all] (10 bytes each): 1

   [+] Ordner/test1
   [-] Ordner/test2

$

Er vergleicht erst und fragt dann bei jeder doppelten Datei nach. Die Datei "test2" wurde in diesem Fall gelöscht.

mfg pluvo

pferdefreund · Beitrag von **pferdefreund** » 14.01.2010 12:13:40

Wie soll das denn funktionieren - das sind doch binäre Daten, die sich, da ja
anders kodiert - niemals vergleichen lassen. Äpfel sind keine Pferdeäpfel !!!
Spätestens der Geruchs- und Geschmackstest bringt da Klarheit....

Liffi · Beitrag von **Liffi** » 14.01.2010 23:10:57

die einzige Möglichkeit, die ich sehe wäre nach dem Dateinamen ohne Endung schauen und dann manuell durch diese Liste durcharbeiten.

underliner · Beitrag von **underliner** » 16.01.2010 09:14:55

Hallo Valdez,

eine interessante Möglichkeit habe ich auf dieser Seite der TU-Chemnitz gefunden.

http://www-user.tu-chemnitz.de/~hot/uni ... asten.html

# Auffinden von identischen Dateien (Dubletten) innerhalb eines Dateibaums:

# findet alle Dateien ab dem aktuellen Verzeichnis, die höchstwahrscheinlich
# mehrfach identisch vorkommen; mit find wird die Liste aller Dateien
# erstellt; durch die korrespondierenden Optionen -print0 von
# find und -0 von xargs werden auch File-Namen mit Leer-
# und Sonderzeichen korrekt behandelt; für alle ermittelten Dateien wird die
# 32 Zeichen lange externe Repräsentation der MD5-Summe errechnet; die Liste
# wird nach dieser Summe sortiert; mittels uniq -D werden alle
# Einträge der Liste ausgegeben, die mehrfach vorkommen; durch die Option
# -w 32 betrachtet uniq nur die ersten 32 Zeichen jeder Zeile,
# also die MD5-Summe und nicht den dahinter folgenden Dateinamen
# find . -type f -print0 | xargs -0 md5sum | sort | uniq -D -w 32

also z.B. alle mp3's ab dem aktuellen Verz. die höchstwahrscheinlich identisch sind
werden in die Datei 'dubletten.txt' geschrieben

find . -type f -iname "*.mp3" -print0 | xargs -0 md5sum | sort | uniq -D -w 32 > dubletten.txt

Gruss Underliner

debianforum.de

Programme um doppelte Daten aufzuspüren [gelöst]

Programme um doppelte Daten aufzuspüren [gelöst]

Re: Programme um doppelte Daten aufzuspüren

Re: Programme um doppelte Daten aufzuspüren

Re: Programme um doppelte Daten aufzuspüren

Re: Programme um doppelte Daten aufzuspüren

Re: Programme um doppelte Daten aufzuspüren

Re: Programme um doppelte Daten aufzuspüren