z.b. mp3 bzw generell für sound & video & bilder
um meinen datenmüll beseitigen zu können =?
danke
Programme um doppelte Daten aufzuspüren [gelöst]
Programme um doppelte Daten aufzuspüren [gelöst]
Zuletzt geändert von Valdez am 19.01.2010 16:54:26, insgesamt 1-mal geändert.
<<its like 10.000 spoons when all you need is a knife>>
-
- Beiträge: 237
- Registriert: 26.04.2009 01:57:27
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Nettetal
-
Kontaktdaten:
Re: Programme um doppelte Daten aufzuspüren
Das Thema würde mich auch interessieren. Es gibt ja einmal die Programme, die exakt gleiche Dateien aufspüren. Gibt es aber auch Programme, die ein Musikstück erkennen, dass einmal als mp3 und noch ein zweites Mal als ogg encodiert ist?
Re: Programme um doppelte Daten aufzuspüren
Hi!
Beispiel:
Er vergleicht erst und fragt dann bei jeder doppelten Datei nach. Die Datei "test2" wurde in diesem Fall gelöscht.
mfg pluvo
Code: Alles auswählen
fdupes --recurse --size --delete Ordner/
Code: Alles auswählen
$ fdupes --recurse --size --delete Ordner/
[1] Ordner/test1
[2] Ordner/test2
Set 1 of 1, preserve files [1 - 2, all] (10 bytes each): 1
[+] Ordner/test1
[-] Ordner/test2
$
mfg pluvo
-
- Beiträge: 3800
- Registriert: 26.02.2009 14:35:56
Re: Programme um doppelte Daten aufzuspüren
Wie soll das denn funktionieren - das sind doch binäre Daten, die sich, da ja
anders kodiert - niemals vergleichen lassen. Äpfel sind keine Pferdeäpfel !!!
Spätestens der Geruchs- und Geschmackstest bringt da Klarheit....
anders kodiert - niemals vergleichen lassen. Äpfel sind keine Pferdeäpfel !!!
Spätestens der Geruchs- und Geschmackstest bringt da Klarheit....
Re: Programme um doppelte Daten aufzuspüren
die einzige Möglichkeit, die ich sehe wäre nach dem Dateinamen ohne Endung schauen und dann manuell durch diese Liste durcharbeiten.
-
- Beiträge: 42
- Registriert: 13.04.2009 08:17:54
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Verden - Nds.
Re: Programme um doppelte Daten aufzuspüren
Hallo Valdez,
eine interessante Möglichkeit habe ich auf dieser Seite der TU-Chemnitz gefunden.
http://www-user.tu-chemnitz.de/~hot/uni ... asten.html
# Auffinden von identischen Dateien (Dubletten) innerhalb eines Dateibaums:
# findet alle Dateien ab dem aktuellen Verzeichnis, die höchstwahrscheinlich
# mehrfach identisch vorkommen; mit find wird die Liste aller Dateien
# erstellt; durch die korrespondierenden Optionen -print0 von
# find und -0 von xargs werden auch File-Namen mit Leer-
# und Sonderzeichen korrekt behandelt; für alle ermittelten Dateien wird die
# 32 Zeichen lange externe Repräsentation der MD5-Summe errechnet; die Liste
# wird nach dieser Summe sortiert; mittels uniq -D werden alle
# Einträge der Liste ausgegeben, die mehrfach vorkommen; durch die Option
# -w 32 betrachtet uniq nur die ersten 32 Zeichen jeder Zeile,
# also die MD5-Summe und nicht den dahinter folgenden Dateinamen
# find . -type f -print0 | xargs -0 md5sum | sort | uniq -D -w 32
also z.B. alle mp3's ab dem aktuellen Verz. die höchstwahrscheinlich identisch sind
werden in die Datei 'dubletten.txt' geschrieben
find . -type f -iname "*.mp3" -print0 | xargs -0 md5sum | sort | uniq -D -w 32 > dubletten.txt
Gruss Underliner
eine interessante Möglichkeit habe ich auf dieser Seite der TU-Chemnitz gefunden.
http://www-user.tu-chemnitz.de/~hot/uni ... asten.html
# Auffinden von identischen Dateien (Dubletten) innerhalb eines Dateibaums:
# findet alle Dateien ab dem aktuellen Verzeichnis, die höchstwahrscheinlich
# mehrfach identisch vorkommen; mit find wird die Liste aller Dateien
# erstellt; durch die korrespondierenden Optionen -print0 von
# find und -0 von xargs werden auch File-Namen mit Leer-
# und Sonderzeichen korrekt behandelt; für alle ermittelten Dateien wird die
# 32 Zeichen lange externe Repräsentation der MD5-Summe errechnet; die Liste
# wird nach dieser Summe sortiert; mittels uniq -D werden alle
# Einträge der Liste ausgegeben, die mehrfach vorkommen; durch die Option
# -w 32 betrachtet uniq nur die ersten 32 Zeichen jeder Zeile,
# also die MD5-Summe und nicht den dahinter folgenden Dateinamen
# find . -type f -print0 | xargs -0 md5sum | sort | uniq -D -w 32
also z.B. alle mp3's ab dem aktuellen Verz. die höchstwahrscheinlich identisch sind
werden in die Datei 'dubletten.txt' geschrieben
find . -type f -iname "*.mp3" -print0 | xargs -0 md5sum | sort | uniq -D -w 32 > dubletten.txt
Gruss Underliner
Google is my teacher !!!