Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
Doppelte Dateien filtern
View unanswered posts
View posts from last 24 hours
View posts from last 7 days

 
Reply to topic    Gentoo Forums Forum Index Deutsches Forum (German)
View previous topic :: View next topic  
Author Message
xtrace
Tux's lil' helper
Tux's lil' helper


Joined: 17 May 2010
Posts: 75

PostPosted: Wed Jan 29, 2014 9:31 am    Post subject: Doppelte Dateien filtern Reply with quote

Hi,

vielleicht kann mir hier wer weiterhelfen.

Ich habe folgendens Problem:

Eine Festplatte mit ca. 1,5 TB Daten. Diese setzen sich aus verdiedenen Datentypen zusammen.
Nun habe ich das Problem, dass manche Dateien doppelt sind und ich diese gerne raussuchen möchte. Dabei dachte ich zunächst daran, den Dateinamen zu vergleichen.
Da dann allerdings auch der Inhalt unterschiedlich sein kann, müsste ich auch die Größe und evtl. auch die Checksumme vergleichen.

Mir würde eine Dateiliste reichen, die die doppelten Dateien auflisten würde.

Kann man dazu ein Script schreiben? Womit wäre es am leichtesten zu bewerkstelligen? Bash, perl, python ? Fertige Suchprogramme waren bisher unzuverlässig.

Danke :!:

Grüße
Back to top
View user's profile Send private message
frostschutz
Advocate
Advocate


Joined: 22 Feb 2005
Posts: 2970
Location: Germany

PostPosted: Wed Jan 29, 2014 9:55 am    Post subject: Reply with quote

emerge fdupes

und wenn du das unzuverlässig findest, solltest du vielleicht mal ausführen, wie du das meinst.
Back to top
View user's profile Send private message
l3u
Advocate
Advocate


Joined: 26 Jan 2005
Posts: 2328
Location: Konradsreuth (Germany)

PostPosted: Wed Jan 29, 2014 1:17 pm    Post subject: Reply with quote

Code:
find -type f -print0 | xargs -0 md5sum | sort

spuckt zumindest mal ne Liste aller Dateien mit MD5-Summe aus, sortiert nach eben dieser. Die Dateien, die untereinander stehen (mit der selben Prüfsumme) sind aller Wahrscheinlichkeit nach (inhaltlich) identisch.

Wobei sich derjenige, der fdupes geschrieben hat, höchstwahrscheinlich tiefgreifendere Gedanken über die Thematik gemacht hat ;-)
Back to top
View user's profile Send private message
py-ro
Veteran
Veteran


Joined: 24 Sep 2002
Posts: 1733
Location: St. Wendel

PostPosted: Wed Jan 29, 2014 1:22 pm    Post subject: Reply with quote

Die dup tools machen im ersten Durchgang meist nur eine Prüfsumme eines Teils der Datei, sonst müssten alle Dateien komplett gelesen werden.

Py
Back to top
View user's profile Send private message
frostschutz
Advocate
Advocate


Joined: 22 Feb 2005
Posts: 2970
Location: Germany

PostPosted: Thu Jan 30, 2014 8:06 am    Post subject: Reply with quote

erstmal wird die größe verglichen (was verschieden groß ist kann nicht gleich sein), und dann nur noch die gleich großen dateien miteinander verglichen. ob fdupes das dann durch teilweise lesen oder mit kompletthashes macht... gute frage ;)

so oder so ist es um Welten effizienter als find xargs md5sum...
Back to top
View user's profile Send private message
l3u
Advocate
Advocate


Joined: 26 Jan 2005
Posts: 2328
Location: Konradsreuth (Germany)

PostPosted: Thu Jan 30, 2014 11:33 am    Post subject: Reply with quote

Sag ich ja ;-)

fdupes.c wrote:
TODO: Partial sums (for working with very large files).

macht also keine Teilweisen Prüfsummen.
Back to top
View user's profile Send private message
xtrace
Tux's lil' helper
Tux's lil' helper


Joined: 17 May 2010
Posts: 75

PostPosted: Thu Jan 30, 2014 1:53 pm    Post subject: Reply with quote

Ich habe es nun folgendermaßen gelöst:

Code:

find /.../ -type f -print0 | xargs -0 md5sum | sort | uniq -w32 -D >> bla.csv


Nun muss ich mir nur noch überlegen, wie ich die Daten weiter auswerte....

Danke!
Back to top
View user's profile Send private message
mv
Watchman
Watchman


Joined: 20 Apr 2005
Posts: 6281

PostPosted: Thu Jan 30, 2014 11:47 pm    Post subject: Reply with quote

find_double aus mv_perl (aus dem mv overlay) findet Duplikate, ohne Prüfsummen zu berechnen: Die Dateien werden nur so weit gelesen, wie zu ihrer vollständigen Sortierung nötig ist.
Als Nebenwirkung können optional sogar "identische" Dateien gefunden werden, bei denen eine nur länger ist als die andere.
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index Deutsches Forum (German) All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum