opp 10 Geschrieben 20. Dezember 2004 Melden Teilen Geschrieben 20. Dezember 2004 Moin! Wir haben hier in der Uni eine Art von Datenbank (Rauschdaten), die jeden Datensatz in einer Datei speichert - Diese Dateien sind jeweils einige MB gross, wobei das ja eigentlich nicht weiter von interesse ist. Im Dateinamen werden Keywords angegeben, was der einzelne Datensatz jeweils enthält. Die Daten haben sich jetzt über 6-7 Jahre angesammelt und daher sind viele Fast-Duplikate in der Datenbank, also Dateien welche ungefähr dieselben Daten enthalten und sehr ähnliche Keywords im Dateinamen haben und auch teilweise Größenmässig ähnlich sind. Mit Dateinamenähnlichkeit sind einmal gleiche Wörter / Buchstabenfolgen und auch phonetische Ähnlichkeit gemeint. Gibt es ein Programm mit dem ich zB Solche Dateipaare, -tripel, usw. finden und die Dateidaten anzeigen lassen kann kann und dann auswählen kann welches gelöscht wird? Oder gar einstellen kann dass immer der grösste Datensatz behalten wird? Ich stelle mir das so vor, daß einfach Ein Ordner eingegeben wird, den das programm dann (samt unterordnern) durchsucht und dann die gefundenen duplikate zum bearbeiten übergibt. Danke schonmal, OPP Zitieren Link zu diesem Kommentar
Damian 1.613 Geschrieben 20. Dezember 2004 Melden Teilen Geschrieben 20. Dezember 2004 Hi. Schau dir das mal an: http://www.alldup.de/alldup.htm Damian Zitieren Link zu diesem Kommentar
opp 10 Geschrieben 21. Dezember 2004 Autor Melden Teilen Geschrieben 21. Dezember 2004 Oho! Das sieht doch gut aus! Probier ich mal an einer Kopie der Datenbank! Danke!! Noch jemand was? :) Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.