cjmatsel 10 Geschrieben 23. Mai 2013 Melden Teilen Geschrieben 23. Mai 2013 Hi, ich weiß nicht wohin ich mich wenden soll daher versuche ich einfach mal mein Glück in diesem Forum: Ich habe einen Linux-Webserver vor die Nase gesetzt bekommen welcher per HTTP Dateien zum Download anbietet (ca. 130 GB / Apache mit Directory Listing). Diese Dateien lade ich mittels wget per Taskplaner herunter und synchronisiere sie auf andere Server mit DFS. Klappt wunderbar! Mein Problem: Löscht der Hersteller auf seinem Webserver Dateien, bekomme ich das nicht mit. Demnach verbleiben diese bei mir und der Speicherplatz wächst schnell an (ca. 10GB pro Woche). Offensichtlich kann wget per http keine verwaisten Dateien erkennen und löschen; wie könnte man das Problem lösen bzw. wie würdet ihr das machen? cu, cjmatsel Zitieren Link zu diesem Kommentar
Dukel 454 Geschrieben 23. Mai 2013 Melden Teilen Geschrieben 23. Mai 2013 Ich würde (k.a. ob das so mit wget geht oder das ein eigenes Script / Programm benötigt) folgendes machen. Lokal die Daten Temporär verschieben, alle Dateien auf dem Webserver auflisten (z.B. Name, Größe, Datum) und mit den Lokalen vergleichen. Wenn eine Datei lokal existiert diese kopieren, wenn nicht herunterladen und am Ende das Temporäre verzeichnis löschen. Oder (einfacher, braucht aber mehr Bandbreite): Lokal alle Daten löschen und jedes mal neu ziehen. Zitieren Link zu diesem Kommentar
cjmatsel 10 Geschrieben 24. Mai 2013 Autor Melden Teilen Geschrieben 24. Mai 2013 Hi, die Bandbreite hätte ich, aber bei über 100GB wird das zum einen ein Zeit- und HDD-Problem und zum anderen werden die Daten ja per DFS (und dann über dürre WAN-Verbindungen) repliziert. Das schlägt dann kräftig zu! Soweit ich lesen konnte ist das Thema "orphaned files" bei den wget-Entwicklern zwar angekommen aber bisher noch nicht gelöst worden. Wenn ein anderes Tool gibt was das kann dann nehme ich das gern... Ich hatte schon so eine ähnliche Lösung: Einfach alles herunterladen in ein temporäres Verzeichnis und dann in das DFS-Verzeichnis verschieben, dabei mittels robocopy nicht enthaltene Dateien löschen. Das temporäre Verzeichnis wird dann immer schön geleert... Das Problem: doppelter Speicherplatz ist notwendig! Zitieren Link zu diesem Kommentar
Dukel 454 Geschrieben 24. Mai 2013 Melden Teilen Geschrieben 24. Mai 2013 Das sollte ja nicht an 130GB Temporärem Platz scheitern. Im zweifel ne USB Disk. Zitieren Link zu diesem Kommentar
Ralli64 13 Geschrieben 24. Mai 2013 Melden Teilen Geschrieben 24. Mai 2013 Hallo cjmatsel, Ist lange her, als ich mich mit wget beschäftigt habe... Es gibt für wget den Schalter "-m", das steht für "--mirror". Damals haben wir so fleissig unsere http-Server gespiegelt. Ist ja vielleicht ein Ansatz für Dich. Gruß Ralf Zitieren Link zu diesem Kommentar
Empfohlene Beiträge
Schreibe einen Kommentar
Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.