Wget komplette webseiten herunterladen

Beachten Sie, dass es sich bei dem Archiv nicht um eine Sicherung handelt und Sie Ihre Website nicht wiederherstellen können. Die beschriebene Methode verwendet Front-End-Crawling, ähnlich wie es eine Suchmaschine tut. Es werden nur Seiten gefunden, mit denen andere verknüpft sind. Als Nebeneffekt sehen Sie, wie wichtig es ist, interne Links auf einer Website zu verwenden, um Inhalte miteinander zu verbinden, um Robotern beim Durchforsten Ihrer Website zu helfen. wget ist weiterhin gründlich entwickelt, und obwohl ich es nicht persönlich ausprobiert habe (ich kopiere hauptsächlich `Legacy`-Websites…), scheint es in der Lage zu sein, mit HTML5-Tags so weit zu gehen, wie man sich als eine aktuelle Version von, sagen wir, Chrome oder Firefox identifiziert; Wenn es sich standardmäßig identifiziert, kann der Webserver, den er ebenfalls verbindet, einfach denken, dass es sich um einen sehr alten Browser handelt, der versucht, auf die Website zuzugreifen und den html zurückübergaben HTML zu `vereinfachen`(d. h. es auf HTML4 oder so herunterzustufen). Dies ist natürlich kein Problem mit wget per se, sondern die Art und Weise, wie Webserver (und Webdesigner!) immer cleverer im Umgang mit einer Vielzahl von Benutzern, Browsern und Plattformen werden. wget -r -p -U Mozilla www.example.com/restricedplace.html Um zu überprüfen, ob es funktioniert, drücken Sie windows+R erneut und fügen Sie cmd /k “wget -V” ein – es sollte nicht sagen, dass “wget” nicht erkannt wird.

Manchmal möchten Sie eine Offlinekopie einer Website erstellen, die Sie auch ohne Internetzugang aufnehmen und anzeigen können. Mit wget können Sie eine solche Kopie leicht machen: Die meisten Einstellungen haben eine kurze Version, aber ich habe nicht die Absicht, diese zu merken oder zu tippen. Der längere Name ist wahrscheinlich aussagekräftiger und erkennbarer. Ich habe diese speziellen Einstellungen aus dem umfassenden Wget-Handbuch ausgewählt, so dass Sie nicht zu tief tauchen müssen, da es eine relativ lange Lektüre ist. Überprüfen Sie die offizielle Beschreibung dieser Einstellungen, wenn Sie möchten, da hier teile ich nur meine Meinung und warum ich sie gewählt. In der Reihenfolge der Bedeutung, hier sind sie. Stellen Sie sich vor, Sie haben eine ganze Website heruntergeladen, nur um am Ende unbrauchbare Daten zu erhalten. Es sei denn, die Dateien enden in ihren natürlichen Erweiterungen, Sie oder Ihr Browser ist nicht in der Lage, sie zu öffnen. Heutzutage enthalten die meisten Links nicht das .html-Suffix, obwohl sie beim Herunterladen .html-Dateien sein sollten. Mit dieser Einstellung können Sie die Seiten öffnen, ohne das Archiv auf einem Server zu hosten. Eine kleine Einschränkung ist, dass es versucht, intelligent zu sein, um zu bestimmen, welche Art von Erweiterung zu verwenden ist, und es ist nicht perfekt.

Wenn Sie die nächste Einstellung nicht verwenden, können Inhalte, die über gzip gesendet werden, mit einer ziemlich unbrauchbaren .gz-Erweiterung enden. Es gibt noch ein Problem. Möglicherweise werden alle Seiten lokal angezeigt, aber die Links auf den Seiten verweisen auf den ursprünglichen Ort. Es ist nicht möglich, lokal zwischen den Links auf den Seiten zu klicken. Ich schließe es nur ein, da ich auf einen Server gelaufen bin, auf dem sich wget für jede Anfrage beschwert hat, dass ich dies verwenden sollte. Ich beabsichtige nicht, den Prozess später im selben Ordner erneut auszuführen, um die aktuelle Website nachzuholen. Daher spielt es keine große Rolle, wie wget überprüft, ob Dateien auf dem Server geändert wurden. Bots können verrückt werden, wenn sie die interaktiven Teile von Websites erreichen und seltsame Abfragen für die Suche finden. Sie können jede URL mit bestimmten Wörtern ablehnen, um zu verhindern, dass bestimmte Teile der Website heruntergeladen werden. Wahrscheinlich werden Sie nur aufdecken, was Sie hätten entlassen sollen, nachdem wget mindestens einmal fehlschlägt. Für mich hat es zu lange Dateinamen generiert, und das Ganze fror.