Wir alle lieben es, Inhalte aus dem Internet herunterzuladen, und es gibt unzählige großartige Download-Manager-Tools, mit denen wir unsere Downloads planen können. Es ist vielleicht einfacher, einen Download-Manager zu verwenden, aber es schadet nicht, die bereits mit unserem Ubuntu gelieferten Tools zu erkunden und sie vollständig zu nutzen.
In diesem Artikel zeigen wir Ihnen eine in Ubuntu integrierte Software, mit der wir Inhalte aus dem Internet herunterladen können wget . Darüber hinaus zeigen wir Ihnen, wie Sie den Download mit Cron planen.
Mit Wget herunterladen
Wget ist ein kostenloses Softwarepaket zum Abrufen von Dateien mit HTTP, HTTPS und FTP, den am häufigsten verwendeten Internetprotokollen. Da es sich um ein nicht interaktives Befehlszeilentool handelt, kann es problemlos von Skripten, Cron-Jobs, Terminals ohne X-Windows-Unterstützung usw. aufgerufen werden.
Öffnen Sie Ihr Terminal und lassen Sie uns untersuchen, wie wir mit wget Inhalte aus dem Internet herunterladen können. Die grundlegende Syntax für das Herunterladen mit wget lautet wie folgt:
wget [option]… [URL]…
Dieser Befehl lädt das wget-Handbuch auf Ihr lokales Laufwerk herunter
wget http://www.gnu.org/software/wget/manual/wget.pdf
Linux Cron
Ubuntu wird mit einem Cron-Daemon geliefert, mit dem Aufgaben geplant werden, die zu einem bestimmten Zeitpunkt ausgeführt werden sollen. Mit Crontab können Sie Aktionen und Zeiten angeben, zu denen sie ausgeführt werden sollen. So planen Sie normalerweise eine Aufgabe mit dem Befehlszeilentool.
Öffnen Sie ein Terminalfenster und geben Sie crontab -e ein.
Jeder der Abschnitte in einer Crontab ist durch ein Leerzeichen getrennt, wobei der letzte Abschnitt ein oder mehrere Leerzeichen enthält. Ein Cron-Eintrag besteht aus Minute (0-59), Stunde (0-23, 0 = Mitternacht), Tag (1-31), Monat (1-12), Wochentag (0-6, 0 = Sonntag), Befehl. Der dritte Eintrag in der obigen Crontab lädt wget.pdf um 2 Uhr morgens herunter. Der erste Eintrag (0) und der zweite Eintrag (2) bedeuten 2:00. Der dritte bis fünfte Eintrag (*) bedeutet eine beliebige Tages-, Monats- oder Wochenzeit. Der letzte Eintrag ist der Befehl wget zum Herunterladen der Datei wget.pdf von der angegebenen URL.
Das ist die Grundvoraussetzung für wget und wie Cron funktioniert. Nehmen wir ein Beispiel aus der Praxis, wie Sie einen Download planen können.
Planen des Downloads
Wir werden Firefox 3.6 um 2 Uhr morgens herunterladen. Da unser ISP nur eine begrenzte Datenmenge bereitstellt, müssen wir den Download um 8 Uhr morgens beenden. So sieht das Setup aus.
Ignorieren Sie die ersten 2 Einträge in der obigen Crontab. Der dritte und vierte Befehl sind die einzigen zwei Befehle, die Sie benötigen. Mit dem dritten Befehl wird eine Aufgabe eingerichtet, mit der Firefox um 2 Uhr morgens heruntergeladen wird:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=de-DE
[/code]
Die Optionen -c geben an, dass wget den vorhandenen Download fortsetzen soll, wenn er nicht abgeschlossen wurde.
Der vierte Befehl stoppt wget um 8 Uhr. 'Killall' ist ein Unix-Befehl, der Prozesse nach Namen beendet.
[code]
0 8 * * * killall wget
[/code]
Das Killall-Wget weist Ubuntu an, das Herunterladen der Datei um 8 Uhr zu stoppen.
Andere nützliche wget-Befehle
1. Geben Sie das Verzeichnis an, in das eine Datei heruntergeladen werden soll
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
Mit der Option –output-document können Sie das Verzeichnis und den Namen der Datei angeben, die Sie herunterladen
2. Herunterladen einer Website
wget kann auch eine Website herunterladen.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
Mit dem obigen Befehl wird meine gesamte Google-Profilwebseite heruntergeladen. Die Option "-m" weist wget an, ein "Spiegelbild" der angegebenen URL herunterzuladen.
Eine weitere wichtige Option besteht darin, wget mitzuteilen, wie viele Links beim Herunterladen einer Website folgen sollen.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
Der obige Befehl wget verwendet zwei Optionen. Die erste Option "-r" weist wget an, die angegebene Website rekursiv herunterzuladen. Die zweite Option "-l1" weist wget an, nur die erste Ebene von Links von dieser angegebenen Website abzurufen. Wir können bis zu drei Ebenen "-l2" und "-l3" einstellen.
3. Robotereintrag ignorieren
Der Webmaster verwaltet eine Textdatei mit dem Namen Robot.txt. "Robot.txt" verwaltet eine Liste von URLs, die ein Webseiten-Crawler wie wget nicht crawlen sollte. Wir können wget anweisen, die "Robot.txt" mit der Option "-erobots = off" zu ignorieren. Der folgende Befehl weist wget an, die erste Seite meines Google-Profils herunterzuladen und die Datei "Robot.txt" zu ignorieren.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Eine weitere nützliche Option ist -U. Diese Option maskiert wget als Browser. Beachten Sie, dass das Maskieren einer Anwendung als andere Anwendung möglicherweise gegen die Bestimmungen und den Dienst eines Webdienstanbieters verstößt.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Fazit
Wget ist ein sehr altes, aber hackbares GNU-Softwarepaket, mit dem wir Dateien herunterladen können. Wget ist ein interaktives Befehlszeilentool, mit dem wir es im Hintergrund auf unserem Computer ausführen können, ohne eine Anwendung starten zu müssen. Schauen Sie sich die wget-Manpage an
[code]
$ man wget
[/code]
um andere Optionen zu verstehen, die wir mit wget verwenden können.
Links
Wget Handbuch
So kombinieren Sie zwei heruntergeladene Dateien, wenn wget auf halbem Weg fehlschlägt
Linux QuickTip: Herunterladen und Entteeren in einem Schritt