Nous aimons tous télécharger des contenus sur Internet, et il existe de nombreux outils de gestion de téléchargement que nous pouvons utiliser pour planifier nos téléchargements. Il est peut-être plus simple d'utiliser un gestionnaire de téléchargement, mais il n'y a aucun mal à explorer les outils déjà fournis avec notre Ubuntu et à en tirer pleinement parti.
Dans cet article, nous allons vous montrer un logiciel intégré à Ubuntu que nous pouvons utiliser pour télécharger des éléments sur Internet en utilisant wget . En plus de cela, nous vous montrerons comment planifier le téléchargement à l'aide de Cron.
Télécharger avec Wget
Wget est un logiciel gratuit permettant de récupérer des fichiers en utilisant HTTP, HTTPS et FTP, les protocoles Internet les plus utilisés. Il s'agit d'un outil de ligne de commande non interactif, il peut donc être facilement appelé à partir de scripts, de tâches cron, de terminaux sans prise en charge de X-Windows, etc.
Ouvrez votre terminal et explorons comment nous pouvons utiliser wget pour télécharger des contenus sur Internet. La syntaxe de base du téléchargement avec wget est la suivante:
wget [option]… [URL]…
Cette commande téléchargera le manuel wget sur votre lecteur local
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ληνύχ Κρών
Ubuntu est livré avec un démon cron utilisé pour planifier des tâches à exécuter à un certain moment. Crontab vous permet de spécifier les actions et les heures auxquelles elles doivent être exécutées. C'est ainsi que vous planifiez normalement une tâche à l'aide de l'outil de ligne de commande.
Ouvrez une fenêtre de terminal et entrez crontab -e.
Chacune des sections d'un crontab est séparée par un espace, la section finale contenant un ou plusieurs espaces. Une entrée cron se compose de minute (0-59), heure (0-23, 0 = minuit), jour (1-31), mois (1-12), jour de la semaine (0-6, 0 = dimanche), commande. La troisième entrée dans le crontab ci-dessus télécharge wget.pdf à 2 heures du matin. La première entrée (0) et la deuxième entrée (2) signifie 2:00. La troisième à la cinquième entrée (*) signifie toute heure du jour, du mois ou de la semaine. La dernière entrée est la commande wget pour télécharger le wget.pdf à partir de l'URL spécifiée.
C'est la base sur wget et comment fonctionne Cron. Prenons un butin à un exemple réel sur la façon de planifier un téléchargement.
Planification du téléchargement
Nous allons télécharger Firefox 3.6 à 2 heures du matin, puisque notre FAI ne donne qu'une quantité limitée de données, nous devons arrêter le téléchargement à 8 heures du matin. Voici à quoi ressemble la configuration.
Ignorez les 2 premières entrées de la crontab ci-dessus. Les troisième et quatrième commandes sont les 2 seules commandes dont vous avez besoin. La troisième commande configure une tâche qui téléchargera Firefox à 2 heures du matin:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/code]
Les options -c indiquent que wget doit reprendre le téléchargement existant s'il n'est pas terminé.
La quatrième commande arrêtera wget à 8 heures du matin. «Killall» est une commande unix qui tue les processus par leur nom.
[code]
0 8 * * * killall wget
[/code]
Le wget killall dit à Ubuntu d'arrêter wget de télécharger le fichier à 8 heures du matin.
Autres commandes wget utiles
1. Spécification du répertoire pour télécharger un fichier
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
l'option –output-document vous permet de spécifier le répertoire et le nom du fichier que vous téléchargez
2. Téléchargement d'un site Web
wget est également capable de télécharger un site Web.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
La commande ci-dessus téléchargera toute ma page Web de profil Google. L’option «-m» indique à wget de télécharger une image «miroir» de l’URL spécifiée.
Une autre option importante consiste à indiquer à wget combien de liens doit-il suivre lors du téléchargement d'un site Web.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
La commande wget ci-dessus utilise deux options. La première option «-r» indique à wget de télécharger le site Web spécifié de manière récursive. La deuxième option «-l1» indique à wget d’obtenir uniquement le premier niveau de liens à partir du site Web spécifié. Nous pouvons définir jusqu'à trois niveaux «-l2» et «-l3».
3. Ignorer l'entrée du robot
Le webmestre gère un fichier texte appelé Robot.txt. «Robot.txt» gère une liste d’URL qu’un robot d'exploration de page Web tel que wget ne doit pas explorer. Nous pouvons dire à wget d’ignorer le ‘Robot.txt’ avec l’option ‘-erobots = off’. La commande suivante indique à wget de télécharger la première page de mon profil Google et d’ignorer le fichier ‘Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Une autre option utile est -U. Cette option masquera wget en tant que navigateur. Notez que le fait de masquer une application comme une autre application peut enfreindre les termes et services d'un fournisseur de services Web.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Conclusion
Wget est un progiciel GNU très ancien mais piratable que nous pouvons utiliser pour télécharger des fichiers. Wget est un outil de ligne de commande interactif qui signifie que nous pouvons le laisser fonctionner sur notre ordinateur en arrière-plan sans avoir à démarrer aucune application. Consultez la page de manuel wget
[code]
$ homme wget
[/code]
pour comprendre les autres options que nous pouvons utiliser avec wget.
Liens
Manuel Wget
Comment combiner deux fichiers téléchargés lorsque wget échoue à mi-chemin
Linux QuickTip: téléchargement et dé-tarage en une seule étape