Tutti noi amiamo scaricare materiale da Internet e ci sono un sacco di ottimi strumenti di gestione dei download che possiamo utilizzare per programmare i nostri download. Potrebbe essere più semplice utilizzare un download manager, ma non c'è nulla di male nell'esplorare gli strumenti già forniti con Ubuntu e utilizzarli appieno.
In questo articolo ti mostreremo un software integrato in Ubuntu che possiamo usare per scaricare materiale da Internet usando wget . Inoltre ti mostreremo come programmare il download utilizzando Cron.
Scarica utilizzando Wget
Wget è un pacchetto software gratuito per il recupero di file utilizzando HTTP, HTTPS e FTP, i protocolli Internet più utilizzati. È uno strumento da riga di comando non interattivo, quindi può essere facilmente richiamato da script, cron job, terminali senza supporto X-Windows, ecc.
Apri il tuo terminale ed esploriamo come possiamo usare wget per scaricare materiale dalla rete. La sintassi di base del download con wget è la seguente:
wget [option]… [URL]…
Questo comando scaricherà il manuale di wget nell'unità locale
wget http://www.gnu.org/software/wget/manual/wget.pdf
Linux Cron
Ubuntu viene fornito con un demone cron utilizzato per la pianificazione delle attività da eseguire in un determinato momento. Crontab ti consente di specificare azioni e tempi in cui dovrebbero essere eseguiti. Questo è il modo in cui normalmente pianificheresti un'attività utilizzando lo strumento della riga di comando.
Apri una finestra di terminale e inserisci crontab -e.
Ciascuna delle sezioni in un crontab è separata da uno spazio, con la sezione finale contenente uno o più spazi. Una voce cron è composta da minuto (0-59), ora (0-23, 0 = mezzanotte), giorno (1-31), mese (1-12), giorno della settimana (0-6, 0 = domenica), comando. La terza voce nel crontab sopra scarica wget.pdf alle 2 del mattino. La prima voce (0) e la seconda voce (2) significano 2:00. Dalla terza alla quinta voce (*) si intende qualsiasi ora del giorno, mese o settimana. L'ultima voce è il comando wget per scaricare wget.pdf dall'URL specificato.
Questa è la base di wget e come funziona Cron. Facciamo un bottino in un esempio di vita reale su come pianificare un download.
Pianificazione del download
Scaricheremo Firefox 3.6 alle 2 del mattino. Poiché il nostro ISP fornisce solo una quantità limitata di dati, dobbiamo interrompere il download alle 8 del mattino. Questo è l'aspetto della configurazione.
Ignora le prime 2 voci nel crontab sopra. Il terzo e il quarto comando sono gli unici 2 comandi di cui hai bisogno. Il terzo comando imposta un'attività che scaricherà Firefox alle 2 del mattino:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/code]
Le opzioni -c indicano che wget dovrebbe riprendere il download esistente se non è stato completato.
Il quarto comando fermerà wget alle 8 del mattino. "Killall" è un comando unix che uccide i processi per nome.
[code]
0 8 * * * killall wget
[/code]
Il killall wget dice a Ubuntu di impedire a wget di scaricare il file alle 8 del mattino.
Altri utili comandi di wget
1. Specificare la directory per scaricare un file
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
l'opzione –output-document consente di specificare la directory e il nome del file che si scarica
2. Download di un sito web
wget è anche in grado di scaricare un sito web.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
Il comando precedente scaricherà l'intera pagina web del mio profilo Google. L'opzione "-m" dice a wget di scaricare un'immagine "speculare" dell'URL specificato.
Un'altra opzione importante è dire a wget quanti link deve seguire quando scarica un sito web.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
Il comando wget sopra utilizza due opzioni. La prima opzione "-r" dice a wget di scaricare ricorsivamente il sito web specificato. La seconda opzione "-l1" dice a wget di ottenere solo il primo livello di link da quel sito web specificato. Possiamo impostare fino a tre livelli "-l2" e "-l3".
3. Ignorare l'ingresso del robot
Il web master mantiene un file di testo chiamato Robot.txt. "Robot.txt" mantiene un elenco di URL che un crawler di pagine web come wget non dovrebbe sottoporre a scansione. Possiamo dire a wget di ignorare "Robot.txt" con l'opzione "-erobots = off". Il seguente comando dice a wget di scaricare la prima pagina del mio profilo Google e di ignorare "Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Un'altra opzione utile è -U. Questa opzione maschererà wget come browser. Tieni presente che mascherare un'applicazione come un'altra applicazione potrebbe violare i termini e il servizio di un provider di servizi web.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Conclusione
Wget è un pacchetto software GNU molto vecchio ma hackerabile che possiamo usare per scaricare file. Wget è uno strumento a riga di comando interattivo che significa che possiamo lasciarlo funzionare sul nostro computer in background senza dover avviare alcuna applicazione. Controlla la pagina man di wget
[code]
$ man wget
[/code]
per capire altre opzioni che possiamo usare con wget.
Collegamenti
Manuale di Wget
Come combinare due file scaricati quando wget non riesce a metà
Suggerimento rapido su Linux: download e annullamento della taratura in un unico passaggio