Cu toții ne place să descărcăm lucruri de pe internet și există o mulțime de instrumente excelente de gestionare a descărcărilor pe care le putem folosi pentru a ne programa descărcările. S-ar putea să fie mai ușor să folosiți un manager de descărcare, dar nu există niciun rău în explorarea instrumentelor care vin deja cu Ubuntu-ul nostru și să îl folosiți pe deplin.
În acest articol vă vom arăta un software încorporat în Ubuntu pe care îl putem folosi pentru a descărca lucruri de pe internet folosind wget . În plus, vă vom arăta cum să programați descărcarea folosind Cron.
Descărcați utilizând Wget
Wget este un pachet software gratuit pentru recuperarea fișierelor folosind HTTP, HTTPS și FTP, cele mai utilizate protocoale de internet. Este un instrument de linie de comandă neinteractiv, deci poate fi apelat cu ușurință din scripturi, joburi cron, terminale fără suport X-Windows etc.
Deschideți terminalul și să analizăm cum putem folosi wget pentru a descărca lucruri de pe net. Sintaxa de bază a descărcării cu wget este următoarea:
wget [option] ... [URL] ...
Această comandă va descărca manualul wget în unitatea dvs. locală
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ληνύχ Κρών
Ubuntu vine cu un demon cron utilizat pentru planificarea sarcinilor care urmează să fie executate la un anumit moment. Crontab vă permite să specificați acțiunile și momentele în care acestea trebuie executate. Acesta este modul în care ați programa în mod normal o sarcină folosind instrumentul pentru linia de comandă.
Deschideți o fereastră terminal și introduceți crontab -e.
Fiecare dintre secțiunile dintr-un crontab este separată de un spațiu, secțiunea finală având unul sau mai multe spații în el. O intrare cron constă din minut (0-59), oră (0-23, 0 = miezul nopții), zi (1-31), lună (1-12), zi săptămânală (0-6, 0 = duminică), comandă. A treia intrare din crontab de mai sus descarcă wget.pdf la ora 2 dimineața. Prima intrare (0) și a doua intrare (2) înseamnă 2:00. A treia până la a cincea intrare (*) înseamnă orice moment al zilei, lunii sau săptămânii. Ultima intrare este comanda wget pentru a descărca wget.pdf de la adresa URL specificată.
Acesta este elementul de bază pentru wget și cum funcționează Cron. Să luăm o pradă la un exemplu din viața reală despre cum să programăm o descărcare.
Programare descărcare
Vom descărca Firefox 3.6 la 2 AM. Deoarece ISP-ul nostru oferă doar o cantitate limitată de date, trebuie să oprim descărcarea la 8 AM. Așa arată configurarea.
Ignorați primele 2 intrări în crontabul de mai sus. A treia și a patra comandă sunt singurele 2 comenzi de care aveți nevoie. A treia comandă configurează o sarcină care va descărca Firefox la 2 AM:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/code]
Opțiunile -c indică faptul că wget ar trebui să reia descărcarea existentă dacă nu a fost finalizată.
A patra comandă se va opri wget la 8 dimineața. „Killall” este o comandă unix care ucide procesele după nume.
[code]
0 8 * * * killall wget
[/code]
Wget-ul killall îi spune Ubuntu să oprească wget de la descărcarea fișierului la 8 AM.
Alte comenzi utile wget
1. Specificarea directorului pentru descărcarea unui fișier
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
opțiunea –output-document vă permite să specificați directorul și numele fișierului pe care îl descărcați
2. Descărcarea unui site web
wget este, de asemenea, capabil să descarce un site web.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
Comanda de mai sus va descărca întreaga mea pagină web a profilului Google. Opțiunea „-m” îi spune lui wget să descarce o imagine „oglindă” a adresei URL specificate.
O altă opțiune importantă este de a spune wget câte link-uri ar trebui să urmeze atunci când descarcă un site web.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
Comanda wget de mai sus folosește două opțiuni. Prima opțiune „-r” spune wget să descarce recursiv site-ul web specificat. A doua opțiune „-l1” îi spune wget să obțină primul nivel de linkuri de pe acel site web specificat. Putem seta până la trei niveluri „-l2” și „-l3”.
3. Ignorarea intrării robotului
Web master menține un fișier text numit Robot.txt. „Robot.txt” menține o listă de adrese URL pe care un crawler de pagini web, cum ar fi wget, nu ar trebui să le acceseze. Putem spune wget să ignore opțiunea „Robot.txt” cu opțiunea „-erobots = off”. Următoarea comandă îi spune lui wget să descarce prima pagină a profilului meu Google și să ignore „Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
O altă opțiune utilă este -U. Această opțiune va masca wget ca browser. Rețineți că mascarea unei aplicații ca o altă aplicație poate încălca termenii și serviciile unui furnizor de servicii web.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Concluzie
Wget este o școală foarte veche, dar pachet software GNU hackable pe care îl putem folosi pentru a descărca fișiere. Wget este un instrument interactiv de linie de comandă, ceea ce înseamnă că îl putem lăsa să ruleze pe computerul nostru în fundal fără a fi nevoie să lansăm nicio aplicație. Consultați pagina manuală wget
[code]
$ man wget
[/code]
pentru a înțelege alte opțiuni pe care le putem folosi cu wget.
Link-uri
Manual Wget
Cum se combină două fișiere descărcate când wget nu reușește la jumătatea drumului
Linux QuickTip: Descărcarea și anularea tarului într-un singur pas