Wszyscy uwielbiamy pobierać rzeczy z Internetu i istnieje mnóstwo świetnych narzędzi do zarządzania pobieraniem, których możemy użyć do zaplanowania pobierania. Korzystanie z menedżera pobierania może być po prostu łatwiejsze, ale nie ma nic złego w odkrywaniu narzędzi, które są już dostarczane z naszym Ubuntu i pełnym ich wykorzystaniu.
W tym artykule pokażemy Ci wbudowane oprogramowanie w Ubuntu, którego możemy użyć do pobierania rzeczy z Internetu za pomocą wget . Oprócz tego pokażemy Ci, jak zaplanować pobieranie za pomocą Cron.
Pobierz za pomocą Wget
Wget to darmowy pakiet oprogramowania do pobierania plików przy użyciu HTTP, HTTPS i FTP, najczęściej używanych protokołów internetowych. Jest to nieinteraktywne narzędzie wiersza poleceń, więc można je łatwo wywołać ze skryptów, zadań cron, terminali bez obsługi X-Windows itp.
Otwórz terminal i przyjrzyjmy się, jak możemy używać wget do pobierania rzeczy z sieci. Podstawowa składnia pobierania za pomocą wget jest następująca:
wget [option]… [URL]…
To polecenie pobierze podręcznik wget na dysk lokalny
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ληνύχ Κρών
Ubuntu zawiera demona cron używanego do planowania zadań do wykonania w określonym czasie. Crontab pozwala na określenie akcji i czasu ich wykonania. W ten sposób można normalnie zaplanować zadanie za pomocą narzędzia wiersza poleceń.
Otwórz okno terminala i wpisz crontab -e.
Każda z sekcji w tabeli crontab jest oddzielona spacją, przy czym ostatnia sekcja zawiera jedną lub więcej spacji. Wpis cron składa się z minuty (0-59), godziny (0-23, 0 = północ), dnia (1-31), miesiąca (1-12), dnia tygodnia (0-6, 0 = niedziela), polecenia. Trzeci wpis w powyższej tabeli crontab pobiera plik wget.pdf o godzinie 2:00. Pierwszy wpis (0) i drugi wpis (2) oznaczają 2:00. Pozycja od trzeciego do piątego (*) oznacza dowolną porę dnia, miesiąca lub tygodnia. Ostatnim wpisem jest polecenie wget służące do pobrania pliku wget.pdf z określonego adresu URL.
To jest podstawa w wget i jak działa Cron. Przyjrzyjmy się prawdziwemu przykładowi planowania pobierania.
Planowanie pobierania
Zamierzamy pobrać Firefoksa 3.6 o godzinie 2 w nocy, ponieważ nasz dostawca usług internetowych udostępnia tylko ograniczoną ilość danych, musimy przerwać pobieranie o 8 rano. Tak wygląda konfiguracja.
Zignoruj pierwsze 2 wpisy w powyższej tabeli crontab. Trzecie i czwarte polecenie to jedyne 2 polecenia, których potrzebujesz. Trzecie polecenie konfiguruje zadanie, które pobierze Firefoksa o 2 w nocy:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/code]
Opcje -c oznaczają, że wget powinien wznowić istniejące pobieranie, jeśli nie zostało ono zakończone.
Czwarta komenda zatrzyma wget o 8 rano. „Killall” to unixowe polecenie, które zabija procesy według nazwy.
[code]
0 8 * * * killall wget
[/code]
Wget killall mówi Ubuntu, aby przestał pobierać plik o 8 rano.
Inne przydatne polecenia wget
1. Określenie katalogu do pobrania pliku
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
opcja –output-document pozwala określić katalog i nazwę pobieranego pliku
2. Pobieranie strony internetowej
wget może również pobrać witrynę internetową.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
Powyższe polecenie spowoduje pobranie całej mojej strony internetowej profilu Google. Opcja „-m” mówi wget, że ma pobrać „lustrzany” obraz podanego adresu URL.
Inną ważną opcją jest wskazanie wget, z ilu linków ma skorzystać podczas pobierania witryny.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
Powyższe polecenie wget używa dwóch opcji. Pierwsza opcja „-r” mówi wget, aby pobierał określoną witrynę rekurencyjnie. Druga opcja „-l1” mówi wget, aby pobierał tylko pierwszy poziom linków z tej określonej witryny. Możemy ustawić maksymalnie trzy poziomy „-l2” i „-l3”.
3. Ignorowanie wejścia robota
Web master utrzymuje plik tekstowy o nazwie Robot.txt. „Robot.txt” zawiera listę adresów URL, których robot indeksujący strony WWW, taki jak wget, nie powinien indeksować. Możemy nakazać wget ignorowanie pliku „Robot.txt” za pomocą opcji „-erobots = off”. Poniższe polecenie nakazuje wget pobranie pierwszej strony mojego profilu Google i zignorowanie pliku „Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Inną przydatną opcją jest -U. Ta opcja maskuje wget jako przeglądarkę. Zwróć uwagę, że maskowanie aplikacji jako innej aplikacji może naruszać warunki i usługi dostawcy usług internetowych.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Wniosek
Wget to bardzo stary, ale dający się zhakować pakiet oprogramowania GNU, którego możemy używać do pobierania plików. Wget to interaktywne narzędzie wiersza poleceń, co oznacza, że możemy pozwolić mu działać na naszym komputerze w tle bez konieczności uruchamiania jakiejkolwiek aplikacji. Sprawdź stronę podręcznika wget
[code]
$ man wget
[/code]
aby zrozumieć inne opcje, których możemy używać z wget.
Spinki do mankietów
Podręcznik Wget
Jak połączyć dwa pobrane pliki, gdy wget zawiedzie w połowie
Linux QuickTip: pobieranie i usuwanie tarowania w jednym kroku