Мы все любим загружать файлы из Интернета, и есть множество отличных инструментов для управления загрузками, которые мы можем использовать для планирования загрузки. Возможно, было бы проще использовать менеджер загрузок, но нет ничего плохого в том, чтобы изучить инструменты, которые уже поставляются с нашей Ubuntu, и в полной мере использовать их.
В этой статье мы покажем вам встроенное программное обеспечение в Ubuntu, которое мы можем использовать для загрузки материалов из Интернета с помощью wget . Кроме того, мы покажем вам, как запланировать загрузку с помощью Cron.
Скачать с помощью Wget
Wget - это бесплатный программный пакет для получения файлов с использованием HTTP, HTTPS и FTP, наиболее широко используемых Интернет-протоколов. Это неинтерактивный инструмент командной строки, поэтому его можно легко вызывать из скриптов, заданий cron, терминалов без поддержки X-Windows и т. Д.
Откройте свой терминал и давайте посмотрим, как мы можем использовать wget для загрузки материалов из сети. Базовый синтаксис загрузки с помощью wget следующий:
wget [option]… [URL]…
Эта команда загрузит руководство по wget на ваш локальный диск.
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ληνύχ Κρών
Ubuntu поставляется с демоном cron, используемым для планирования задач, которые будут выполняться в определенное время. Crontab позволяет указать действия и время, в которое они должны выполняться. Вот как вы обычно планируете задачу с помощью инструмента командной строки.
Откройте окно терминала и введите crontab -e.
Каждый из разделов в crontab отделяется пробелом, причем последний раздел содержит одно или несколько пробелов. Запись cron состоит из минуты (0-59), часа (0-23, 0 = полночь), дня (1-31), месяца (1-12), дня недели (0-6, 0 = воскресенье), команды. Третья запись в приведенном выше файле crontab загружает wget.pdf в 2 часа ночи. Первая запись (0) и вторая запись (2) означают 2 часа. Записи с третьего по пятый (*) означают любое время дня, месяца или недели. Последняя запись - это команда wget для загрузки файла wget.pdf с указанного URL-адреса.
Это основные принципы работы wget и Cron. Давайте рассмотрим пример из реальной жизни, как запланировать загрузку.
Планирование загрузки
Мы собираемся загрузить Firefox 3.6 в 2 часа ночи. Поскольку наш интернет-провайдер предоставляет ограниченный объем данных, нам необходимо остановить загрузку в 8 часов утра. Вот как выглядит установка.
Игнорируйте первые 2 записи в указанном выше crontab. Третья и четвертая команды - это единственные 2 команды, которые вам нужны. Третья команда устанавливает задачу, которая загрузит Firefox в 2 часа ночи:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/code]
Параметры -c означают, что wget должен возобновить существующую загрузку, если она не была завершена.
Четвертая команда остановит wget в 8 утра. «Killall» - это команда unix, которая убивает процессы по имени.
[code]
0 8 * * * killall wget
[/code]
Команда killall wget сообщает Ubuntu остановить загрузку файла wget в 8:00.
Другие полезные команды wget
1. Указание каталога для загрузки файла.
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
опция –output-document позволяет указать каталог и имя загружаемого файла.
2. Загрузка веб-сайта
wget также может загружать веб-сайт.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
Вышеупомянутая команда загрузит всю мою веб-страницу профиля Google. Параметр «-m» сообщает wget, что нужно загрузить «зеркальное» изображение указанного URL.
Другой важный вариант - указать wget, по скольким ссылкам он должен переходить при загрузке веб-сайта.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
В приведенной выше команде wget используются две опции. Первая опция «-r» указывает wget, что нужно рекурсивно загрузить указанный веб-сайт. Вторая опция «-l1» указывает wget получать только первый уровень ссылок с указанного веб-сайта. Мы можем установить до трех уровней «-l2» и «-l3».
3. Игнорирование входа робота
Веб-мастер поддерживает текстовый файл Robot.txt. «Robot.txt» содержит список URL-адресов, которые сканер веб-страниц, такой как wget, не должен сканировать. Мы можем указать wget игнорировать файл «Robot.txt» с помощью параметра «-erobots = off». Следующая команда сообщает wget, что нужно загрузить первую страницу моего профиля Google и игнорировать файл «Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Еще одна полезная опция - -U. Эта опция замаскирует wget как браузер. Обратите внимание, что маскировка приложения под другое приложение может нарушать условия и услуги поставщика веб-услуг.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Вывод
Wget - это очень старый, но поддающийся взлому программный пакет GNU, который мы можем использовать для загрузки файлов. Wget - это интерактивный инструмент командной строки, что означает, что мы можем позволить ему работать на нашем компьютере в фоновом режиме без необходимости запускать какое-либо приложение. Просмотрите страницу руководства wget
[code]
$ man wget
[/code]
чтобы понять другие параметры, которые мы можем использовать с wget.
Ссылки
Руководство Wget
Как объединить два загруженных файла, когда wget не работает на полпути
Linux QuickTip: загрузка и разархивирование за один шаг