A todos nos encanta descargar cosas de Internet, y hay un montón de excelentes herramientas de administración de descargas que podemos usar para programar nuestras descargas. Puede que sea más fácil usar un administrador de descargas, pero no hay nada de malo en explorar las herramientas que ya vienen con Ubuntu y aprovecharlas al máximo.
En este artículo, le mostraremos un software integrado en Ubuntu que podemos usar para descargar cosas de Internet usando wget . Además de eso, le mostraremos cómo programar la descarga usando Cron.
Descargar usando Wget
Wget es un paquete de software gratuito para recuperar archivos mediante HTTP, HTTPS y FTP, los protocolos de Internet más utilizados. Es una herramienta de línea de comandos no interactiva, por lo que se puede llamar fácilmente desde scripts, trabajos cron, terminales sin soporte para X-Windows, etc.
Abra su terminal y exploremos cómo podemos usar wget para descargar cosas de la red. La sintaxis básica de la descarga con wget es la siguiente:
wget [option]… [URL]…
Este comando descargará el manual de wget en su unidad local
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ληνύχ Κρών
Ubuntu viene con un demonio cron utilizado para programar tareas que se ejecutarán en un momento determinado. Crontab le permite especificar acciones y tiempos en que deben ejecutarse. Así es como normalmente programaría una tarea con la herramienta de línea de comandos.
Abra una ventana de terminal e ingrese crontab -e.
Cada una de las secciones de un crontab está separada por un espacio, y la sección final tiene uno o más espacios. Una entrada cron consta de minuto (0-59), hora (0-23, 0 = medianoche), día (1-31), mes (1-12), día de la semana (0-6, 0 = domingo), comando. La tercera entrada en el crontab anterior descarga wget.pdf a las 2 am. La primera entrada (0) y la segunda entrada (2) significa 2:00. La tercera a la quinta entrada (*) significa cualquier hora del día, mes o semana. La última entrada es el comando wget para descargar wget.pdf de la URL especificada.
Eso es lo básico sobre wget y cómo funciona Cron. Tomemos un botín en un ejemplo de la vida real sobre cómo programar una descarga.
Programación de descarga
Vamos a descargar Firefox 3.6 a las 2 a.m. Dado que nuestro ISP solo proporciona una cantidad limitada de datos, debemos detener la descarga a las 8 a.m. Así es como se ve la configuración.
Ignore las primeras 2 entradas en el crontab anterior. El tercer y cuarto comando son los únicos 2 comandos que necesita. El tercer comando configura una tarea que descargará Firefox a las 2 AM:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/code]
Las opciones -c indican que wget debe reanudar la descarga existente si no se ha completado.
El cuarto comando dejará de wget a las 8 am. "Killall" es un comando de Unix que mata procesos por su nombre.
[code]
0 8 * * * killall wget
[/code]
El wget de killall le dice a Ubuntu que deje de descargar el archivo a las 8 AM.
Otros comandos wget útiles
1. Especificar el directorio para descargar un archivo
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
la opción –output-document te permite especificar el directorio y el nombre del archivo que descargas
2. Descarga de un sitio web
wget también puede descargar un sitio web.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
El comando anterior descargará toda mi página web de perfil de Google. La opción "-m" le dice a wget que descargue una imagen "espejo" de la URL especificada.
Otra opción importante es decirle a wget cuántos enlaces debe seguir cuando descarga un sitio web.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
El comando wget anterior usa dos opciones. La primera opción "-r" le dice a wget que descargue el sitio web especificado de forma recursiva. La segunda opción "-l1" le dice a wget que solo obtenga el primer nivel de enlaces de ese sitio web especificado. Podemos configurar hasta tres niveles "-l2" y "-l3".
3. Ignorar la entrada del robot
Web master mantiene un archivo de texto llamado Robot.txt. "Robot.txt" mantiene una lista de URL que un rastreador de páginas web como wget no debe rastrear. Podemos decirle a wget que ignore la opción "Robot.txt" con la opción "-erobots = off". El siguiente comando le dice a wget que descargue la primera página de mi perfil de Google e ignore el 'Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Otra opción útil es -U. Esta opción enmascarará wget como navegador. Tenga en cuenta que enmascarar una aplicación como otra aplicación puede violar el término y el servicio de un proveedor de servicios web.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Conclusión
Wget es un paquete de software GNU muy antiguo pero hackeable que podemos usar para descargar archivos. Wget es una herramienta de línea de comandos interactiva, lo que significa que podemos dejar que se ejecute en nuestra computadora en segundo plano sin tener que iniciar ninguna aplicación. Consulte la página de manual de wget
[code]
$ man wget
[/code]
para comprender otras opciones que podemos usar con wget.
Enlaces
Manual de Wget
Cómo combinar dos archivos descargados cuando wget falla a la mitad
Consejo rápido de Linux: descarga y anulación de la anulación en un solo paso