Todos nós gostamos de baixar coisas da internet, e existem muitas ferramentas de gerenciamento de download excelentes que podemos usar para agendar nossos downloads. Pode ser mais fácil usar um gerenciador de download, mas não há mal nenhum em explorar as ferramentas que já vêm com nosso Ubuntu e fazer o uso completo delas.
Neste artigo, mostraremos a você um software embutido no Ubuntu que podemos usar para baixar coisas da internet usando wget . Além disso, mostraremos como agendar o download usando o Cron.
Baixar usando Wget
Wget é um pacote de software gratuito para recuperar arquivos usando HTTP, HTTPS e FTP, os protocolos de Internet mais usados. É uma ferramenta de linha de comando não interativa, por isso pode ser facilmente chamada a partir de scripts, tarefas cron, terminais sem suporte para X-Windows, etc.
Abra seu terminal e vamos explorar como podemos usar o wget para baixar coisas da rede. A sintaxe básica de download com wget é a seguinte:
wget [option]… [URL]…
Este comando irá baixar o manual wget em sua unidade local
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ληνύχ Κρών
O Ubuntu vem com um daemon cron usado para agendar tarefas a serem executadas em um determinado momento. O Crontab permite especificar ações e horários em que devem ser executados. É assim que você normalmente agendaria uma tarefa usando a ferramenta de linha de comando.
Abra uma janela de terminal e digite crontab -e.
Cada uma das seções em um crontab é separada por um espaço, com a seção final tendo um ou mais espaços. Uma entrada cron consiste em minuto (0-59), hora (0-23, 0 = meia-noite), dia (1-31), mês (1-12), dia da semana (0-6, 0 = domingo), comando. A terceira entrada no crontab acima baixa wget.pdf às 2 da manhã. A primeira entrada (0) e a segunda entrada (2) significam 2:00. Da terceira à quinta entrada (*) significa qualquer hora do dia, mês ou semana. A última entrada é o comando wget para fazer download do wget.pdf do URL especificado.
Esse é o básico no wget e como o Cron funciona. Vamos dar uma olhada em um exemplo da vida real sobre como agendar um download.
Agendando download
Faremos o download do Firefox 3.6 às 2 da manhã. Como nosso ISP fornece apenas uma quantidade limitada de dados, precisamos interromper o download às 8 da manhã. É assim que a configuração se parece.
Ignore as 2 primeiras entradas no crontab acima. O terceiro e o quarto comandos são os únicos 2 comandos de que você precisa. O terceiro comando configura uma tarefa que fará o download do Firefox às 2h:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/code]
As opções -c indicam que wget deve retomar o download existente se ele não tiver sido concluído.
O quarto comando irá parar o wget às 8h. ‘Killall’ é um comando unix que mata processos pelo nome.
[code]
0 8 * * * killall wget
[/code]
O wget killall diz ao Ubuntu para impedir o wget de baixar o arquivo às 8h.
Outros comandos wget úteis
1. Especificando o diretório para baixar um arquivo
[code]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
a opção –output-document permite que você especifique o diretório e o nome do arquivo que você baixa
2. Baixando um site
wget também é capaz de baixar um site.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
O comando acima fará o download de toda a página da web do meu perfil do Google. A opção ‘-m’ diz ao wget para baixar uma imagem ‘espelho’ do URL especificado.
Outra opção importante é informar ao wget quantos links ele deve seguir ao baixar um site.
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
O comando wget acima usa duas opções. A primeira opção ‘-r’ diz ao wget para baixar o site especificado recursivamente. A segunda opção ‘-l1’ diz ao wget para obter apenas o primeiro nível de links daquele site especificado. Podemos definir até três níveis '-l2' e '-l3'.
3. Ignorando a entrada do robô
O Web master mantém um arquivo de texto chamado Robot.txt. ‘Robot.txt’ mantém uma lista de URLs que um rastreador de página da web, como o wget, não deve rastrear. Podemos dizer ao wget para ignorar o ‘Robot.txt’ com a opção ‘-erobots = off’. O comando a seguir informa ao wget para baixar a primeira página do meu perfil do Google e ignorar o ‘Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Outra opção útil é -U. Esta opção irá mascarar o wget como um navegador. Observe que mascarar um aplicativo como outro aplicativo pode violar os termos e serviços de um provedor de serviços da web.
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Conclusão
Wget é um pacote de software GNU muito antigo, mas que pode ser hackeado, que podemos usar para baixar arquivos. Wget é uma ferramenta de linha de comando interativa, o que significa que podemos deixá-la rodar em nosso computador em segundo plano, sem ter que iniciar qualquer aplicativo. Verifique a página de manual do wget
[code]
$ man wget
[/code]
para entender outras opções que podemos usar com wget.
Links
Wget Manual
Como combinar dois arquivos baixados quando wget falha na metade
Dica rápida do Linux: baixando e removendo o tarring em uma etapa