O que é um rastreador da web e como funciona?

Você já procurou por algo no Google e se perguntou: "Como se sabe onde procurar?" A resposta é "Web Crawlers", que pesquisar na Web e indexá-lo para que você possa encontrar as coisas facilmente online. Nós vamos explicar.

Motores de busca e rastreadores

Quando você pesquisar usando uma palavra-chave em um mecanismo de pesquisa como o Google ou Bing. , o site peneira em trilhões de páginas para gerar uma lista de resultados relacionados a esse termo. Como exatamente esses mecanismos de pesquisa têm todas essas páginas no arquivo, sabem como procurar por eles e gerar esses resultados em segundos?

A resposta é rastreadores da web, também conhecidos como aranhas. Estes são programas automatizados (muitas vezes chamados de "robôs" ou "bots") que "rastrear" ou navegar pela web para que eles possam ser adicionados aos mecanismos de pesquisa. Esses sites de índice de robôs para criar uma lista de páginas que aparecem em seus resultados de pesquisa.

Os rastreadores também criam e armazenam cópias dessas páginas no banco de dados do motor, que permite que você faça pesquisas quase instantaneamente. É também a razão pela qual os mecanismos de pesquisa geralmente incluem Versões em cache de sites em seus bancos de dados.

RELACIONADO: Como acessar uma página da Web quando descer

Mapas e seleção do site

Então, como os rastreadores escolhem quais sites se arrastam? Bem, o cenário mais comum é que os proprietários de sites querem que os mecanismos de busca rastejam seus sites. Eles podem conseguir isso solicitando o Google, Bing, Yahoo ou outro mecanismo de busca para indexar suas páginas. Este processo varia de motor para o motor. Além disso, os mecanismos de pesquisa freqüentemente selecionam sites populares e vinculados para rastrear rastreando o número de vezes que um URL está vinculado a outros sites públicos.

Os proprietários do site podem usar certos processos para ajudar os mecanismos de pesquisa indexam seus sites, como
Carregando um mapa do site. Este é um arquivo contendo todos os links e páginas que fazem parte do seu site. É normalmente usado para indicar quais páginas você gostaria de indexada.

Depois que os mecanismos de pesquisa já rastejaram um site uma vez, eles rastrearão automaticamente esse site novamente. A frequência varia com base em como é popular um site, entre outras métricas. Portanto, os proprietários de sites freqüentemente mantêm mapas atualizados do site para permitir que os mecanismos saibam quais novos sites para indexar.

Robôs e o fator de polidez

E se um site não Quer algumas ou todas as suas páginas aparecerem em um mecanismo de busca? Por exemplo, você pode não querer que as pessoas procurem por uma página somente de membros ou vejam o seu 404 PÁGINA DE ERRO. . É aqui que a lista de exclusão de rastreamento, também conhecida como robots.txt, entra em jogo. Este é um arquivo de texto simples que determina a rastreadores quais páginas da Web para excluir da indexação.

Outra razão pela qual robots.txt é importante é que os rastreadores da web podem ter um efeito significativo no desempenho do site. Porque os rastreadores estão basicamente baixando todas as páginas do seu site, consomem recursos e podem causar desaceleração. Eles chegam a tempos imprevisíveis e sem aprovação. Se você não precisar de suas páginas indexadas repetidamente, parando os rastreadores podem ajudar a reduzir parte do seu site. Felizmente, a maioria dos rastreadores pára de rastejar certas páginas com base nas regras do proprietário do site.

Metadata magia

Sob o URL e o título de cada resultado da pesquisa no Google, você encontrará uma breve descrição da página. Essas descrições são chamadas de trechos. Você pode notar que o snippet de uma página no Google nem sempre se alinha com o conteúdo real do site. Isso ocorre porque muitos sites têm algo chamado " Meta tags. ", Quais são descrições personalizadas que os proprietários do site adicionam às suas páginas.

Os proprietários de sites geralmente apresentam descrições de metadados atraentes escritas para fazer você querer clicar em um site. O Google também lista outras informações de meta, como preços e disponibilidade de estoque. Isso é especialmente útil para aqueles sites de e-commerce.

Sua pesquisa

A pesquisa na Web é uma parte essencial do uso da Internet. Pesquisando a Web é uma ótima maneira de descobrir novos sites, lojas, comunidades e interesses. Todos os dias, os rastreadores da Web visitam milhões de páginas e os adicionam aos mecanismos de pesquisa. Enquanto os rastreadores têm algumas desvantagens, como assumir recursos do site, eles são inestimáveis para os proprietários e visitantes do site.

RELACIONADO: Como excluir os últimos 15 minutos do histórico de pesquisa do Google

O que é um rastreador da web e como funciona?

Motores de busca e rastreadores

Mapas e seleção do site

Robôs e o fator de polidez

Metadata magia

Sua pesquisa

Geral - Artigos mais populares

Os websites podem ver sua localização física?

O que é contraste na fotografia e como é usado?

Por que os Fotógrafos Say Cloudy Days Are the Best for Photography?

Como alterar sua foto de perfil de discórdia

FYI: Você pode expandir o menu Sugestões do Siri no iPhone e iPad

O que é uma linguagem de marcação?

O que é uma exibição super amoled?

Unicode 14.0 chega com troll e carga baixa emoji

Categorias