Un crawler (detto anche spider o bot) è un programma automatizzato utilizzato dai motori di ricerca per scansionare e analizzare le pagine web.

Il compito principale è quello di esplorare il web seguendo i link tra le pagine, raccogliendo informazioni sul contenuto e sulla struttura di ogni sito visitato.

I dati raccolti vengono utilizzati dai motori di ricerca per indicizzare le pagine web, aggiornare le informazioni nei propri database e determinare il ranking di ogni sito nei risultati di ricerca (SERP).

Vengono analizzati diversi elementi di una pagina, tra cui:

  • contenuto testuale: per valutare la pertinenza e la qualità della pagina;
  • struttura del sito: per capire l’organizzazione dei contenuti e la facilità di navigazione;
  • link interni ed esterni: per determinare la rilevanza e l’autorevolezza della pagina;
  • meta tag: come il titolo, la descrizione e gli attributi alt per le immagini;
  • file robots.txt: per verificare quali pagine possono o non possono essere scansionate.

Un crawler segue una serie di regole per evitare di sovraccaricare i server e rispettare le indicazioni fornite dal webmaster attraverso il file robots.txt o i tag meta robots.

La frequenza con cui un bot visita un sito dipende da diversi fattori, tra cui l’autorevolezza del sito, la frequenza di aggiornamento dei contenuti e le impostazioni di scansione definite dall’amministratore del sito.