Versione delle 19:03, 20 feb 2013 modifica ValterVBot (discussione \| contributi) Bot 613 055 modifiche m Bot: Elimino interlinks vedi Wikidata ← Differenza precedente		Versione delle 18:54, 22 mar 2013 modifica annulla 87.6.190.229 (discussione) Nessun oggetto della modifica Differenza successiva →
Riga 9: Inoltre i crawler attivi su [[Internet]] hanno la facoltà di essere indirizzati da quanto indicato nel file "[[robots.txt]]" posto nella [[root (informatica)\|root]] del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo. Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca aggiornati al [[21 febbraio]] [[2008]]: <center> {\| class="wikitable sortable" ~~{\| class="testo" summary="Lista degli spider" border="1" align="CENTER"~~ \|- ~~\|- bgcolor="EEEEFF"~~ ! Crawler !! Motore di ricerca▼ ~~! Nome spider~~ ▲! Motore di ricerca \|- \| Googlebot ~~\| googlebot~~ \| Google \|- \| ~~fast~~Fast \| Fast - Alltheweb \|- \| ~~slurp~~Slurp \| Inktomi - Yahoo! \|- \| ~~scooter~~Scooter \| Altavista \|- \| Mercator ~~\| mercator~~ \| Altavista \|- Line 34 ⟶ 33: \| Ask Jeeves \|- \| Teoma agent ~~\| teoma_agent~~ \| Teoma \|- \| Ia archiver ~~\| ia_archiver~~ \| Alexa - Internet Archive \|- Line 46 ⟶ 45: \| Facebook \|} </center> ~~Dati aggiornati al 21/02/2008~~ == Esempi di Web crawlers == Line 72 ⟶ 70: * '''Wget''' è un crawler a riga di comando scritto in [[C (linguaggio)\|C]] e rilasciato sotto la [[GNU General Public License]]. È tipicamente usato per siti mirror e [[File Transfer Protocol\|FTP]]. * '''[[Heritrix]]''' è il crawler di maggior qualità di estrazione dagli archivi web, studiato per archiviare periodici [[screenshot]] di una larga porzione del web. È stato scritto in [[Java (linguaggio)\|Java]]. * '''~~ht://Dig~~Htdig''' include un crawler web nel suo motore di indicizzazione. * '''[[HTTrack]]''' usa un web crawler per creare una replica di un sito web per la consultazione off-line. È stato scritto in C e rilasciato sotto licenza [[GNU General Public License\|GNU GPL]]. * '''JSpider''' è un web spider altamente personalizzabile rilasciato sotto licenza GNU GPL. Line 109 ⟶ 107: [http://ir.dcs.gla.ac.uk/wiki/Labrador Labrador] [http://spinn3r.com Spinn3r] *[http://www.htdig.org/ ~~ht://Dig~~Htdig] {{Portale\|Telematica\|Web}}

Crawler: differenze tra le versioni