Crawler: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
ValterVBot (discussione | contributi)
m Bot: Elimino interlinks vedi Wikidata
Nessun oggetto della modifica
Riga 9:
Inoltre i crawler attivi su [[Internet]] hanno la facoltà di essere indirizzati da quanto indicato nel file "[[robots.txt]]" posto nella [[root (informatica)|root]] del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo.
 
Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca aggiornati al [[21 febbraio]] [[2008]]:
<center>
 
{| class="wikitable sortable"
{| class="testo" summary="Lista degli spider" border="1" align="CENTER"
|-
|- bgcolor="EEEEFF"
! Crawler !! Motore di ricerca
! Nome spider
! Motore di ricerca
|-
| Googlebot
| googlebot
| Google
|-
| fastFast
| Fast - Alltheweb
|-
| slurpSlurp
| Inktomi - Yahoo!
|-
| scooterScooter
| Altavista
|-
| Mercator
| mercator
| Altavista
|-
Line 34 ⟶ 33:
| Ask Jeeves
|-
| Teoma agent
| teoma_agent
| Teoma
|-
| Ia archiver
| ia_archiver
| Alexa - Internet Archive
|-
Line 46 ⟶ 45:
| Facebook
|}
</center>
 
Dati aggiornati al 21/02/2008
 
== Esempi di Web crawlers ==
Line 72 ⟶ 70:
* '''Wget''' è un crawler a riga di comando scritto in [[C (linguaggio)|C]] e rilasciato sotto la [[GNU General Public License]]. È tipicamente usato per siti mirror e [[File Transfer Protocol|FTP]].
* '''[[Heritrix]]''' è il crawler di maggior qualità di estrazione dagli archivi web, studiato per archiviare periodici [[screenshot]] di una larga porzione del web. È stato scritto in [[Java (linguaggio)|Java]].
* '''ht://DigHtdig''' include un crawler web nel suo motore di indicizzazione.
* '''[[HTTrack]]''' usa un web crawler per creare una replica di un sito web per la consultazione off-line. È stato scritto in C e rilasciato sotto licenza [[GNU General Public License|GNU GPL]].
* '''JSpider''' è un web spider altamente personalizzabile rilasciato sotto licenza GNU GPL.
Line 109 ⟶ 107:
*[http://ir.dcs.gla.ac.uk/wiki/Labrador Labrador]
*[http://spinn3r.com Spinn3r]
*[http://www.htdig.org/ ht://DigHtdig]
 
{{Portale|Telematica|Web}}