Crawler: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Bot: Elimino interlinks vedi Wikidata |
Nessun oggetto della modifica |
||
Riga 9:
Inoltre i crawler attivi su [[Internet]] hanno la facoltà di essere indirizzati da quanto indicato nel file "[[robots.txt]]" posto nella [[root (informatica)|root]] del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo.
Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca aggiornati al [[21 febbraio]] [[2008]]:
<center>
{| class="wikitable sortable"
|-
! Crawler !! Motore di ricerca▼
▲! Motore di ricerca
|-
| Googlebot
| Google
|-
|
| Fast - Alltheweb
|-
|
| Inktomi - Yahoo!
|-
|
| Altavista
|-
| Mercator
| Altavista
|-
Line 34 ⟶ 33:
| Ask Jeeves
|-
| Teoma agent
| Teoma
|-
| Ia archiver
| Alexa - Internet Archive
|-
Line 46 ⟶ 45:
| Facebook
|}
</center>
== Esempi di Web crawlers ==
Line 72 ⟶ 70:
* '''Wget''' è un crawler a riga di comando scritto in [[C (linguaggio)|C]] e rilasciato sotto la [[GNU General Public License]]. È tipicamente usato per siti mirror e [[File Transfer Protocol|FTP]].
* '''[[Heritrix]]''' è il crawler di maggior qualità di estrazione dagli archivi web, studiato per archiviare periodici [[screenshot]] di una larga porzione del web. È stato scritto in [[Java (linguaggio)|Java]].
* '''
* '''[[HTTrack]]''' usa un web crawler per creare una replica di un sito web per la consultazione off-line. È stato scritto in C e rilasciato sotto licenza [[GNU General Public License|GNU GPL]].
* '''JSpider''' è un web spider altamente personalizzabile rilasciato sotto licenza GNU GPL.
Line 109 ⟶ 107:
*[http://ir.dcs.gla.ac.uk/wiki/Labrador Labrador]
*[http://spinn3r.com Spinn3r]
*[http://www.htdig.org/
{{Portale|Telematica|Web}}
|