TrustRank

algoritmo di analisi dei link di un sito web

Il TrustRank è un algoritmo di analisi dei link di un sito web, che serve per distinguere le pagine web "utili" ai fini della navigazione da quelle con contenuti spam. Il nome è stato acquistato da Google il 16 marzo 2005.[1]

Differenza col PageRank

modifica

Il PageRank di Google è un diffuso algoritmo, sul quale si è fondata per anni (e si basa tuttora) l'indicizzazione di Google, che assegna un punteggio ad ogni pagina Web, basandosi sul numero di link che riportano ad essa. Il fondamento è che, se molte pagine linkano tutte ad uno stesso indirizzo, esso deve essere ovviamente importante; quest'attività può essere considerata una versione più raffinata e complessa della Link Popularity.

Il modus operandi del web-spam, che permette al PageRank di crescere, agisce essenzialmente attraverso due vie:

  • link e parole chiave nascoste, che vengono comunque indicizzate dai motori di ricerca;
  • creazione di numerose pagine che linkano ad un'unica pagina designata in precedenza, in modo da rendere suddetta pagina rilevante per la classificazione da parte del motore.

Come funziona il TrustRank

modifica

Il Trust Rank ha lo scopo di aiutare nella classificazione di una pagina o sito web attraverso un processo che prevede diverse fasi:

  • l'algoritmo seleziona un gruppo di pagine delle quali non è chiaro lo “spam status”, chiamate seed;
  • un esperto umano esamina le pagine e comunica all'algoritmo quali possono essere definite spam (bad pages) e quali no (good pages);
  • l'algoritmo infine identifica le altre pagine sulle basi della precedente classificazione umana.
  1. ^ Zoltán Gyöngyi, Hector Garcia-Molina, Jan Pedersen, Combating Web Spam with TrustRank (PDF), in Proceedings of the International Conference on Very Large Data Bases, vol. 30, 2004, p. 576. URL consultato il 26 ottobre 2007 (archiviato dall'url originale il 5 aprile 2015).

Voci correlate

modifica

Collegamenti esterni

modifica