TrustRank
Il TrustRank è un algoritmo di analisi dei link di un sito web, che serve per distinguere le pagine web "utili" ai fini della navigazione da quelle con contenuti spam. Il nome è stato acquistato da Google il 16 marzo 2005.[1]
Differenza col PageRank
modificaIl PageRank di Google è un diffuso algoritmo, sul quale si è fondata per anni (e si basa tuttora) l'indicizzazione di Google, che assegna un punteggio ad ogni pagina Web, basandosi sul numero di link che riportano ad essa. Il fondamento è che, se molte pagine linkano tutte ad uno stesso indirizzo, esso deve essere ovviamente importante; quest'attività può essere considerata una versione più raffinata e complessa della Link Popularity.
Il modus operandi del web-spam, che permette al PageRank di crescere, agisce essenzialmente attraverso due vie:
- link e parole chiave nascoste, che vengono comunque indicizzate dai motori di ricerca;
- creazione di numerose pagine che linkano ad un'unica pagina designata in precedenza, in modo da rendere suddetta pagina rilevante per la classificazione da parte del motore.
Come funziona il TrustRank
modificaIl Trust Rank ha lo scopo di aiutare nella classificazione di una pagina o sito web attraverso un processo che prevede diverse fasi:
- l'algoritmo seleziona un gruppo di pagine delle quali non è chiaro lo “spam status”, chiamate seed;
- un esperto umano esamina le pagine e comunica all'algoritmo quali possono essere definite spam (bad pages) e quali no (good pages);
- l'algoritmo infine identifica le altre pagine sulle basi della precedente classificazione umana.
Note
modifica- ^ Zoltán Gyöngyi, Hector Garcia-Molina, Jan Pedersen, Combating Web Spam with TrustRank (PDF), in Proceedings of the International Conference on Very Large Data Bases, vol. 30, 2004, p. 576. URL consultato il 26 ottobre 2007 (archiviato dall'url originale il 5 aprile 2015).
Voci correlate
modificaCollegamenti esterni
modifica- (EN) Zoltan Gyöngyi, Héctor García-Molina, Jan Pedersen, Combating Web Spam with TrustRank (PDF), su vldb.org, 2004.