CiteSeer era un motore di ricerca pubblico e una biblioteca digitale per testi scientifici e accademici, principalmente nel campo dell'informatica, che è stato sostituito da CiteSeerX. Molti lo considerano come il primo motore di ricerca per testi accademici. Divenne pubblico nel 1998 e aveva molte nuove funzioni all'epoca non disponibili nei motori di ricerca accademici, per quanto concerne l'indicizzazione, la ricerca, le statistiche e i collegamenti tra i vari documenti e le relative citazioni.

È spesso considerato il primo sistema automatizzato di indicizzazione delle citazioni, predecessore di strumenti di ricerca accademici come Google Scholar e Microsoft Academic Search. I motori e gli archivi di CiteSeer di solito raccolgono soltanto documenti da siti internet disponibili pubblicamente e non setacciano i siti web degli editori. Di conseguenza nell'indice compaiono con maggiore probabilità autori i cui documenti sono liberamente consultabili.

Lo scopo di CiteSeer era di migliorare la disseminazione e l'accesso alla letteratura accademica e scientifica. Trattandosi di un servizio senza scopo di lucro liberamente utilizzabile da chiunque, è stato ritenuto parte del movimento a favore dell'accesso libero (open access) che sta tentando di cambiare il mondo delle pubblicazioni accademiche e scientifiche per favorire un maggiore accesso alla letteratura scientifica. CiteSeer forniva gratuitamente a Open Archives Initiative i metadati di tutti i documenti indicizzati e collegava quando possibile i documenti indicizzati ad altre sorgenti di metadati come DBLP e il Portale ACM.

CiteSeerX, che ha raccolto l'eredità di CiteSeer, continua questo lavoro e, al fine di promuovere i formati digitali aperti, condivide i suoi dati con altri ricercatori attraverso una licenza Creative Commons.

Il nome CiteSeer è basato su un doppio gioco di parole: da una parte suona come sightseer, ossia un turista che guarda i panorami; dall'altra cite seer è un ricercatore che guarda i testi citati o addirittura un "veggente" delle citazioni.

Storia modifica

CiteSeer e CiteSeer.IST modifica

CiteSeer fu creato dai ricercatori Lee Giles, Kurt Bollacker e Steve Lawrence nel 1997 presso il NEC Research Institute (ora NEC Labs) a Princeton (New Jersey) negli Stati Uniti. Lo scopo di CiteSeer era di setacciare attivamente e raccoglliere documenti accademici e scientifici sulla rete e usare un'indicizzazione autonoma delle citazioni per permettere interrogazioni per citazione o per documento, ordinandole in base all'"impatto" delle citazioni stesse. Per un certo periodo, il sistema fu chiamato ResearchIndex.

Dopo la NEC, nel 2004 fu ospitato su Internet come CiteSeer.IST presso il College of Information Sciences and Technology dell'Università statale della Pennsylvania, raggiungendo un totale di oltre 700.000 documenti. Versioni simili del motore di ricerca erano ospitate da altre università negli Stati Uniti e all'estero per consentire un accesso più ampio. Tuttavia, CiteSeer rivelò una serie di limiti, sia per quanto riguardava l'accuratezza dei risultati delle ricerche sugli autori e sui loro documenti (inferiore a quella di altri sistemi come ad es. Google Scholar), sia per gli elevati costi di mantenimento del sistema.

Per queste ragioni, a partire dal 2005 CiteSeer non fu più aggiornato, divenendo sempre più limitato, finché nel 2008 fu impiantato un nuovo sistema, CiteSeerX.

CiteSeerX modifica

CiteSeerX sostituì CiteSeer e a esso furono reindirizzate tutte le interrogazioni prima condotte su CiteSeer. Come il suo predecessore, anche CiteSeerX[1] è un motore di ricerca pubblico e una biblioteca digitale, nonché un repertorio di testi accademici e scientifici dedicati principalmente all'informatica.[1]

Pubblicato nel 2008, costituisce un'evoluzione di CiteSeer ed è basato su una nuova architettura a "sorgente aperta" od open source, SeerSuite, e su nuovi, più potenti algoritmi. Sviluppato da Isaac Councill e C. Lee Giles presso il College of Information Sciences and Technology della Università statale della Pennsylvania, continua a perseguire le stesse finalità di CiteSeer di setacciare e raccogliere documenti accademici e scientifici sulla rete pubblica, provvedendo a indicizzarli in base alle citazioni e a classificarli in base all'impatto delle citazioni stesse. Recentemente, è stata aggiunta una funzione di ricerca per tabelle.[2] Il progetto è stato sovvenzionato dalla National Science Foundation, dalla NASA e dalla Microsoft Research.

CiteSeerX continua a essere valutato come uno dei migliori repertori del mondo e si classificò addirittura al primo posto nel luglio 2010.[3] Attualmente ha oltre 2 milioni di documenti con quasi 2 milioni di autori esclusivi e 40 milioni di citazioni.

Anche CiteSeerX condivide il software, i dati, le basi dati e i metadati con altri ricercatori, attualmente mediante Amazon S3 e rsync.[4] La sua nuova architettura e il suo nuovo software modulari a "sorgente aperta" (disponibile su SourceForge) sono costruiti su Apache Solr e altri strumenti Apache e a sorgente aperta, che gli consentono di fungere da bando di prova per nuovi algoritmi di raccolta, ordinamento e indicizzazione dei documenti e di estrazione di informazioni.

Altri motori di ricerca basati su SeerSuite modifica

Il modello di CiteSeer era stato adottato per documenti accademici a fini commerciali con SmealSearch e di commercio elettronico con eBizSearch, ma i progetti furono poi abbandonati per il disimpegno degli sponsor. Altri sistemi di ricerca e di repertorio simili a Seer sono stati realizzati per la chimica (ChemXSeer) e per l'archeologia (ArchSeer), nonché per la ricerca di file robots.txt (BotSeer). Tutti questi sistemi sono basati sullo strumento a sorgente aperta SeerSuite, che usa l'indicizzatore Lucene.

Note modifica

  1. ^ a b About CiteSeerX, su citeseerx.ist.psu.edu. URL consultato il 7 maggio 2010.
  2. ^ The CiteSeerX Team, su citeseerx.ist.psu.edu, Pennsylvania State University. URL consultato il 24 luglio 2010 (archiviato dall'url originale il 26 gennaio 2010).
  3. ^ Ranking Web of World Repositories: Top 800 Repositories, su repositories.webometrics.info, Cybermetrics Lab, luglio 2010. URL consultato il 24 luglio 2010 (archiviato dall'url originale il 24 luglio 2010).
  4. ^ About CiteSeerX Data, su csxstatic.ist.psu.edu, Pennsylvania State University. URL consultato il 25 gennaio 2012 (archiviato dall'url originale il 5 gennaio 2012).

Bibliografia modifica

Voci correlate modifica

Collegamenti esterni modifica