Wayback Machine

sito web

La Wayback Machine è un archivio digitale del World Wide Web . È stato lanciato nel 2001 dall'Internet Archive, un'organizzazione no profit con sede a San Francisco.

Logo di Wayback Machine

StoriaModifica

I fondatori di Internet Archive Brewster Kahle e Bruce Gilliat hanno lanciato la Wayback Machine nel 2001 per affrontare il problema della scomparsa del contenuto del sito Web ogni volta che viene modificato o chiuso.[1] Il servizio consente agli utenti di visualizzare le versioni archiviate delle pagine Web nel tempo, che l'archivio chiama un "indice tridimensionale".[2] Kahle e Gilliat hanno creato la macchina sperando di archiviare l'intera Internet e fornire "accesso universale a tutte le conoscenze".[3]

Il nome Wayback Machine è stato scelto come riferimento alla " macchina WABAC " (pronunciato in passato), un dispositivo di viaggio nel tempo immaginario utilizzato dai personaggi Mister Peabody e Sherman in The Rocky and Bullwinkle Show, un cartone animato.[4] In uno dei segmenti componenti del cartone animato, la storia improbabile di Peabody, i personaggi usavano abitualmente la macchina per assistere, partecipare e, molto spesso, alterare eventi famosi nella storia.

La Wayback Machine ha iniziato ad archiviare le pagine Web memorizzate nella cache nel 1996, con l'obiettivo di rendere pubblico il servizio cinque anni dopo.[5] Dal 1996 al 2001, le informazioni sono state conservate su nastro digitale, con occasionalmente Kahle che consentiva a ricercatori e scienziati di accedere al grosso database.[6] Quando l'archivio ha raggiunto il suo quinto anniversario nel 2001, è stato presentato e aperto al pubblico in una cerimonia presso l'Università della California, Berkeley .[7] Al momento del lancio di Wayback Machine, conteneva già oltre 10 miliardi di pagine archiviate.[8]

Oggi i dati sono archiviati nel grande cluster di nodi Linux di Internet Archive.[3] Rivisita e archivia occasionalmente nuove versioni di siti Web (vedere i dettagli tecnici di seguito).[9] I siti possono anche essere acquisiti manualmente inserendo l'URL di un sito Web nella casella di ricerca, a condizione che il sito Web consenta a Wayback Machine di "scansionarlo" e salvare i dati.[5]

Dettagli tecniciModifica

 
Schermata di funzionamento del sito risalente al 2015

Il software è stato sviluppato per "eseguire la scansione" del Web e scaricare tutte le pagine del World Wide Web accessibili al pubblico attraverso la gerarchia di Gopher, il sistema di bollettini Netnews (Usenet) e il software scaricabile.[10] Le informazioni raccolte da questi "crawler" non includono tutte le informazioni disponibili su Internet, poiché gran parte dei dati è limitata dall'editore o archiviata in database non accessibili. Per superare le incoerenze nei siti Web parzialmente memorizzati nella cache, Archive-It.org è stato sviluppato nel 2005 da Internet Archive come mezzo per consentire alle istituzioni e ai creatori di contenuti di raccogliere e conservare volontariamente raccolte di contenuti digitali e creare archivi digitali.[11]

Le ricerche per indicizzazione sono fornite da varie fonti, alcune importate da terze parti e altre generate internamente dall'Archivio.[9] Ad esempio, le ricerche per indicizzazione sono fornite da Sloan Foundation e Alexa, ricerche per indicizzazione gestite da IA per conto di NARA e Internet Memory Foundation, mirror di Common Crawl. Le "Ricerche per indicizzazione Web in tutto il mondo" sono in esecuzione dal 2010 e catturano il Web globale.[12]

La frequenza delle acquisizioni di snapshot varia in base al sito Web. I siti Web nelle "Ricerche per indicizzazione Web in tutto il mondo" sono inclusi in un "elenco di ricerca per indicizzazione", con il sito archiviato una volta per ricerca per indicizzazione. Il completamento di una ricerca per indicizzazione può richiedere mesi o addirittura anni, a seconda delle dimensioni. Ad esempio, "Wide Crawl Number 13" è stato iniziato il 9 gennaio 2015 e completato l'11 luglio 2016.[13] Tuttavia, possono essere in corso più ricerche per volta contemporaneamente e un sito può essere incluso in più di un elenco di ricerca per indicizzazione, quindi la frequenza con cui un sito viene sottoposto a ricerca per indicizzazione varia ampiamente.[9]

A partire da ottobre 2019, gli utenti sono limitati a 5 richieste e recuperi di archiviazione al minuto.

Capacità di stoccaggio e crescitaModifica

Con lo sviluppo della tecnologia nel corso degli anni, la capacità di memorizzazione della Wayback Machine è cresciuta. Nel 2003, dopo solo due anni di accesso pubblico, la Wayback Machine stava crescendo a un ritmo di 12 terabyte / mese. I dati sono archiviati su sistemi rack PetaBox progettati su misura dallo staff di Internet Archive. Il primo rack da 100 TB è diventato pienamente operativo nel giugno 2004, sebbene presto sia diventato chiaro che avrebbero avuto bisogno di molto più spazio di archiviazione.[14][15]

Internet Archive ha migrato la sua architettura di archiviazione personalizzata su Sun Open Storage nel 2009 e ospita un nuovo data center in un centro dati Sun Modular nel campus californiano di Sun Microsystems .[16] Nel 2009, la Wayback Machine conteneva circa tre petabyte di dati e cresceva a una velocità di 100 terabyte al mese.[17]

Una nuova versione migliorata della Wayback Machine, con un'interfaccia aggiornata e un indice più aggiornato dei contenuti archiviati, è stata resa disponibile per i test pubblici nel 2011.[18] Nel marzo dello stesso anno, nel forum di Wayback Machine è stato affermato che "la versione beta della nuova Wayback Machine ha un indice più completo e aggiornato di tutti i materiali sottoposti a scansione nel 2010 e continuerà ad essere regolarmente aggiornata. L'indice alla base della classica Wayback Machine ha solo un po' di materiale rispetto al 2008 e non sono previsti ulteriori aggiornamenti dell'indice, poiché verrà gradualmente ritirato quest'anno. "[19] Sempre nel 2011, Internet Archive ha installato la sesta coppia di rack PetaBox che ha aumentato la capacità di archiviazione della Wayback Machine di 700 terabyte.[20]

Nel gennaio 2013, la società ha annunciato un importante traguardo di 240 miliardi di URL.[21] Nell'ottobre 2013, la società ha annunciato la funzione "Salva una pagina"[22] che consente a qualsiasi utente di Internet di archiviare i contenuti di un URL. Questo è diventato una minaccia di abuso da parte del servizio per l'hosting di file binari dannosi.[23][24]

A dicembre la Wayback Machine conteneva 435 miliardi di pagine Web, quasi nove petabyte di dati, e cresceva a circa 20 terabyte a settimana.[8][25][26]

A luglio 2014, la Wayback Machine conteneva circa 15 petabyte di dati.[27]

A settembre 2018, la Wayback Machine conteneva oltre 25 petabyte di dati.[28][29]

CrescitaModifica

Tra ottobre 2013 e marzo 2015, il ranking globale di Alexa del sito Web è cambiato da 163[30] a 208.[31] Nel marzo 2019 il grado era di 244.[32]

Politica di esclusione del sito WebModifica

Storicamente, Wayback Machine ha rispettato lo standard di esclusione dei robot (robots.txt) nel determinare se un sito Web sarebbe stato sottoposto a scansione o meno; o se già sottoposto a scansione, se i suoi archivi sarebbero visualizzabili pubblicamente. I proprietari di siti Web hanno avuto la possibilità di rinunciare a Wayback Machine attraverso l'uso di robots.txt. Ha applicato le regole robots.txt in modo retroattivo; se un sito ha bloccato Internet Archive, anche tutte le pagine archiviate in precedenza dal dominio sono state immediatamente rese non disponibili. Inoltre, Internet Archive ha dichiarato che "a volte un proprietario di un sito Web ci contatterà direttamente e ci chiederà di interrompere la scansione o l'archiviazione di un sito. Rispettiamo queste richieste. "[33] Inoltre, il sito web dice: "Internet Archive non è interessato a preservare o offrire l'accesso a siti Web o altri documenti Internet di persone che non desiderano i loro materiali nella raccolta".[34][35]

NoteModifica

  1. ^ Greg R. Notess, The Wayback Machine: The Web's Archive, in Online, vol. 26, March–April 2002, pp. 59–61.
  2. ^ https://archive.org/about/faqs.php#The_Wayback_Machine.
  3. ^ a b 20,000 Hard Drives on a Mission | Internet Archive Blogs, su blog.archive.org. URL consultato il October 15, 2018 (archiviato dall'url originale il October 20, 2018).
  4. ^ Judy Tong, Responsible Party – Brewster Kahle; A Library Of the Web, On the Web, in New York Times, September 8, 2002. URL consultato il August 15, 2011 (archiviato dall'url originale il February 20, 2011).
  5. ^ a b Internet Archive: Wayback Machine, su archive.org. URL consultato il October 15, 2018 (archiviato dall'url originale il January 3, 2014).
  6. ^ John Cook, Web site takes you way back in Internet history, in Seattle Post-Intelligencer, November 1, 2001. URL consultato il August 15, 2011 (archiviato dall'url originale il August 12, 2014).
  7. ^ Wayback Goes Way Back on Web, in Wired, October 28, 2001. URL consultato il October 16, 2017 (archiviato dall'url originale il October 16, 2017).
  8. ^ a b Sanjay K. Arora, Yin Li e Jan Youtie, Using the wayback machine to mine websites in the social sciences: A methodological resource, in Journal of the Association for Information Science and Technology, vol. 67, n. 8, May 5, 2015, pp. 1904–1915, DOI:10.1002/asi.23503, ISSN 2330-1635 (WC · ACNP).
  9. ^ a b c Kalev Leetaru, The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web, su Forbes, January 28, 2016. URL consultato il October 16, 2017 (archiviato dall'url originale il October 16, 2017).
  10. ^ Brewster Kahle, Archiving the Internet, Scientific American – March 1997 Issue. URL consultato il August 19, 2011 (archiviato dall'url originale il April 3, 2012).
  11. ^ Jeff Kaplan, Archive-It: Crawling the Web Together, su Internet Archive Blogs, October 27, 2014. URL consultato il October 16, 2017 (archiviato dall'url originale il October 12, 2017).
  12. ^ Worldwide Web Crawls, Internet Archive. URL consultato il October 16, 2017 (archiviato dall'url originale il October 19, 2017).
  13. ^ Wide Crawl Number 13, Internet Archive. URL consultato il October 16, 2017 (archiviato dall'url originale il October 19, 2017).
  14. ^ Internet Archive: Petabox, su archive.org. URL consultato il October 25, 2018.
  15. ^ Michael Kanellos, Big storage on the cheap, CNET News.com, July 29, 2005. URL consultato il July 29, 2007 (archiviato dall'url originale il April 3, 2007).
  16. ^ Internet Archive and Sun Microsystems Create Living History of the Internet (XML), Sun Microsystems, March 25, 2009. URL consultato il March 27, 2009 (archiviato dall'url originale il March 26, 2009).
  17. ^ Lucas Mearian, Internet Archive to unveil massive Wayback Machine data center, Computerworld.com, March 19, 2009. URL consultato il March 22, 2009 (archiviato dall'url originale il March 23, 2009).
  18. ^ Updated Wayback Machine in Beta Testing, Archive.org. URL consultato il August 19, 2011 (archiviato dall'url originale il August 23, 2011).
  19. ^ Beta Wayback Machine, in forum, Archive.org. URL consultato il April 16, 2014 (archiviato dall'url originale il April 17, 2014).
  20. ^ Internet Archive Forums: 6th pair of racks go into service: over 2PB of data space used, su archive.org. URL consultato il October 25, 2018 (archiviato dall'url originale il October 24, 2016).
  21. ^ Wayback Machine: Now with 240,000,000,000 URLs | Internet Archive Blogs, Blog.archive.org, January 9, 2013. URL consultato il April 16, 2014 (archiviato dall'url originale il April 14, 2014).
  22. ^ Alexis Rossi, Fixing Broken Links on the Internet, su archive.org, Collections Team, the Internet Archive, October 25, 2013. URL consultato il March 25, 2015 (archiviato dall'url originale il November 7, 2014).
    «We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future.».
  23. ^ The VirusTotal Team, 207.241.226.190 IP address information, su virustotal.com, VirusTotal, March 25, 2015. URL consultato il March 25, 2015 (archiviato dall'url originale il July 14, 2014).
    «2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe».
  24. ^ Advisory provided by Google, Safe Browsing Diagnostic page for archive.org, su google.com/safebrowsing, Google, March 25, 2015. URL consultato il March 25, 2015 (archiviato dall'url originale il April 6, 2015).
    «2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).».
  25. ^ Internet Archive Frequently Asked Questions, su archive.org. URL consultato il January 17, 2015 (archiviato dall'url originale il October 21, 2009).
  26. ^ Internet Archive Frequently Asked Questions, su archive.org, December 18, 2014. URL consultato il December 13, 2018 (archiviato dall'url originale il December 18, 2014).
  27. ^ Can the manipulation of big data change the way the world thinks?, su The National. URL consultato il May 14, 2017 (archiviato dall'url originale il January 12, 2017).
  28. ^ Zachary Crockett, Inside Wayback Machine, the internet’s time capsule, in The Hustle, September 28, 2018. URL consultato il October 26, 2018 (archiviato dall'url originale il October 2, 2018).
  29. ^ Virginia Heffernan, Things Break and Decay on the Internet—That's a Good Thing, in WIRED, September 18, 2018. URL consultato il October 26, 2018 (archiviato dall'url originale il September 25, 2018).
  30. ^ Archive.org Site Info, Alexa Internet. URL consultato il October 29, 2013 (archiviato dall'url originale il October 28, 2013).
  31. ^ Archive.org Site Overview, Alexa Internet. URL consultato il April 9, 2015 (archiviato dall'url originale il April 9, 2015).
  32. ^ Archive.org Traffic, Demographics and Competitors - Alexa, su web.archive.org, 23 marzo 2019. URL consultato il 5 aprile 2019 (archiviato dall'url originale il 23 marzo 2019).
  33. ^ Some sites are not available because of Robots.txt or other exclusions Archiviato il 15 aprile 2011 in Internet Archive.
  34. ^ How can I remove my site's pages from the Wayback Machine? Archiviato il 17 aprile 2014 in Internet Archive.
  35. ^ Joseph Cox, The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers, May 22, 2018. URL consultato il May 23, 2018 (archiviato dall'url originale il May 23, 2018).

Altri progettiModifica

Collegamenti esterniModifica