Wayback Machine

sito web

La Wayback Machine è un archivio digitale del World Wide Web. È stato lanciato nel 2001 dall'Internet Archive, un'organizzazione no profit con sede a San Francisco.

Wayback Machine
sito web
Logo
Logo
URLweb.archive.org/
Tipo di sitoarchivio digitale
LinguaInglese
ProprietarioInternet Archive
Lancio29 ottobre 2001

Storia modifica

I fondatori di Internet Archive Brewster Kahle e Bruce Gilliat hanno lanciato la Wayback Machine nel 2001 per affrontare il problema della scomparsa del contenuto del sito Web ogni volta che viene modificato o chiuso.[1] Il servizio consente agli utenti di visualizzare le versioni archiviate delle pagine Web nel tempo, che l'archivio chiama un "indice tridimensionale".[2] Kahle e Gilliat hanno creato la macchina sperando di archiviare l'intera Internet e fornire "accesso universale a tutte le conoscenze".[3]

Il nome Wayback Machine è stato scelto come riferimento alla "macchina WABAC" (pronunciato in passato), un dispositivo di viaggio nel tempo immaginario utilizzato dai personaggi Mister Peabody e Sherman in The Rocky and Bullwinkle Show, un cartone animato.[4] In uno dei segmenti componenti del cartone animato, la storia improbabile di Peabody, i personaggi usavano abitualmente la macchina per assistere, partecipare e, molto spesso, alterare eventi famosi nella storia.

La Wayback Machine ha iniziato ad archiviare le pagine Web memorizzate nella cache nel 1996, con l'obiettivo di rendere pubblico il servizio cinque anni dopo.[5] Dal 1996 al 2001, le informazioni sono state conservate su nastro digitale, con occasionalmente Kahle che consentiva a ricercatori e scienziati di accedere al grosso database.[6] Quando l'archivio ha raggiunto il suo quinto anniversario nel 2001, è stato presentato e aperto al pubblico in una cerimonia presso l'Università della California - Berkeley.[7] Al momento del lancio di Wayback Machine, conteneva già oltre 10 miliardi di pagine archiviate.[8]

Oggi i dati sono archiviati nel grande cluster di nodi Linux di Internet Archive.[3] Rivisita e archivia occasionalmente nuove versioni di siti Web (vedere i dettagli tecnici di seguito).[9] I siti possono anche essere acquisiti manualmente inserendo l'URL di un sito Web nella casella di ricerca, a condizione che il sito Web consenta a Wayback Machine di "scansionarlo" e salvare i dati.[5]

Dettagli tecnici modifica

Il software è stato sviluppato per "eseguire la scansione" del Web e scaricare tutte le pagine del World Wide Web accessibili al pubblico attraverso la gerarchia di Gopher, il sistema di bollettini Netnews (Usenet) e il software scaricabile.[10] Le informazioni raccolte da questi "crawler" non includono tutte le informazioni disponibili su Internet, poiché gran parte dei dati è limitata dall'editore o archiviata in database non accessibili. Per superare le incoerenze nei siti Web parzialmente memorizzati nella cache, Archive-It.org è stato sviluppato nel 2005 da Internet Archive come mezzo per consentire alle istituzioni e ai creatori di contenuti di raccogliere e conservare volontariamente raccolte di contenuti digitali e creare archivi digitali.[11]

Le ricerche per indicizzazione sono fornite da varie fonti, alcune importate da terze parti e altre generate internamente dall'Archivio.[9] Ad esempio, le ricerche per indicizzazione sono fornite da Sloan Foundation e Alexa, ricerche per indicizzazione gestite da IA per conto di NARA e Internet Memory Foundation, mirror di Common Crawl. Le "Ricerche per indicizzazione Web in tutto il mondo" sono in esecuzione dal 2010 e catturano il Web globale.[12]

La frequenza delle acquisizioni di snapshot varia in base al sito Web. I siti Web nelle "Ricerche per indicizzazione Web in tutto il mondo" sono inclusi in un "elenco di ricerca per indicizzazione", con il sito archiviato una volta per ricerca per indicizzazione. Il completamento di una ricerca per indicizzazione può richiedere mesi o addirittura anni, a seconda delle dimensioni. Ad esempio, "Wide Crawl Number 13" è stato iniziato il 9 gennaio 2015 e completato l'11 luglio 2016.[13] Tuttavia, possono essere in corso più ricerche per volta contemporaneamente e un sito può essere incluso in più di un elenco di ricerca per indicizzazione, quindi la frequenza con cui un sito viene sottoposto a ricerca per indicizzazione varia ampiamente.[9]

A partire da ottobre 2019, gli utenti sono limitati a 15 richieste e recuperi di archiviazione al minuto.

Capacità di stoccaggio e crescita modifica

Con lo sviluppo della tecnologia nel corso degli anni, la capacità di memorizzazione della Wayback Machine è cresciuta. Nel 2003, dopo solo due anni di accesso pubblico, la Wayback Machine stava crescendo a un ritmo di 12 terabyte / mese. I dati sono archiviati su sistemi rack PetaBox progettati su misura dallo staff di Internet Archive. Il primo rack da 100 TB è diventato pienamente operativo nel giugno 2004, sebbene presto sia diventato chiaro che avrebbero avuto bisogno di molto più spazio di archiviazione.[14][15]

Internet Archive ha migrato la sua architettura di archiviazione personalizzata su Sun Open Storage nel 2009 e ospita un nuovo data center in un centro dati Sun Modular nel campus californiano di Sun Microsystems.[16] Nel 2009, la Wayback Machine conteneva circa tre petabyte di dati e cresceva a una velocità di 100 terabyte al mese.[17]

Una nuova versione migliorata della Wayback Machine, con un'interfaccia aggiornata e un indice più aggiornato dei contenuti archiviati, è stata resa disponibile per i test pubblici nel 2011.[18] Nel marzo dello stesso anno, nel forum di Wayback Machine è stato affermato che "la versione beta della nuova Wayback Machine ha un indice più completo e aggiornato di tutti i materiali sottoposti a scansione nel 2010 e continuerà ad essere regolarmente aggiornata. L'indice alla base della classica Wayback Machine ha solo un po' di materiale rispetto al 2008 e non sono previsti ulteriori aggiornamenti dell'indice, poiché verrà gradualmente ritirato quest'anno."[19] Sempre nel 2011, Internet Archive ha installato la sesta coppia di rack PetaBox che ha aumentato la capacità di archiviazione della Wayback Machine di 700 terabyte.[20]

Nel gennaio 2013, la società ha annunciato un importante traguardo di 240 miliardi di URL.[21] Nell'ottobre 2013, la società ha annunciato la funzione "Salva una pagina"[22] che consente a qualsiasi utente di Internet di archiviare i contenuti di un URL. Questo è diventato una minaccia di abuso da parte del servizio per l'hosting di file binari dannosi.[23][24]

A dicembre la Wayback Machine conteneva 435 miliardi di pagine Web, quasi nove petabyte di dati, e cresceva a circa 20 terabyte a settimana.[8][25][26]

A luglio 2014, la Wayback Machine conteneva circa 15 petabyte di dati.[27]

A settembre 2018, la Wayback Machine conteneva oltre 25 petabyte di dati.[28][29]

Crescita modifica

Tra ottobre 2013 e marzo 2015, il ranking globale di Alexa del sito Web è cambiato da 163[30] a 208.[31] Nel marzo 2019 il grado era di 244.[32]

Politica di esclusione del sito Web modifica

Storicamente, Wayback Machine ha rispettato lo standard di esclusione dei robot (robots.txt) nel determinare se un sito Web sarebbe stato sottoposto a scansione o meno; o se già sottoposto a scansione, se i suoi archivi sarebbero visualizzabili pubblicamente. I proprietari di siti Web hanno avuto la possibilità di rinunciare a Wayback Machine attraverso l'uso di robots.txt. Ha applicato le regole robots.txt in modo retroattivo; se un sito ha bloccato Internet Archive, anche tutte le pagine archiviate in precedenza dal dominio sono state immediatamente rese non disponibili. Inoltre, Internet Archive ha dichiarato che "a volte un proprietario di un sito Web ci contatterà direttamente e ci chiederà di interrompere la scansione o l'archiviazione di un sito. Rispettiamo queste richieste. "[33] Inoltre, il sito web dice: "Internet Archive non è interessato a preservare o offrire l'accesso a siti Web o altri documenti Internet di persone che non desiderano i loro materiali nella raccolta".[34][35]

Note modifica

  1. ^ Greg R. Notess, The Wayback Machine: The Web's Archive, in Online, vol. 26, marzo–April 2002, pp. 59–61.
  2. ^ https://archive.org/about/faqs.php#The_Wayback_Machine.
  3. ^ a b 20,000 Hard Drives on a Mission | Internet Archive Blogs, su blog.archive.org. URL consultato il 15 ottobre 2018 (archiviato dall'url originale il 20 ottobre 2018).
  4. ^ Judy Tong, Responsible Party – Brewster Kahle; A Library Of the Web, On the Web, in New York Times, 8 settembre 2002. URL consultato il 15 agosto 2011 (archiviato dall'url originale il 20 febbraio 2011).
  5. ^ a b Internet Archive: Wayback Machine, su archive.org. URL consultato il 15 ottobre 2018 (archiviato dall'url originale il 3 gennaio 2014).
  6. ^ John Cook, Web site takes you way back in Internet history, in Seattle Post-Intelligencer, 1º novembre 2001. URL consultato il 15 agosto 2011 (archiviato dall'url originale il 12 agosto 2014).
  7. ^ Wayback Goes Way Back on Web, in Wired, 28 ottobre 2001. URL consultato il 16 ottobre 2017 (archiviato dall'url originale il 16 ottobre 2017).
  8. ^ a b Sanjay K. Arora, Yin Li e Jan Youtie, Using the wayback machine to mine websites in the social sciences: A methodological resource, in Journal of the Association for Information Science and Technology, vol. 67, n. 8, 5 maggio 2015, pp. 1904–1915, DOI:10.1002/asi.23503, ISSN 2330-1635 (WC · ACNP).
  9. ^ a b c Kalev Leetaru, The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web, su Forbes, 28 gennaio 2016. URL consultato il 16 ottobre 2017 (archiviato dall'url originale il 16 ottobre 2017).
  10. ^ Brewster Kahle, Archiving the Internet, su uibk.ac.at, Scientific American – March 1997 Issue. URL consultato il 19 agosto 2011 (archiviato dall'url originale il 3 aprile 2012).
  11. ^ Jeff Kaplan, Archive-It: Crawling the Web Together, su Internet Archive Blogs, 27 ottobre 2014. URL consultato il 16 ottobre 2017 (archiviato dall'url originale il 12 ottobre 2017).
  12. ^ Worldwide Web Crawls, su archive.org, Internet Archive. URL consultato il 16 ottobre 2017 (archiviato dall'url originale il 19 ottobre 2017).
  13. ^ Wide Crawl Number 13, su archive.org, Internet Archive. URL consultato il 16 ottobre 2017 (archiviato dall'url originale il 19 ottobre 2017).
  14. ^ Internet Archive: Petabox, su archive.org. URL consultato il 25 ottobre 2018.
  15. ^ Michael Kanellos, Big storage on the cheap, CNET News.com, 29 luglio 2005. URL consultato il 29 luglio 2007 (archiviato dall'url originale il 3 aprile 2007).
  16. ^ Internet Archive and Sun Microsystems Create Living History of the Internet (XML), su sun.com, Sun Microsystems, 25 marzo 2009. URL consultato il 27 marzo 2009 (archiviato dall'url originale il 26 marzo 2009).
  17. ^ Lucas Mearian, Internet Archive to unveil massive Wayback Machine data center, Computerworld.com, 19 marzo 2009. URL consultato il 22 marzo 2009 (archiviato dall'url originale il 23 marzo 2009).
  18. ^ Updated Wayback Machine in Beta Testing, su iawebarchiving.wordpress.com, Archive.org. URL consultato il 19 agosto 2011 (archiviato dall'url originale il 23 agosto 2011).
  19. ^ Beta Wayback Machine, in forum, su archive.org. URL consultato il 16 aprile 2014 (archiviato dall'url originale il 17 aprile 2014).
  20. ^ Internet Archive Forums: 6th pair of racks go into service: over 2PB of data space used, su archive.org. URL consultato il 25 ottobre 2018 (archiviato dall'url originale il 24 ottobre 2016).
  21. ^ Wayback Machine: Now with 240,000,000,000 URLs | Internet Archive Blogs, su blog.archive.org, 9 gennaio 2013. URL consultato il 16 aprile 2014 (archiviato dall'url originale il 14 aprile 2014).
  22. ^ Alexis Rossi, Fixing Broken Links on the Internet, su archive.org, Collections Team, the Internet Archive, 25 ottobre 2013. URL consultato il 25 marzo 2015 (archiviato dall'url originale il 7 novembre 2014).
    «We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future.»
  23. ^ The VirusTotal Team, 207.241.226.190 IP address information, su virustotal.com, VirusTotal, 25 marzo 2015. URL consultato il 25 marzo 2015 (archiviato dall'url originale il 14 luglio 2014).
    «2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe»
  24. ^ Advisory provided by Google, Safe Browsing Diagnostic page for archive.org, su google.com/safebrowsing, Google, 25 marzo 2015. URL consultato il 25 marzo 2015 (archiviato dall'url originale il 6 aprile 2015).
    «2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).»
  25. ^ Internet Archive Frequently Asked Questions, su archive.org. URL consultato il 17 gennaio 2015 (archiviato dall'url originale il 21 ottobre 2009).
  26. ^ Internet Archive Frequently Asked Questions, su archive.org, 18 dicembre 2014. URL consultato il 13 dicembre 2018 (archiviato dall'url originale il 18 dicembre 2014).
  27. ^ Can the manipulation of big data change the way the world thinks?, su The National. URL consultato il 14 maggio 2017 (archiviato dall'url originale il 12 gennaio 2017).
  28. ^ Zachary Crockett, Inside Wayback Machine, the internet’s time capsule, in The Hustle, 28 settembre 2018. URL consultato il 26 ottobre 2018 (archiviato dall'url originale il 2 ottobre 2018).
  29. ^ Virginia Heffernan, Things Break and Decay on the Internet—That's a Good Thing, in WIRED, 18 settembre 2018. URL consultato il 26 ottobre 2018 (archiviato dall'url originale il 25 settembre 2018).
  30. ^ Archive.org Site Info, su alexa.com, Alexa Internet. URL consultato il 29 ottobre 2013 (archiviato dall'url originale il 28 ottobre 2013).
  31. ^ Archive.org Site Overview, su alexa.com, Alexa Internet. URL consultato il 9 aprile 2015 (archiviato dall'url originale il 9 aprile 2015).
  32. ^ Archive.org Traffic, Demographics and Competitors - Alexa, su web.archive.org, 23 marzo 2019. URL consultato il 5 aprile 2019 (archiviato dall'url originale il 23 marzo 2019).
  33. ^ Some sites are not available because of Robots.txt or other exclusions Archiviato il 15 aprile 2011 in Internet Archive.
  34. ^ How can I remove my site's pages from the Wayback Machine? Archiviato il 17 aprile 2014 in Internet Archive.
  35. ^ Joseph Cox, The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers, 22 maggio 2018. URL consultato il 23 maggio 2018 (archiviato dall'url originale il 22 maggio 2018).

Altri progetti modifica

Collegamenti esterni modifica