Apri il menu principale

Archiviazione web

pratica di conservazione archivistica delle pagine web

L'archiviazione web è il processo di raccolta di porzioni del World Wide Web al fine di preservarle in un archivio ad uso di futuri ricercatori, storici e pubblico generico[1]. A causa dell'enorme quantità di informazioni che si possono trovare sul web, gli archivisti utilizzano in molti casi dei web crawler per registrare automaticamente le pagine. La più grande organizzazione di archiviazione web, che si basa su un approccio di crawling di massa, è Internet Archive, che, con la sua Wayback Machine, aspira a tenere un archivio dell'intero web.

Indice

StoriaModifica

 
Il logo della Wayback Machine di Internet Archive

Una delle prime pratiche di archiviazione web era, nei primi anni novanta, la creazione di liste di link professionali (come ad esempio la lista dei gruppi per i diritti umani di Amnesty International o la Yahoo! directory e l'Open Directory Project). In assenza di motori di ricerca questi siti compilavano liste continuamente aggiornate di indirizzi web utili, organizzandoli per categorie di argomento. La richiesta, la valutazione e la categorizzazione di siti web, insieme alla raccolta su larga scala, l'ordinamento manuale e la messa in mostra di siti web, possono essere considerati una forma primordiale di analisi dei siti web. La comparsa dei motori di ricerca algoritmici ha contribuito alla scomparsa quasi completa di questi metodi manuali.

L'International Web Archiving Workshop (IWAW), iniziato nel 2001, ha creato una piattaforma per la condivisione di esperienze e per lo scambio di idee. La successiva fondazione dell'International Internet Preservation Consortium (IIPC), nel 2003, ha facilitato enormemente la collaborazione internazionale nello sviluppo di standard e strumenti open source per la creazione di archivi web. Questi sviluppi, e la crescente porzione di cultura umana che ogni giorno viene creata e registrata sul web, si intrecciano rendendo inevitabile che un numero sempre maggiore di biblioteche e archivi debbano affrontare le sfide dell'archiviazione web. Le biblioteche statali, gli archivi di stato e varie organizzazioni sono coinvolte nell'archiviazione di contenuti culturalmente rilevanti sul web.[2][3]

I software e i servizi commerciali di archiviazione web sono oggi fruibili anche dalle organizzazioni private che hanno bisogno di archiviare i propri contenuti web per motivi di registrazione delle attività o per motivi normativi e legali. Archive-it, un servizio a pagamento offerto da Internet Archive, permette per esempio a privati e istituzioni il salvataggio di interi siti e collezioni di siti.[4]

Metodi di raccoltaModifica

Generalmente gli archivisti web archiviano diversi tipi di contenuti web tra cui pagine web HTML, style sheets, JavaScript, immagini e video. Inoltre gli archivisti raccolgono metadati riguardo alle risorse archiviate come ad esempio l'orario di accesso, il MIME type e la lunghezza del contenuto. Questi metadati sono utili per stabilire l'autenticità, la provenienza e la collocazione cronologica della collezione archivistica.[2]

Harvesting remotoModifica

Il metodo più comune di archiviazione del web fa uso di web crawlers per rendere automatico il processo di collezione delle pagine web. Tipicamente i crawler accedono ai siti nello stesso modo in cui lo fa un utente per tramite di un browser e ne esplorano i link interni a una profondità determinata dall'archivista, salvando i loro contenuti in un archivio separato dal web "live".

Esempi di web crawlers usati per l'archiviazione comprendono Heritrix, HTTrack, Wget.

Archiviazione di databaseModifica

L'archiviazione su database si riferisce ai metodi di archiviazione che riguardano siti basati su database. Questo tipo di archiviazione richiede la conversione del contenuto della base dati in uno schema standard, spesso usando XML. Una volta immagazzinati nel formato standard, il contenuto dei diversi database che è stato archiviato può essere quindi reso accessibile attraverso un sistema di accesso singolo. Questo approccio è esemplificato dagli strumenti DeepArc e Xinq sviluppati rispettivamente dalla Bibliotèque Nationale de France e dalla National Library of Australia. DeepArc permette di mappare la struttura di un database relazionale in uno schema XML e di esportare i suoi contenuti in un documento XML.[5] Xinq permette di pubblicare il contenuto così ottenuto online.[6]

Archiviazione transazionaleModifica

L'archiviazione transazionale registra lo scambio di dati tra un web server e un web browser. Questo approccio è perlopiù usato per registrare nel dettaglio ciò che è effettivamente visto da un utente in un determinato momento e in un determinato sito internet. Il software di registrazione generalmente intercetta ogni richiesta HTTP e ogni risposta dal server, filtrando ogni risposta per eliminare i duplicati.

Salvataggio diretto da parte degli utentiModifica

Esistono diversi servizi che permettono a chiunque di salvare singole pagine web in archivi già esistenti, per permettere la consultazione futura, facilitare la citazione di pagine web in un formato stabile e in un determinato momento nel tempo o consegnare la pagina ai futuri ricercatori. Il servizio probabilmente più diffuso è quello offerto dalla Wayback Machine di Internet Archive,[7] ma esistono alternative quali WebCite (pensato appositamente per la citazione di pagine web da parte di accademici)[8] e Archive.is.[9]

Difficoltà e limitiModifica

Limiti tecniciModifica

Alcuni server web sono configurati in modo da ritornare diverse pagine alle richieste dell'archivista web piuttosto che come se stessero rispondendo alle richieste di un browser[10]. Solitamente questo viene fatto per ingannare i motori di ricerca indirizzando un maggiore numero traffico di utenti verso un sito web. Ciò è fatto spesso per evitare responsabilità o per dare contenuti avanzati solo a quei browser che possono mostrarli. In molti casi i gestori di siti web possono impedire l'accesso ai crawler e richiedere la cancellazione del materiale già archiviato attraverso dei files robot.txt. Il deep web e tutto il materiale protetto da login (come ad esempio buona parte dei post su social network) sono perlopiù esclusi dalla raccolta automatica.[11]

La velocità con la quale il web evolve fa sì che sia molto difficile archiviare un sito esattamente come è: nel caso di raccolte ampie è probabile che i siti siano mutati prima ancora che il crawl sia terminato. Elementi quali immagini e banner possono essere esclusi dalla raccolta (o registrati in un momento successivo) in quanto contenuto dinamico che è solo riprodotto dalla pagina ma non fa parte del suo codice HTML.[2]

Limiti legaliModifica

Gli archivisti web non devono aver a che fare solo con le sfide dell'archiviazione web, ma devono anche confrontarsi con le leggi di proprietà intellettuale. Peter Lyman sostiene per esempio che "benché il web sia popolarmente ritenuta una risorsa di pubblico dominio, esso è protetto da copyright; dunque, gli archivisti non hanno alcun diritto legale di copiare il web".[12] Nonostante ciò, in molti paesi le biblioteche nazionali hanno la possibilità legale di copiare parti del web grazie a un'estensione delle leggi sul deposito legale.[2]

Pagine correlateModifica

NoteModifica

  1. ^ Pouya Habibzadeh, Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals, pag. 455–464.
  2. ^ a b c d (FR) Francesca Musiani, Camille Paloque-Bergès e Valérie Schafer, Qu’est-ce qu’une archive du web ?, Open Edition Press, 2019, DOI:10.4000/books.oep.8713, ISBN 979-10-365-0470-9, OCLC 1089196793. URL consultato il 26 maggio 2019 (archiviato il 31 marzo 2019).
  3. ^ (EN) Miguel Costa, Daniel Gomes e Mário J. Silva, The evolution of web archiving, in International Journal on Digital Libraries, vol. 18, nº 3, 2017-9, pp. 191–205, DOI:10.1007/s00799-016-0171-9. URL consultato il 26 maggio 2019.
  4. ^ Archive-It - Web Archiving Services for Libraries and Archives, su archive-it.org. URL consultato il 26 maggio 2019 (archiviato l'11 aprile 2019).
  5. ^ (EN) DeepArc, su deeparc.sourceforge.net, 2005. URL consultato il 26 maggio 2019 (archiviato il 20 maggio 2018).
  6. ^ Xinq Search and Browse tool Xinq [Xml INQuiry] Search and browse tool for accessing an XML database, su nla.gov.au. URL consultato il 26 maggio 2019 (archiviato dall'url originale il 4 gennaio 2012).
  7. ^ Internet Archive: Wayback Machine, su archive.org. URL consultato il 26 maggio 2019 (archiviato il 3 gennaio 2014).
  8. ^ (EN) WebCite, su www.webcitation.org. URL consultato il 26 maggio 2019 (archiviato dall'url originale il 13 maggio 2019).
  9. ^ (EN) archive.is, su archive.is. URL consultato il 26 maggio 2019 (archiviato il 13 novembre 2015).
  10. ^ Parham Habibzadeh, Are current archiving systems reliable enough?.
  11. ^ Web archiving | Conservazione Digitale, su conservazionedigitale.org. URL consultato il 26 maggio 2019 (archiviato il 17 aprile 2019).
  12. ^ (EN) Peter Lyman, Archiving the World Wide Web • CLIR, su CLIR. URL consultato il 26 maggio 2019 (archiviato il 22 aprile 2019).

BibliografiaModifica

  • (EN) Adrian Brown, Archiving Websites: a practical guide for information management professionals, London, Facet Publishing, 2006, ISBN 978-1-85604-553-7.
Controllo di autoritàNDL (ENJA00981807