Wikipedia:Bar/Discussioni/Archivi storici dei giornali che vanno offline

Archivi storici dei giornali che vanno offline


Vorrei portare all'attenzione di tutti una questione nella quale mi sono imbattuto più volte di recente: la chiusura dei siti con gli archivi storici dei giornali, che rappresentano una risorsa insostituibile sia per chi scrive voci (usare il motore di ricerca permette di scoprire fatti e informazioni, a prescindere dal fatto che poi si usi l'articolo come fonte) sia per chi le legge (quando sono usati come fonte la verificabilità è difficile in assenza del link).

L'anno scorso era successo con il Corriere della Sera (in realtà l'archivio non è stato chiuso però è diventato a pagamento), lo scorso autunno è stata la volta de Il Tempo (PS: la mia richiesta di un bot è ancora aperta), il mese scorso è toccato a L'Unità, e oggi mi sono accorto che è sparito un altro archivio che usavo spesso, quello dell'Agenzia Giornalistica Italia. http://archivio.agi.it ora reindirizza al sito agi.it, e i vecchi link ora reindirizzano al motore di ricerca interno al sito (che però contiene solo i lanci degli ultimi due anni).

Il risultato è che abbiamo sempre più link rotti; ma questo fortunatamente è un problema poco grave perché ho avuto modo di vedere che archive.org e archive.is hanno quasi sempre una copia dei link presenti su Wikipedia. Il problema - a mio avviso - sono gli altri contenuti, quelli non ancora usati come fonte in Wikipedia: siccome di solito non vengono archiviati in automatico dai siti predetti, quei contenuti vengono persi per sempre e non potranno essere usati in futuro. Allora riprendo un'idea uscita fuori il mese scorso, nella discussione sull'archivio dell'Unità: perché non agiamo prima del disastro? Non si potrebbe salvare su archive.org una copia di tutte le pagine dei principali archivi giornalistici, prima che un altro di loro vada offline e si perda tutto? Basterebbe fare un bot che scorre tutte le pagine dell'archivio storico, e per ciascuna di esse va su archive.org e clicca sul pulsante "Save Page Now"; non servono risorse di Wikipedia/Wikimedia perché il sito e lo spazio di archiviazione non sono nostri, e non serve nessun permesso perché è un meccanismo che già ora avviene in automatico per la maggior parte delle pagine web. --Una giornata uggiosa '94 · E poi, di che parliamo? 13:07, 18 feb 2017 (CET)[rispondi]

Il problema è che senza il motore di ricerca dell'archivio del giornale/agenzia si fa molta fatica, avere migliaia di file senza sapere come cercarci dentro diventa quasi inutile. . O vai a "colpo sicuro" ma serve il link...Servirebbe costruire proprio un database, che legge i PDF (molti archivi hanno le scansioni dei giornali...) con un OCR e permette di fare ricerche libere. Ma anche se fossero articoli in testo, come fai a cercarci dentro con archive? E magari ricerche con data e parole chiave insieme?--151.67.220.158 (msg) 13:55, 18 feb 2017 (CET)[rispondi]
Non servono tutte queste cose. Cercare tra gli articoli archiviati è possibile già adesso, senza bisogno di ricostruire nessun database: ad esempio questa è la lista di tutti gli articoli AGI salvati su archive.org, e usando la casella a destra "Filter results" si possono filtrare gli articoli in base a parole presenti nell'indirizzo (che quasi sempre è uguale al titolo). È vero però che la ricerca non si può estendere al contenuto dell'articolo. Inoltre la wayback machine già adesso archivia perfettamente i PDF (esempio). Tra gli archivi che usano il formato PDF, tutti quelli che conosco (L'Unità, La Stampa) pubblicano gli articoli con la scansione OCR già incorporata quindi non c'è bisogno di farla. --Una giornata uggiosa '94 · E poi, di che parliamo? 14:09, 18 feb 2017 (CET)[rispondi]
PS: inoltre se si vuole avere una lista degli articoli più precisa e comoda da navigare basterebbe poco. Mentre il bot fa il lavoro, potrebbe compilare una pagina con una tabella del tipo URL su archive.orgTitolo articoloData articolo che diventerebbe una sorta di "indice" del catalogo (pagina che si potrebbe tenere anche qui su wiki visto che la semplice lista dei link avrebbe dimensioni grandi ma gestibili). --Una giornata uggiosa '94 · E poi, di che parliamo? 14:16, 18 feb 2017 (CET)[rispondi]
Perplessità di Supernino sul copyright

Tutto bello, eccetto che non rientra nei confini della legalità e risolverebbe il problema solo finché certi archivi continueranno a esistere. L'unico rimedio vero è ritornare a dare importanza all'inserire precisi riferimenti cartacei (quando ci sono), perché qualsiasi link oggi c'è e domani ci potrebbe non essere, archive.org compreso. --Supernino 📬 16:43, 18 feb 2017 (CET)[rispondi]

[@ Supernino] Non è affatto illegale, se un sito internet non vuole che archive.org faccia una copia delle sue pagine ha modo di farlo, tramite il file robots.txt. L'uso di siti del genere è incoraggiato tanto che il {{Cita web}} ha dei parametri appositi (fermo restando che vanno compilati anche gli altri, come titolo, data, pagina, ecc). È difficile che archive.org sparisca: esiste da 21 anni, cioè 4/5 della vita dell'intero Web. IMHO non è un evento più probabile di un terremoto/incendio che distrugge i libri di una biblioteca; al confronto, è molto più facile che sparisca Wikipedia che poggia su basi meno solide sia a livello economico che di creazione dei contenuti. --Una giornata uggiosa '94 · E poi, di che parliamo? 17:02, 18 feb 2017 (CET)[rispondi]
[@ Una giornata uggiosa '94] E negli ultimi 21 anni dibattiti su cose tipo "lotta alla pirateria", "tutele del copyright" sono tendenzialmente aumentati o diminuiti? I procedimenti giudiziari in tema di copyright sono aumentati o diminuiti? :) Archive.org può pure continuare a esistere (e diciamo anche che finora ha avuto la fortuna di non essere finito nel mirino delle maggiori associazioni internazionali per la tutela del copyright), ma se domani mattina l'editore X gli chiede di rimuovere le pagine che tu senza autorizzazione alcuna hai "archiviato" le deve rimuovere. Per questo, tutto il sito probabilmente no -ospita anche molti contenuti di pubblico dominio-, ma i singoli link possono sparire molto più facilmente della biblioteca (magari facendo gli opportuni scongiuri :D). Quello che l'autore di una pagina web scrive o non scrive in un file robot non è che in tribunale di per se conta più di tanto, se io scrivo che i diritti d'uso di un testo sono i miei, sono i miei (ma anche se non lo scrivo). La consapevolezza/attenzione su questi aspetti sta aumentando anche in ambito wiki, vedi le discussioni su archive.is che su en.wiki per un uso indiscriminato erano arrivati a mettere nientemeno che nella blacklist. Quindi resta sicuramente preferibile l'uso di riferimenti cartacei o fonti con licenza compatibile con "archiviazioni" del genere. --Supernino 📬 17:44, 18 feb 2017 (CET)[rispondi]
[@ Supernino] Archive.org non ha avuto nessuna fortuna: come già detto basta fare una modifica e le pagine del proprio sito smetteranno di essere archiviate; ora dimmi chi è che preferisce una costosa battaglia in tribunale a una modifica del file robots.txt, più corretto di così si muore. A me sembra invece che finalmente stia aumentando la consapevolezza del fatto che questi strumenti sono utili. Fino a poco tempo fa archive.org era quasi sconosciuto e si lasciava che le pagine diventassero un cimitero di link morti, oggi finalmente qualcuno inizia a usarli. Al momento l'uso di archive.is non è né sconsigliato né limitato e questo dimostra che il problema dei link morti è considerato molto più urgente del problema del copyright (o meglio: del copyright degli altri, perché qui stiamo parlando di siti che con noi non hanno minimamente a che fare). Tornando a noi: siccome qualcuna delle pagine potrebbe scomparire, per richiesta del sito originale, rinunciamo del tutto? Se a quest'ora avessimo messo in cassaforte anche solo il 50% dell'archivio AGI io non lo riterrei affatto un fallimento. Se poi vogliamo aspettare che un giornale pubblichi il suo archivio in Creative Commons, come dici nell'ultima frase, allora buona attesa. :) Inoltre mi chiedo quanti sono i wikipediani che per scrivere una voce sono andati a cercare fonti in un'emeroteca, o quanti lettori ci sono andati per verificare una fonte. Spero che questa domanda retorica renda chiara l'importanza di ciò di cui stiamo discutendo. --Una giornata uggiosa '94 · E poi, di che parliamo? 18:22, 18 feb 2017 (CET)[rispondi]
Ma la bontà delle intenzioni non la metto mica in dubbio. :) Ma sono tutte considerazioni che non spostano i paletti della legalità, specie su archiviazioni "massive" a cui difficilmente si possono trovare giustificazioni in ambito legale anche in ordinamenti meno restrittivi del nostro. Per questo il mio invito a non farci troppo affidamento, per quel che vale ovviamente :) --Supernino 📬 18:35, 18 feb 2017 (CET)[rispondi]
A me risulta che questi siti agiscano nella piena legalità (finché seguono i robots.txt), figuriamoci se può essere perseguibile premere un pulsante "Save Page Now" che indirettamente fa scattare l'archiviazione della pagina da parte del sito... Tra l'altro fanno la stessa cosa tutti i motori di ricerca compreso Google, anche questi sarebbero tutti siti a rischio chiusura? Rischiamo di rimanere solo noi! :)) --Una giornata uggiosa '94 · E poi, di che parliamo? 19:04, 18 feb 2017 (CET)[rispondi]
(fuori-crono, proseguo nel cassetto) Ma nel file robots.txt c'è scritto esplicitamente "archiviatemi pure2 e tale dichiarazione ha valore legale? Non è che se semplicemente non vieto di farlo, allora è concesso. Sarebbe un po' come dire "Certo che posso rubare in quella casa, non c'è scritto "Vietato l'accesso ai ladri"!". Tanto più che il diritto di copyright esiste per così dire in automatico (salvo casi particolari), al pari di quello di conservare le proprie proprietà senza essere derubato. --5.170.21.196 (msg) 00:32, 21 feb 2017 (CET)[rispondi]
Quello che dici è suggestivo ma non c'entra nulla a livello legale. Archive.org è un'organizzazione no-profit ed è ufficialmente riconosciuta come biblioteca negli USA; questo gli permette di poter ricorrere al fair use. Se anche non ci fosse questo aspetto, ti faccio notare che per essere condannato ci deve essere qualcuno che ti denunci; e non capisco chi è che sceglierebbe denunciare il sito, imbarcandosi in una lunga battaglia giudiziaria, quando molto semplicemente potrebbe modificare il file robots.txt o mandargli una richiesta di rimozione per email. Non a caso a me risulta che in oltre vent'anni non ci siano stati casi del genere. Ma ancora di più clamoroso è un altro aspetto: tutti I motori di ricerca fanno questa cosa. La memorizzazione di una copia di tutte le pagine internet è un concetto insito in quello di crawler, che sono le componenti che fanno funzionare i motori di ricerca. Pensi davvero che tutti i motori di ricerca siano illegali? Se così fosse perché nessun giudice al mondo li ha fatti chiudere visto che sono usatissimi e sotto gli occhi di tutti? Intanto, mentre noi discutiamo dei massimi sistemi della giurisprudenza, le fonti e il lavoro fatto in passato spariscono silenziosamente; e mentre noi guardiamo queste "novità" con sospetto, su fr.wiki hanno fatto in modo che vicino a tutti i link appara automaticamente un secondo link ad un sito simile ad archive.org. Una giornata uggiosa '94 · E poi, di che parliamo? 11:33, 21 feb 2017 (CET)[rispondi]

Consiglio generale: ogni volta che c'è una fonte linkata spesso, come era archivio.agi.it, si faccia un apposito template (come t:Treccani per intenderci). Tra i tanti vantaggi dei template c'è la possibilità, se un domani la struttura degli url cambia, di aggiornarla senza difficili azioni di bot --Bultro (m) 19:32, 18 feb 2017 (CET)[rispondi]

Mi sono permesso di "cassettare" la discussione con Supernino (che riguardava più l'operato dei siti di archiviazione che la mia proposta), per concentrare l'attenzione sul messaggio iniziale. C'è la volontà di fare qualcosa o non importa a nessuno? --Una giornata uggiosa '94 · E poi, di che parliamo? 16:09, 20 feb 2017 (CET)[rispondi]

Quella però non mi sembrava una questione così tanto secondaria, sulla legalità di tali archivi. Se fossero illegali (o anche solo con dubbi di legalità), ha senso discutere di archiviare su tali archivi? --5.170.21.196 (msg) 00:28, 21 feb 2017 (CET)[rispondi]
Inoltre una considerazione che esula dal problema d'archiviazione, ma a cui ho pensato vedendo che qui di parla di siti di giornali usati come fonti: sono un po' perplesso dall'ampio uso di queste fonti giornalistiche. Noi dovremmo usare come fonti studi su un argomento, non un articolo di giornale con una notizia. --5.170.21.196 (msg) 00:34, 21 feb 2017 (CET)[rispondi]
Una volta per tutte: non sono illegali! Rispondo con maggiore dettaglio nel cassetto. Sui giornali come fonti: forse non te ne rendi conto ma le fonti giornalistiche sono lo stato dell'arte per un numero ampissimo di argomenti sui quali non esiste bibliografia o non esistono libri pubblicati negli ultimi vent'anni. Posso ammettere che esistano libri sull'autostrada del sole (forse), ma pensi che qualcuno abbia scritto libri sulla strada statale 4 Via Salaria? Abbiamo quasi un migliaio di voci solo di strade italiane, tutte condannate allo stato di stub e con zero informazioni storiche per via della mancanza di archivi giornalistici da consultare. La voce linkata si presentava così prima che facessi ricorso alle tanto vituperate fonti giornalistiche; spero che nessuno la preferisse in quello stato. Me lo trovi te un libro che dica che una certa variante è stata aperta al traffico nel '93? Me lo trovi te un libro che ricostruisca la storia quarantennale della superstrada Rieti-Terni? O della ferrovia Rieti-Roma? Il punto è che non ci sono, e le fonti giornalistiche sono quanto di meglio si dispone finché qualcuno non scriverà un libro (cosa che in molti casi non accadrà mai). Vale lo stesso per tantissimi altri campi: penso alle voci su sindaci e politici locali degli ultimi cinquant'anni, opere pubbliche di altro tipo come fabbriche ed edifici, ecc. Possiamo tornare in tema ora? :) Una giornata uggiosa '94 · E poi, di che parliamo? 10:58, 21 feb 2017 (CET)[rispondi]
Perdona,[@ Una giornata uggiosa '94], i tuoi suggerimenti sono interessanti (ed anche importanti); tuttavia sono tiepido sull'affermazione dell'essenzialità delle fonti giornalistiche per wikipedia. Spesso queste sono invece il "vulnus" principale in quanto a volte "politicizzate", a volte faziose, altre imprecise o addirittura fuorvianti tecnicamente, spesso frutto di "si dice" anziché di indagini accurate. (te lo dico da ex-giornalista....);-) . Ma hai ragione sul fatto che spesso non si trovi altro per "fontare" i testi.--Anthos (msg) 11:48, 21 feb 2017 (CET)[rispondi]
[@ Anthos] Eviterei di andare ulteriormente off topic: questa è una discussione sui link che diventano inaccessibili. Mi limito a ribadire che, piaccia o non piaccia, abbiamo fonti giornalistiche sulla quasi totalità delle nostre voci e che per decine di migliaia di esse non vi è alternativa (nel senso che i libri proprio non ci sono). Le cose che dici sono vere ma l'abilità di un wikipediano sta anche nel giudicare l'attendibilità delle fonti e nel separare i fatti dalle opinioni dell'autore (cosa che oltretutto va fatta anche per i libri: anche questi possono essere politicizzati, faziosi e tecnicamente approssimativi - anche se è vero che i giornali sono molto più a rischio). --Una giornata uggiosa '94 · E poi, di che parliamo? 13:31, 21 feb 2017 (CET)[rispondi]

[ Rientro] Una piccola premessa: copiare il contenuto di tali siti in Italia e in moltissimi altri paesi è illegale. L'informativa legale che regola l'archive stesso chiarisce - qualora mai fosse necessario - che il sistema potrebbe violare leggi locali, cosa che in effetti fa, e ne rimanda la responsabilità all'utente (affermazione che non ha sostanzialmente alcuna base giuridica, in Italia). Rischia anche negli Stati Uniti, ma è per ora piuttosto tollerato anche per le politiche di rimozione abbastanza accondiscendenti. Il paragone con Google non regge (senza contare che ci sono state cause anche contro google, non infrequenti e non sempre vinte), perché hanno funzioni e sistemi di archiviazione differenti (e non entrambi storicizzati). L'Archive.is è invece a dir poco temerario, visto che non tiene nemmeno conto del robots (a volte è utilissimo bisogna dirlo; anche se è stato duramente spammato crosswiki). Rispondendo alle tue domande:

  • Non si potrebbe salvare su archive.org una copia di tutte le pagine dei principali archivi giornalistici, prima che un altro di loro vada offline e si perda tutto? Basterebbe fare un bot che scorre tutte le pagine dell'archivio storico, e per ciascuna di esse va su archive.org e clicca sul pulsante "Save Page Now".

Si potrebbe, sì, e mi pare pure una buona idea, ma nel modo che proponi andrebbe gestito totalmente extra-wiki (non è una cosa estremamente complessa da fare, ma bisogna individuare la struttura dei vari archivi, creare uno script apposito per ciascun archivio, farlo girare parecchio evitando di inviare troppe richieste simultanee sia al sito da cui archivia sia all'archive per non essere bloccato, ecc.). Quindi ci vuole qualcuno che abbia voglia, competenze e un po' di risorse server da mettere a disposizione. Altrimenti, cercado di "passare" maggiormente per Wikipedia, sarebbe da organizzare: scegliendo una decina di testate principali e chiedendo ai botolatori di salvare in una pagina tutte le citazioni già presenti all'interno di voci di Wikipedia. A quel punto o si agisce a mano su tutti i link, anche lentamente o con un eventuale "festival", oppure l'azione esula di nuovo tecnicamente da Wikipedia, e ci vuole qualcuno che sviluppi un bot che agisca extra-wiki... --Lucas 13:54, 23 feb 2017 (CET)[rispondi]

[@ Lucas] grazie per le precisazioni. Credevo che il sito agisse nella piena legalità della legge USA, comunque (come hai detto anche te) nella pratica è come se lo fosse perché cancella le pagine ogni volta che viene richiesto. Io credo che dovremmo avere più coraggio in questi casi, senza farci intimorire da contenziosi potenziali e oltretutto ai danni di archive.org e non nostri; se avessero ragionato come noi, Larry Page e Sergey Brin non avrebbero fondato Google - il tutto solo per paura delle cause di cui hai parlato, che di certo hanno avuto ripercussioni impercettibili sull'azienda. Comunque il problema rimane importante; io non ho le competenze ma spero che prima o poi qualcuno capace di fare una cosa del genere si trovi (avevo aperto la discussione anche con questa speranza), qui su it.wiki o anche a livello globale (il problema non è solo nostro). Comunque nel frattempo ho chiesto alla AGI dove fosse finito il loro archivio, e tramite facebook mi hanno risposto "attualmente è in fase di ristrutturazione"; speriamo sia vero. --Una giornata uggiosa '94 · E poi, di che parliamo? 15:44, 24 feb 2017 (CET)[rispondi]
UGG94, Gli obiettivi di Brin e Page erano completamente diversi (e google era ben diverso quando è nato, lo ricordo benissimo perché lo usavo: niente cache, solo un brevissimo riferimento al testo contenuto, niente google books, niente google news, niente google street view, ecc. ecc. ecc.), pertanto è ovvio che non si siano preoccupati di qualcosa che non li coinvolgeva. Puoi invece star ben certo che almeno negli ultimi dieci anni si sono preoccupati eccome (con ogni probabilità è la principale preoccupazione legale e le ripercussioni sono tutto tranne che impercettibili), ma visto che sono diventati una delle maggiori aziende al mondo hanno i miliardi necessari per difendersi ([1] [2] [3] [4]), anche se in più d'una circostanza sono scesi ad accordi economici. Quindi la situazione non è così semplice. Oltre a ciò ci sono altre beghe legali (come quelle del diritto all'oblio), che in Europa sono tenuti a rispettare vista la sentenza europea, ed è un'attività che costa parecchi denari.
L'Archive ha dalla sua il fatto che si tratta di un'associazione senza scopo di lucro, quindi è più difendibile di chi invece lucra sulle attività che svolge. Anche se il "fair use" è comunque stiracchiato nel momento in cui si copia l'intero contenuto di un sito. In ogni caso in Italia e in moltissimi altri paesi il fair use non esiste, quindi un'attività simile non è legale (per il momento tollerata più per ignoranza o per costi legali, che per altro).
Comunque sono d'accordo con te sul fatto che i rischi dell'archive a noi non devono preoccuparci. Infatti la tua idea mi pare senza dubbio buona e da mettere in pratica, ma ci vuole qualcuno che abbia tempo, capacità e risorse server da dedicare. Dove lo troviamo? :-) Ho fatto cose smiili (ma più piccole) vari anni fa. Ma ora mi manca il tempo per aggiornarmi e sviluppare un bot che vada a navigare sugli archivi delle testate, tenendo conto di ogni variabile, e poi vada sull'archive a verificare se c'è già e attivi il caricamento. Anche perché sicuramente ci sono sistemi per la prevenzione contro azioni automatizzate... Esistono già, comunque, dei programmi che scaricano interamente i siti web, da lanciare in locale, potresti usare uno di quelli e salvarti una copia di tutto l'archivio sul tuo pc, come minimo sarebbe un inizio... --Lucas 16:37, 24 feb 2017 (CET)[rispondi]

Dopo il Corriere, speriamo che ilsole24ore (che è partito anni prima e in modo piú accorto) non senta un'urgenza di fare cassa nel breve periodo... --Nemo 11:28, 30 ott 2017 (CET)[rispondi]