Wikipedia:Bar/Discussioni/Della necessità di archiviare le pagine web usate come fonte sull'enciclopedia

Della necessità di archiviare le pagine web usate come fonte sull'enciclopedia


Qualche giorno fa si è finalmente conclusa l'immane operazione di ripulitura di voci segnalate per possibili copyviol dal meritorio e purtroppo non più attivo RevertBot. Si tratta di questa roba qui, cioè centinaia e centinaia di voci per le quali il bot scandagliava i motori di ricerca per scovare corrispondenze con gli ultimi edit su nuove o vecchie voci di it.wiki, in un periodo che va dal dicembre 2007 al luglio 2011, cioè roba che fa parte del paleolitico wikipediano. Per capire meglio, bisogna aprire la cronologia delle pagine contenute nella categoria che ho linkato e ci si può rendere conto, voce per voce, cosa è stato fatto per eliminare i copyviol accertati. Io ho contribuito soprattutto negli ultimi anni, ma si vede come un mucchio di utenti, per lo più non più attivi, si sono dedicati per anni e anni attivamente al lavoro.

Il motivo per cui ho aperto questa discussione non è però per dare questo annuncio, ma per sottolineare un aspetto che ritengo importante. Il buon RevertBot, insieme ai pezzi di testo in odore di copyviol, indicava anche gli indirizzi dei siti da cui presumibilmente era "prelevato" il testo. Trattandosi di roba vecchia di più di dieci anni, sono riuscito a fare dei confronti solo ed esclusivamente utilizzando le copie delle pagine web archiviate su Wayback Machine, il mega archivio del WWW che permette, appunto, di archiviare copie "statiche" di qualunque pagina web ad una certa data. Posso dire con sicurezza che più del 90% dei link scovati al tempo da RevertBot oggi non esiste più se non su Wayback Machine. Le pagine web dopo un po' spariscono, i siti chiudono, o cambiano contenuti, formato, cancellano la roba vecchia. Insomma, una delle grandi promesse della rete, mantenere le informazioni e la conoscenza virtualmente per sempre, non viene mantenuta, anzi, i contenuti web sono effimeri, volatili e così la memoria si perde.

Il problema è che lo stesso andazzo lo viviamo continuamente per le fonti che inseriamo nelle voci. I "link interrotti" sono una costante di tutte le nostre voci, anche le migliori, quelle per le quali i contributori si sono fatti il mazzo per scovare fonti attendibili e verificabili. Da qui una proposta. Uno dei criteri per ottenere un riconoscimento di qualità per una voce (stellina d'oro) prevede che «[la voce] Supporta le informazioni offerte citando le fonti ed è dunque verificabile. Le fonti sono selezionate in base alla loro attendibilità e organizzate attraverso note al testo, una bibliografia e una raccolta di collegamenti esterni.» Molto semplicemente renderei obbligatorio per l'ottenimento della stellina che i link alle pagine web usate come fonte siano archiviati su Wayback Archive o su un qualunque servizio simile (ci sarebbe anche WebCite, ma è perennemente in cattive acque e mi sembra ben poco supportato) e che gli url archiviati siano obbligatoriamente inclusi nei nostri vari template "cita qualcosa" che hanno dei parametri ad hoc. In generale può essere un'operazione un po' ostica per un novizio, ma da utenti che propongono voci per la stelletta, e quindi mediamente esperti, credo sia doveroso pretenderlo. Pareri? --Amarvudol (msg) 16:23, 20 feb 2024 (CET)[rispondi]

+1: Capita spesso che ci siano dei collegamenti interrotti per le voci. Bisognerebbe forse potenziare anche l'IAbot. --Ethn23Scrivimi qui 19:24, 20 feb 2024 (CET)[rispondi]
[@ Amarvudol] Visto che si parla di un nuovo criterio per i riconoscimenti, sarebbe opportuno segnalare questa discussione al Progetto:Qualità e in tutte le sottopagine affini. --Cosma Seini 🔈sente... 19:31, 20 feb 2024 (CET)[rispondi]
Ma scusate ma l'archiviazione su webarchive da quel che so è automatica da diversi anni.... ----FriniateArengo 20:17, 20 feb 2024 (CET)[rispondi]
+1 In effetti si trovano molti link interrotti, ho dovuto ritrovarne diversi in archivio anche in voci che ho scritto io anni fa. [@ Friniate] si tratta comunque di includere il link all'archivio nel template di citazione per la qualità della voce, come credo stiano già facendo altre versioni --actor𝄡musicus 𝆓 espr. 21:02, 20 feb 2024 (CET)[rispondi]
@Actormusicus Mah, io sono contrario allora... A che serve avere peso inutile nelle voci, quando i link vengono archiviati automaticamente e una volta rotti le versioni archiviate vengono aggiunte in automatico? È solo (molto) peso in più, che visti i limiti che abbiamo deciso di tenerci per le dimensioni delle voci significa contenuto in meno. ----FriniateArengo 21:12, 20 feb 2024 (CET)[rispondi]
@Friniate se ci sono link non archiviati la pagina non è verificabile, che senso ha dargli punteggio a sulle fonti se esse sono in parte a senso (mi riferisco ai monitoraggi da effettuare per proporre la voce in vetrina). --Ethn23Scrivimi qui 21:23, 20 feb 2024 (CET)[rispondi]
Nel momento della vetrinazione ovviamente i link debbono essere tutti attivi. Poi fa parte delle normali operazioni di manutenzione da fare periodicamente, e comunque nella stragrande maggioranza dei casi ci pensa già il bot, l'operazione di doversi andare a cercare i link in archivio manualmente accade di solito solo con i link andati offline prima del suo avvento (e comunque l'importante è che siano potenzialmente a disposizione). ----FriniateArengo 21:28, 20 feb 2024 (CET)[rispondi]
O se no, mettiamo direttamente da subito il link alla versione archiviata nel campo |url piuttosto... Non facciamo un grande favore al lettore (che non può navigare nel sito ancora online) ma ci evitiamo decine di kb di peso inutile. ----FriniateArengo 21:31, 20 feb 2024 (CET)[rispondi]
[@ Friniate] in che senso una volta rotti vengono aggiunti in automatico? :-S non mi pare visto che continuo a recuperarli e ad aggiungerli manualmente io. Se me li ricordo ti recupero un paio di link recenti --actor𝄡musicus 𝆓 espr. 22:40, 20 feb 2024 (CET)[rispondi]
@Actormusicus Dallo IABot, certo... A volte non lo fa ma è abbastanza raro da quel che ho visto... E comunque già che devi spostare il wlink all'archivio al campo |url=, devi comunque intervenire a mano comunque, tanto vale ripescare dall'archivio... ----FriniateArengo 22:42, 20 feb 2024 (CET)[rispondi]
[@ Friniate] a me non sono chiare un paio di cose
  • Se io inserisco in una pagina un link che non ha copia già archiviata su Wayback Machine (raro, ma ce n'è), il bot crea l'immagine sul sito?
  • Se un link diventa broken, il bot quale versione linka? L'ultima? Per coerenza con la scrittura della voce, andrebbe linkata quella usata al momento dell'inserimento da parte del wikipediano (questo problema in teoria si presenta anche indipendentemente dal bot, e sarebbe bene avere sempre compilato anche il campo accesso).
In generale, credo di essere contrario all'obbligo, ma favorevole a includere la reperibilità e la resilienza (sia mai che ci cade qualche fondo del pnrr pure a noi) delle fonti come criterio importante (ma non automaticamente squalificante) per la vetrina. --Ripe (msg) 11:32, 21 feb 2024 (CET)[rispondi]
@Ripepette
  1. Esatto, se vai su internet archive c'è proprio una categoria "wikipediaoutlinks", che sono i link aggiunti dal bot. Da quel che ho visto li copre praticamente tutti.
  2. Non ne ho idea, andrebbe chiesto al manovratore.
Il mio principale motivo di contrarietà è che il peso aumenta considerevolmente, parliamo anche di decine di kb. E ok, non esistono più i limiti tecnici del passato, ma a 250 kb i problemi di visualizzazione delle note inizi ad averli. Senza contare che se si decide di inserire sempre le versioni archiviate direttamente in voce andrebbero IMHO quantomeno innalzate le soglie previste da Aiuto:Dimensione della voce. ----FriniateArengo 12:13, 21 feb 2024 (CET)[rispondi]
Però [@ Friniate] valorizzando solo urlarchivio (che basta e avanza) per Web Archive bisogna aggiungere solo una stringa tipo https://web.archive.org/web/20240221123825/ (43 caratteri). Anche una voce avesse 100 link esterni le dimensioni cioè aumenterebbero appena di 4300 byte. Ma non credo che mediamente le voci in vetrina abbiano 100 link. Le ultime tre che ci sono entrate ne hanno rispettivamente 52 (2236 byte), 14 (602) e 66 (2838). Mi sembrano cifre tutto sommato irrisorie, a conti fatti poi salirebbero a 99885 byte (Vitoldo), 125148 (Terza crociata) e 49806 (Vere St. Leger Goold). Insomma le dimensioni mi paiono una motivazione abbastanza debole. Sono singoli kB, non decine. Potrebbero moltiplicarsi come dici tu se fosse necessario valorizzare anche url con indirizzi molto lunghi, ma non mi pare che sia così --actor𝄡musicus 𝆓 espr. 12:38, 21 feb 2024 (CET)[rispondi]
@Actormusicus quindi toglieresti la versione live e lasceresti solo quella archiviata, come dicevo sopra... Ci può stare, però non facciamo un gran servizio al lettore, a cui togliamo l'accesso a un sito funzionante. ----FriniateArengo 12:45, 21 feb 2024 (CET)[rispondi]
Ma se non espliciti "|urlmorto=sì", il link porta al sito funzionante non all'arcivhio. Mi sto perdendo qualcosa? --Ripe (msg) 12:47, 21 feb 2024 (CET)[rispondi]
[@ Friniate] ok, ma anche qui nulla ci vieta di adattare i template di citazione per renderli funzionali a tutte le esigenze, potrebbe bastare un parametro booleano che porta via pochissimi byte --actor𝄡musicus 𝆓 espr. 12:48, 21 feb 2024 (CET)[rispondi]
[@ Ripepette] l'ho testato e portava direttamente all'archivio, però l'ho fatto sommariamente e su un solo template ({{cita web}}). In ogni caso è proprio questo che intendo --actor𝄡musicus 𝆓 espr. 12:49, 21 feb 2024 (CET)[rispondi]
@Ripepette Certo, ma allora va aggiunto l'intero link, non certo solo i 43 caratteri che dice actor... Quelli ce li hai solo mettendo la versione archiviata direttamente nel campo |url= . Se poi riusciamo ad avere un template di citazione intelligente che a partire dalla sola versione archiviata rimandi al sito originale se ancora online oppure alla versione archiviata se non lo è, allora ottimo. ----FriniateArengo 12:51, 21 feb 2024 (CET)[rispondi]
Che sia come dico io lo dimostrano modifiche come questa... 41 kb di link a versioni archiviate ancora online, con una voce schizzata a 207 kb. Casi di questo tipo credo sarebbero decisamente frequenti, ergo, a meno di modifiche ai template di citazione bisognerebbe aumentare di 30-50 kb la dimensione delle voci consigliata in linea guida. ----FriniateArengo 12:56, 21 feb 2024 (CET)[rispondi]
Se si può mettere un tooltip sotto url originale ci si può mettere anche un link e passa la paura --actor𝄡musicus 𝆓 espr. 14:05, 21 feb 2024 (CET)[rispondi]
Come si copia il tooltip? -- ZandDev (msg) 15:31, 13 mar 2024 (CET)[rispondi]

(rientro) Qualche considerazione. Il bot IAB è manovrato in modo un po' misterioso e, anche se mette i link archiviati giusti, rimane il fatto che la mia proposta riguarda le voci da vetrina e in questo caso il lavoro è da fare a mano, almeno la prima volta, poi magari passa il bot a sistemare (a volte correttamente, altre volte meno) i link morti. E se passa il bot la voce in vetrina deve essere comunque controllata. Io ne seguo qualcuna e quando passa IAB bisogna controllare e eventualmente correggere quello che ha fatto... (che poi è un po' di tempo che non lo vedo in giro, bho) Sulla dimensione delle voci c'è effettivamente da dire che note, url e url archiviati appesantiscono molto le voci. Questa voce pesa ad oggi 139.860 byte, ma se si conta solo il testo "puro" senza codice wiki (cioè quello che appare in lettura) è di 106.294 byte. La differenza, che è di circa il 30%, è dovuta in una certa misura al wikicodice, ma in gran parte è dovuta agli url e url archiviati. Con le reti e l'hardware attuale il limite fisico in byte per le voci è diventato un problema relativo e ci possiamo permettere di mettere tutte le fonti necessarie. Discorso diverso se si pensa alla leggibilità di una voce. In questo caso porre un limite (in byte o in caratteri) ha più senso per evitare di creare lenzuoloni illeggibili. Le nostre dovrebbero essere voci enciclopediche e non trattati, quindi giusto porre un limite al testo, ma non alle fonti (precisando che non serve mettere 7 note per dire l'ovvio). --Amarvudol (msg) 15:18, 21 feb 2024 (CET)[rispondi]

Ok, raccolgo l'osservazione di Ripe e butto giù una proposta di modifica del criterio sulla verificabilità per le voci proposte per un riconoscimento di qualità:
«Supporta le informazioni offerte citando le fonti ed è dunque verificabile. Le fonti sono selezionate in base alla loro attendibilità e organizzate attraverso note al testo, una bibliografia e una raccolta di collegamenti esterni. Se le note si riferiscono a fonti disponibili in rete, è consigliabile che ne sia fornita anche una versione memorizzata su uno degli archivi digitali del web esistenti.»
O qualcosa del genere. L'ultima frase si può mettere anche in nota o da qualche altra parte in Wikipedia:Riconoscimenti di qualità/Criteri. --Amarvudol (msg) 15:45, 21 feb 2024 (CET)[rispondi]
Tutto ciò riguarda qualsiasi voce e non solo le vetrine.
Per chi non lo sapesse (purtroppo non lo sa neanche il bot), nelle citazioni con Internet Archive si può risparmiare non poco spazio così:
  • non mettere dataarchivio, che tanto è automatico
  • mettere solo l'url archiviato direttamente in "url"; l'url originale viene estratto automaticamente --Bultro (m) 18:00, 21 feb 2024 (CET)[rispondi]
La prima la sapevo, la seconda no, ed è una gran figata! Grazie Bultro. Comunque hai ragione, la necessità di archiviare riguarda tutte le voci, ma se partiamo dalla vetrina/qualità magari diventa prassi comune. --Amarvudol (msg) 18:18, 21 feb 2024 (CET)[rispondi]
@Bultro Con i link morti lo faccio sempre, il problema come dicevo sopra è doverlo iniziare a fare per i link non morti. Significa impedire al lettore di navigare sul sito che citiamo, facendo venir meno uno dei forti vantaggi di wiki come "base di partenza" per ricerche più approfondite. A meno di non modificare i template di citazione s'intende.
Io riformulerei la proposta di Amarvudol così: Se le note si riferiscono a fonti disponibili in rete, è consigliabile salvarne una versione memorizzata su uno degli archivi digitali del web esistenti.» (ma direi che si potrebbe mettere proprio l'obbligo di farlo) ----FriniateArengo 20:22, 21 feb 2024 (CET)[rispondi]
Se metti urlmorto=no non impedisci niente, il link principale rimane quello diretto, ma intanto c'è l'archivio pronto per quando morirà (e nessuno ci avvisa quando un link muore) --Bultro (m) 20:28, 21 feb 2024 (CET)[rispondi]
Concordo che sia importante avere sempre una versione archiviata a disposizione. Tuttavia, per evitare di (spingere a) fare a mano questo lavoro totalmente automatizzabile, non possiamo cercare di capire col mantainer di IABot cosa va storto e perché non tutti i link vengono archiviati? --Ferdi2005(msg) 21:33, 21 feb 2024 (CET)[rispondi]
Considerando che ci saranno centinaia di migliaia di collegamenti esterni su wikipedia, concordo con Ferdi sul fatto che sarebbe meglio prima capire che succede con il bot, se ci sono dei problemi o altro. --Lo Scaligero 08:31, 22 feb 2024 (CET)[rispondi]
La voce Ludovico Ariosto è inadeguata a un riconoscimento di qualità in quanto lacunosa, come dimostrato in particolare da questo intervento durante il vaglio; eppure, tale voce consta già di 151 kB, dovuti anche a massicce addizioni di archiviazioni quale questa di 15 481 byte. Vorrei dunque veder affermare a chiare lettere che il limite dimensionale raccomandato di 125 kB è una bubbola. Inoltre, mi fa specie dover indicare url archiviati di pagine stabili di siti come Treccani.it: chiuderà prima la Treccani o la Wayback Machine per gigantismo? --Frognall (msg) 09:05, 22 feb 2024 (CET)[rispondi]
[@ Frognall, Bultro] Grazie! abbiamo tolto 13557 byte. Segnalo anche a [@ Tommasucci].
Ci sono altri problemi che guarderò meglio.
Comunque sì, la Treccani è stabile ma io non mi fiderei: tempo fa scomparve per un lungo periodo il DOP, e fu davvero seccante anche perché da una versione all'altra cambiò gli id dei lemmi (e io a sostituirmeli tutti, non si poteva fare altro che a mano...) --actor𝄡musicus 𝆓 espr. 16:27, 22 feb 2024 (CET)[rispondi]
Come non detto, sono 9657 byte, ho dovuto fare alcuni ripristini, ma vedo comunque che i parametri sono mal organizzati. Ci ripasserò, per adesso l'importante è avere i link --actor𝄡musicus 𝆓 espr. 16:46, 22 feb 2024 (CET)[rispondi]
Al massimo metterei la copia archiviata in |url e poi no in urlmorto, inoltre se si conoscono le fonti in diversi casi non è necessario perché i link sono gli stessi anche dopo vent'anni. Il datarchivio e l'urlarchivio li eliminerei, appesantiscono solo la voce inutilmente. --Kirk Dimmi! 13:18, 27 feb 2024 (CET)[rispondi]