Aiuto:Come individuare possibili violazioni di copyright

Wikipedia e il copyright

Introduzione · Copyright testi · Copyright immagini (FAQ / Percorso guidato) · Sospette violazioni (segnalazioni: voci / immagini / automatiche)

Come individuare possibili violazioni · Come riscrivere un testo · Come citare Wikipedia · Segnalazione di cloni
Modelli per: autorizzazioni / permessi / chiarimenti / rispetto CC BY-SA · Autorizzazioni: ottenute (crediti) / non ottenute · Rappresentante legale
Progetti: Coordinamento controllo copyviol (Cococo) · Bar tematico · Template da apporre: Categoria:Template copyright

Questa è una guida per individuare violazioni della politica di Wikipedia sul copyright consistenti in "copia e incolla" da altri siti web.

– Sportello informazioni

Indizi di contributi che potrebbero essere frutto di copia e incolla

Ci sono diversi indizi indicativi del fatto che un contributo possa essere stato immesso nell'enciclopedia tramite un'operazione di "copia e incolla". Nessuno di questi costituisce ovviamente una prova schiacciante, ma se più di uno di questi indizi occorre contemporaneamente è ragionevole dubitare della genuinità dell'intervento. Bisogna infine fare particolare attenzione agli inserimenti di utenti con precedenti, soprattutto se sono stati reiterati più di una volta.

Segnali di allarme (ma forse il contributo è innocente)^[1]

voci non wikificate (intestazioni non in linea con gli standard di Mediawiki, carenza di wikilink e così via), o, se lo sono, hanno eccessivi collegamenti, con ogni occorrenza di una parola o frase convertita in un wikilink (come se fosse stato usato il "trova e sostituisci" per inserire i collegamenti)
inserimenti massicci di testo in un breve lasso di tempo
mancanza di modifiche minori, come potrebbero essere le correzioni di errori di battitura
stile di scrittura e completezza del testo: se "troppo buono per essere vero", oppure eccessivamente enfatico potrebbe provenire da fonti specializzate oppure da blog e simili
ASCII art che non appare correttamente quando viene copiata

Segnali fortemente indicativi di un avvenuto "copia e incolla"

codice HTML non valido o non comunemente usato in Wikipedia, come i tag HEAD, BODY, TITLE e HTML. Ciò suggerisce un tentativo di copia e incolla dal sorgente di una pagina HTML, invece che dalla pagina visualizzata
frasi rivelatrici tipo "questo opuscolo" o "l'immagine a destra" (che invece non c'è)
parole o frasi isolate o fuori contesto, come top, vai all'inizio, pagina successiva, clicca qui, che erano in origine parte della struttura di navigazione del sito web di origine
riferimenti spuri tipo "vedi figura 1.4", oppure citazione bibliografiche come "Smith, J. (2001)"
caratteri non presenti sulla tastiera come le Microsoft smart quote (“”); in questo caso è necessario fare attenzione perché il testo potrebbe comunque essere stato redatto da chi l'ha inserito attraverso programmi di video scrittura come Microsoft Word, o, per alcuni caratteri come (ʿʾ) e («»), usando la lista di caratteri presente in modalità modifica sotto l'avvertenza che si possono inserire cliccando con il tasto sinistro del mouse.
caratteri di copyright (™, ®) e simili, segni tipici di testi commerciali
stile di scrittura simile a quello dei messaggi pubblicitari o delle agenzie stampa

Sicura violazione di copyright

Alcune pagine copiate contengono addirittura l'avviso di copyright del sito originale. Copiato intatto! In questo caso, potete supporre che siano quasi certamente violazioni di copyright, a meno che il contributore sia in effetti il detentore dei diritti. In uno scenario simile, l'onere della prova è a carico del contributore, il quale deve dimostrare di essere tale persona (o di avere titolo a cedere diritti non originariamente suoi). Vedi a proposito come cedere materiale a Wikipedia.

Verifica sui motori di ricerca

Quando uno o più di questi segnali vi mettono in allarme, copiate una frase del testo e cercatela in un motore di ricerca come:

Google (http://www.google.com)
Bing (http://www.bing.com)
Google Libri (http://books.google.it/), per i sospetti su testi cartacei

Scegliete una frase che ritenete difficilmente possa essere stata modificata: alcuni, infatti, prevedendo questo tipo di controllo, alterano alcuni punti di ciascuna frase, pensando di ostacolare il riconoscimento del plagio. Attenzione: piccole modifiche e/o cambio nell'ordine di scrittura dei paragrafi non fanno venir meno la violazione del copyright, perciò se le differenze fra i testi sono limitate a qualche singola parola, agli articoli, alla punteggiatura, la violazione sussiste ancora.

Quando i risultati sono tanti, provate a restringere la ricerca mettendo fra virgolette ("") il testo cercato: il motore di ricerca si limiterà a segnalare solo i casi in cui la stringa di ricerca si presenta così com'è stata immessa, nella stessa sequenza di parole. Se non si ottengono in questo modo dei risultati, potrebbe essere il caso di modificare la stringa di ricerca, ad esempio riducendone la lunghezza, o dividendola in più parti.

Nei principali motori è possibile aggiungere al testo cercato la stringa -wikipedia per escludere dalla ricerca Wikipedia stessa e i siti che la clonano.

Ricordarsi di cercare anche e soprattutto tra le pagine duplicate, che alcuni motori di ricerca omettono di default per snellire i risultati. Nel caso di Google, cliccare su ripetere la ricerca includendo i risultati omessi se compare al termine dei risultati.

Gli utilizzatori di alcuni browser web come Firefox possono trovare utili alcune estensioni che consentono di accelerare la ricerca su Google partendo dalla semplice selezione del testo;^[2] dalla versione 3.0, basta selezionare una frase e agire su di essa attraverso Ctrl+Tasto sinistro del mouse per avviare la ricerca di quella stringa. Una funzionalità analoga è presente nativamente anche in Internet Explorer 7. In browser come Google Chrome una funzione analoga è presente, in cui bisogna premere il tasto destro del mouse (od il tasto tab della tastiera) dopo aver selezionato il testo e selezionare «cerca "<testo selezionato>" su Google», dove <testo selezionato> è il testo selezionato e Google in genere può essere modificato dalle impostazioni.

Tenete presente che a volte i testi sono prelevati da documenti in formati non-HTML, ad esempio file dei tipi .pdf, .rtf, .doc, .xls (ed altri); per la maggior parte di essi Google consente la lettura diretta di questi documenti in HTML cliccando su "cached" (funzione che peraltro evidenzia con il colore le parole cercate), ma a volte occorrerà aprire il file nel formato originale (dopo il controllo antivirus :). Se il risultato è positivo, se cioè avete trovato da dove è stato copiato il testo in esame, copiate per la segnalazione l'indirizzo web del documento, non l'indirizzo della pagina cache di Google.

Tenete inoltre presente che se sul sito dove trovate il testo non vi sono indicazioni di diritti, si deve presumere che il testo sia coperto da diritti d'autore; la mancanza del simbolo ©, l'assenza di diciture di copyright, non sono infatti assolutamente indizio di rinuncia ai diritti da parte del legittimo titolare (il diritto di autore pende comunque anche in assenza di precisazione). L'unico caso in cui sia consentito acquisire quel testo in Wikipedia è quando espressamente leggete che il testo è rilasciato in pubblico dominio, oppure con licenza GFDL, oppure nelle categorie ammissibili di Creative Commons. Usate il buon senso per chiedervi ciascuna volta se chi rilascia quel testo con diritti di nostro interesse ne sia davvero il titolare (in genere lo è, ma non sempre; comunque, non allestite un'investigazione, ma cercate di capire l'attendibilità delle indicazioni offerte dal proprietario del sito o dal webmaster).

Per maggiore accuratezza, ripetete la ricerca anche nei newsgroups (Usenet).

Chi copia chi?

Quando si scopre che del testo su Wikipedia è identico ad un testo trovato su una pagina web, può sorgere il dubbio: chi dei due ha copiato? Prima di tutto consultate la pagina Wikipedia:Cloni, che elenca i siti che copiano sistematicamente Wikipedia, in tutto o in parte. Inoltre guardate la cronologia della voce di Wikipedia in questione: come già detto sopra, se la voce cresce per gradi, con più utenti che contribuiscono, quasi certamente a copiare è stato l'altro sito web, non Wikipedia (un classico indicatore è la presenza nel sito esterno di piccoli aggiustamenti apportati alla voce di Wikipedia solo successivamente alla sua prima stesura): in quel caso vi trovereste di fronte ad un cosiddetto copyviol inverso.

In Firefox è disponibile una finestra "Page info" (accessibile dal menù "Strumenti" o "Tools") che indica, tra le altre cose, la data dell'ultima modifica di una pagina web. Può essere utile, ma bisogna tenere presente che:

La data dell'ultima modifica può non coincidere con la data di creazione della pagina web.
I siti web a contenuto dinamico, come quelli basati su MediaWiki, la pagina viene "costruita" dal server al momento dell'accesso, quindi la data mostrata da "Page info" è sempre la data odierna, per cui va ignorata.

Nei casi dubbi, uno strumento utile è Wayback Machine, servizio fornito dal sito Internet Archive, accessibile presso http://web.archive.org. Un po' come un motore di ricerca, esplora periodicamente il web seguendo i link tra le pagine, ma a differenza dei normali motori di ricerca, salva nel suo archivio più versioni della stessa pagina web. Dato l'URL di una pagina web qualsiasi, presenta una sorta di "pseudocronologia" delle versioni salvate. Può essere risolutivo per sciogliere il dubbio "Chi copia chi", ma bisogna tenere conto dei suoi limiti:

Al momento (2009) non possiede un motore di ricerca interno: non si può quindi cercare liberamente del testo, ma bisogna conoscere precisamente l'URL della pagina di cui si vuole ottenere la pseudocronologia. Non esclude dunque l'uso dei normali motori di ricerca.
Al 2019 per cercare un sito archiviato bisogna selezionare «Search archived web sites» sotto la riga per inserire il testo da cercare (compare quando si seleziona la riga per inserire il testo, ma sui dispositivi portatili non funziona correttamente).
Se una pagina web è stata rinominata o spostata da un sito all'altro (ad es. perché il proprietario ha cambiato provider), non può tenerne traccia.
Non archivia siti che gli hanno negato l'accesso tramite robots.txt.
Esplora il web ad intervalli più lunghi di quelli di un motore di ricerca, possono passare anche dei mesi prima che una pagina web vi appaia (se una pagina web non appare in Internet Archive, può essere perché è molto recente, ma potrebbe anche rientrare nel problema al punto precedente, una pagina che ha cambiato server, o che nega l'accesso tramite robots.txt), altre pagine, invece, hanno più versioni archiviate nella stessa giornata. Inoltre non riuscirà a "catturare" qualsiasi modifica effettuata alla pagina web, non certo con la granularità della cronologia di Wikipedia a cui siamo abituati. A titolo di esempio, confrontare la cronologia della voce lingua latina con la corrispondente pseudocronologia offerta da Archive. Si noti che la voce risulta creata il 26 febbraio 2004, e inserita in Internet Archive soltanto il 28 giugno 2004, d'altra parte a novembre 2015 ci sono state tre modifiche l'1 novembre, 2 modifiche il 6, 2 modifiche il 21, 1 modifica il 23, 2 modifiche il 26, ed 1 modifica il 29, ma web.archive.org ha rilevato 2 modifiche («snapshot») in 1 orario il 3 novembre (non archiviate), 20 modifiche a 7 orari diversi il 5 novembre (di cui solo una archiviata), 6 modifiche in 3 orari il 6 novembre (di cui solo una archiviata) ed 1 modifica il 26 novembre (archiviata).

Immagini

Quando si tratta di immagini, tenete presente che a volte chi carica su Wikipedia un'immagine "prelevata" da altri siti lo fa senza cambiarne il nome, rendendo facilmente individuabile la violazione impiegando la sezioni di ricerca immagini dei motori di ricerca, con l'inserimento del nome del file (ad esempio, se l'immagine si chiama "Immagine:Esempio.jpg", inserite "Esempio.jpg", senza virgolette, nella casella di ricerca. Se l'immagine è stata invece caricata con un nome diverso, strumenti del genere si rivelano ugualmente spesso utili, cercando per parole chiave secondo l'argomento dell'immagine.

Per rintracciare la fonte di un'immagine sospetta può tornare utile il motore di ricerca http://tineye.com. Spesso è in grado perfino di scoprire se una data immagine è stata ritagliata da un'altra più grande (ma non darà risultati se l'immagine è stata anche alterata digitalmente). Recentemente (2011), anche Google ha introdotto un sistema di ricerca per immagini basato sulla similitudine.

Se si scopre una violazione

Se si ha evidenza di identità fra il testo (o una immagine) presente in una voce di Wikipedia e l'equivalente trovato in rete, non occorre chiamare ogni volta la polizia per chiederle di indagare sull'accaduto. La questione di più diretta urgenza è l'interruzione della situazione di irregolarità sulle nostre pagine.

L'elemento più importante è l'indirizzo (URL) della pagina web o dell'immagine di cui abbiamo scoperto la "clonazione", oppure ogni dato utile a consentire il rintracciamento della fonte originaria. Abbiamo wikipediani specializzati nell'analisi e nella soluzione di situazioni di questo genere, perciò, se non vuoi procedere da solo o temi di commettere qualche imprecisione, rivolgiti tranquillamente a loro utilizzando le pagine di servizio dedicate (vedi i link in cima a questa pagina), cercando di fornire con precisione tutti gli elementi che hai ricavato dalla tua verifica.

Piccole cose da tenere a mente

Non mordete i nuovi arrivati: molti fra quelli che hanno pensato di contribuire a Wikipedia con un veloce "copia-incolla", non sono ben consapevoli di aver commesso un'assai grave irregolarità. Si tratta spesso di utenti appena arrivati, con poca pratica delle leggi in materia di copyright (che sono comunque difficili da trovare, da leggere e da interpretare per la persona comune) e poca pratica del nostro progetto. Fra questi, ci è capitato di scoprire, alcuni che erano anche appassionati e dottissimi studiosi (non di diritto, però...). Nulla di tutto questo allevia la gravità della violazione di copyright, ma non dobbiamo presumere di primo acchito che il gesto sia indice di volontario danneggiamento. Chiedete quindi subito chiarimenti all'autore dei contributi nella sua pagina di discussione, se si tratta di un utente registrato. Se l'autore è in buona fede (cosa che accade più spesso di quanto si pensi), spiegargli come contribuire sarà senz'altro più utile che perseguirlo.

A volte incorrerete in falsi allarmi: se ad esempio il contributore è proprio l'autore di quel testo o di quell'immagine, potreste trovare quel testo o quell'immagine anche altrove, magari con una licenza di tipo diverso. Nulla vieta infatti che l'autore (caso tipico) gestisca un suo sito personale con riserva di diritti (e col simbolino ©) e decida contemporaneamente di cedere a Wikipedia i suoi lavori con le licenze che ci occorrono, la GFDL e la CC BY-SA; in questo caso deve darci un permesso via e-mail, ma la presenza del suo testo altrove non è un problema. Un altro caso non raro è quello in cui si trova materiale apparentemente rilasciato con licenze incompatibili con Wikipedia, ma in realtà nato e creato con licenze originarie libere, ad esempio in pubblico dominio: si tratta in molti casi di abusi, oppure di imprecise attribuzioni di diritti (ad esempio i diritti pendono sulla grafica e sull'impaginazione del sito, ma non sul testo). Verificate sempre con attenzione. Se vi rendete conto di avere a che fare con un falso allarme, lasciate al più presto una nota ben evidente nella pagina di discussione della voce.

Note

^ Un utente può inserire una voce "in un colpo solo in forma completa" non perché l'ha copiata, ma perché ha lavorato molto in sandbox, e lo stile può essere "troppo buono per essere vero"... perché l'utente in questione è davvero bravo. Anche quello che sembra un nuovo utente potrebbe essere già esperto di come si compilano voci se proviene ad esempio da altri progetti Wikimedia.
^ Tutte le estensioni. Eccone alcune esplicitamente dedicate alla ricerca del testo selezionato, non solo su Google: Define, RCSearch, SlimSearch, Research Word.

Pagine correlate

[1] Un utente può inserire una voce "in un colpo solo in forma completa" non perché l'ha copiata, ma perché ha lavorato molto in sandbox, e lo stile può essere "troppo buono per essere vero"... perché l'utente in questione è davvero bravo. Anche quello che sembra un nuovo utente potrebbe essere già esperto di come si compilano voci se proviene ad esempio da altri progetti Wikimedia.

[2] Tutte le estensioni. Eccone alcune esplicitamente dedicate alla ricerca del testo selezionato, non solo su Google: Define, RCSearch, SlimSearch, Research Word.

[1]

[2]