Wikipedia:Bar/Discussioni/Item Wikidata duplicati da AlessioBot

Item Wikidata duplicati da AlessioBot


Controllando gli item Wikidata linkati da una qualsiasi località, si può trovare un notevole numero di duplicati generati da AlessioBot a fine giugno importando dati da MiBACT. Tralasciando considerazioni sulla cura con la quale è stata fatta questa attività, credo che ci si debba porre il problema di una bonifica. Procedere in maniera manuale ed occasionale mi sembra un'impresa non in grado di garantire nessun risultato: c'è qualche idea su come automatizzare almeno parzialmente un eventuale progetto di bonifica? --Pietro (msg) 20:43, 29 ago 2018 (CEST)[rispondi]

Pingo anche il manovratore: [@ AlessioMela]. Mi sa che non c'è niente da fare. Al momento ci sono 20598 chiese italiane, se consideriamo solo quelle che hanno una divisione amministrativa scendiamo a 16347, unire automaticamente quelle a parità di divisione e di nome rischia di peggiorare la cosa. L'unica cosa che si può fare è quella di controllare a mano, magari usando query limitate al singolo comune. Comunque sia è un lavoro parcchio lungo --ValterVB (msg) 21:05, 29 ago 2018 (CEST)[rispondi]
Almeno un rollback degli item per i quali non è stato fatto il merge non si può fare? Se non siamo sicuri su come aggiungere informazione agli item esistenti, almeno non ne distruggiamo e spostiamo l'attività manuale su una lista di informazioni MiBACT offline ancora da importare. --Pietro (msg) 21:50, 29 ago 2018 (CEST)[rispondi]
Detto che mi pare di aver capito che stiamo parlando di questi contributi, Pietro, potresti circoscrivere un po' più in dettaglio il problema? Magari anche con uno o due esempi della duplicazione, grazie in anticipo. --Retaggio (msg) 10:11, 30 ago 2018 (CEST)[rispondi]
Durante l'import del dataset del Mibact l'attività più complicata è stata capire se un'entità aveva già un item su Wikidata oppure era completamente nuova. Per farlo ho usato una combinazione tra i risultati del motore di ricerca e le query SPARQL. Ad esempio a un certo punto al bot è capitato un'entità "Terme di Diocleziano" con comune = Roma. Il motore di ricerca restituiva 3 risultati: "chiesa di Santa Susanna alle Terme di Diocleziano" (Roma), "Terme di Diocleziano" (Siria), "Terme di Diocleziano" (Roma). Assegnando un "punto" per ogni caratteristica coerente l'ultima entità è stata quella vincente permettendo al bot di decidere di non creare un'entità nuova ma aggiornando quella già esistente così rintracciata. Invece, in tutti i casi in cui il motore di ricerca non dava risultati oppure nessuno dei risultati trovati aveva un "punteggio" prevalente, il bot ha creato un nuovo elemento. Per questo motivo il bot ha creato qualche duplicato quando non ha capito che stava inserendo una cosa che c'era già. Inoltre questa strategia, che portava intrensecamente a creare qualche duplicato, aveva come scopo quello di non unire per sbaglio poiché lo scorporo è molto più complicato dell'unione.
Detto questo che fa un po' il punto dell'import, vorrei rassicurarvi dicendo che i numeri citati da ValterVB sono i numeri totali (delle chiese) e non sono i duplicati. Infatti un edit su tre ha aggiornato un item già esistente e molti degli item creati ex novo effettivamente mancavano. I duplicati generati a volte sono difficili da unire, perché dalla scheda mibact non si capisce con esattezza a cosa si riferisca oppure perché a volte esistono luoghi distinti ma con nomi e attributi molto simili. Altre volte i duplicati possono sembrare più banali.
Non pensavo che la creazione di qualche duplicato allertasse così tanto, altrimenti avrei segnalato prima che su alcuni un intervento manuale era necessario. Tuttavia proprio perché ogni tanto se ne incontra qualcuno che è possibile unirli e raffinare l'import. Non ho invece capito l'ultima proposta di Pietro. I moltissimi item non mergati ci sono proprio perché spesso e volentieri sono item nuovi che Wikidata non aveva. Per cui non mi è chiaro cosa vorresti rollbackare.
Qui una query, con soggetto Ravenna (ma si può modificare a piacere) per controllare gli elementi presenti: https://query.wikidata.org/#SELECT%20%3FidWD%20%3FidWDLabel%0A%20%20%20%20%20%20%20%20%28MAX%28%3Findirizzo%29%20as%20%3Findirizzo%29%0A%20%20%20%20%20%20%20%20%28MAX%28%3Fcoord%29%20as%20%3Fcoord%29%0A%20%20%20%20%20%20%20%20%28MAX%28%3Fcommons%29%20as%20%3Fcommons%29%0A%20%20%20%20WHERE%20%7B%0A%20%20%20%20%20%20%20%20%3FidWD%20wdt%3AP131%20wd%3AQ13364%20.%0A%20%20%20%20%20%20%20%20OPTIONAL%20%7B%20%3FidWD%20wdt%3AP969%20%3Findirizzo%20.%20%7D%0A%20%20%20%20%20%20%20%20OPTIONAL%20%7B%20%3FidWD%20wdt%3AP625%20%3Fcoord%20.%20%7D%0A%20%20%20%20%20%20%20%20OPTIONAL%20%7B%20%3FidWD%20wdt%3AP373%20%3Fcommons%20.%20%7D%0A%0A%20%20%20%20%20%20%20%20%3FidWD%20wdt%3AP1435%20wd%3AQ26971668%20.%0A%20%20%20%20%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22it%2Cen%22.%20%7D%0A%20%20%20%20%7D%0A%20%20%20%20GROUP%20BY%20%3FidWD%20%3FidWDLabel
Ad esempio si nota che sono duplicati https://www.wikidata.org/wiki/Q55182420 e https://www.wikidata.org/wiki/Q55182422. Per chiarezza per chi legge non li unisco anche se andrebbe fatto. In questo caso il duplicato era lato Mibact che ha due ID per la stessa entità. --AlessioMela (msg) 10:53, 30 ago 2018 (CEST)[rispondi]
Mi sa che in effetti avevo sottinteso troppo: si i numeri indicati sono i totali degli item, non i duplicati. Alessio sai quanti item sono stati creati? Perché sarebbero solo quelli da controllare. --ValterVB (msg) 13:12, 30 ago 2018 (CEST)[rispondi]
Compreso tutto, non solo le chiese, le creazioni sono 20.085. Ma anche volendo fare il check più completo possibile non conviene controllarli tutti perché perderemmo tempo a guardare quelli che mancavano davvero. Il sottoinsieme utile più grande che mi viene in mente a cui può valer la pena dare uno sguardo è quello che si ottiene mettendo la label nella API di suggestion del motore di ricerca quando ritorna più di un valore.
Un'altra via è andare comune per comune (vedi query di cui sopra) perché potrebbe velocizzare parecchio mostrandoti già i candidati dell'unione (una ricerca senza contesto invece potrebbe portar via più tempo.
Ovviamente non so quanti siano i duplicati, però non sono sicuro che siano così tanti da mettere in piedi una ricerca così massiva. Forse con un po' di esempi potremmo trovare dei pattern ricorrenti che ce ne fanno trovare la maggior parte. --AlessioMela (msg) 14:53, 30 ago 2018 (CEST)[rispondi]

[@ Retaggio], per dare un'idea della dimensione del problema ho verificato gli item creati su L'Aquila da AlessioBot con quelli già esistenti su Wiki, con la seguente situazione:

AlessioBot Wiki
chiesa di San Marco Evangelista (d:Q54870729) chiesa di San Marco (d:Q22263721)
caserma di San Bernardino (d:Q55165692)
castello e forte militare (d:Q55165694) Forte spagnolo (d:Q1438933)
cattedrale di San Massimo (d:Q55165697) cattedrale dei Santi Massimo e Giorgio (d:Q2942686)
chiesa del Carmine (d:Q55165698) chiesa di Santa Maria del Carmine (d:Q3673708)
chiesa di Sant'Agnese (d:Q55165699)
chiesa di S. Agostino (d:Q55165700) chiesa di Sant'Agostino (d:Q22263725)
chiesa di Sant'Antonio da Padova (d:Q55165701)
chiesa di San Bernardino (d:Q55165704) basilica di San Bernardino (d:Q2886989)
chiesa di Santa Caterina Martire (d:Q55165706)
chiesa di S. Chiara Povera (d:Q55165709)
chiesa di San Domenico (d:Q55165710) chiesa di San Domenico (d:Q3669877)
chiesa di San Filippo (d:Q55165712)
chiesa di San Flaviano (d:Q55165715) chiesa di San Flaviano (d:Q23888858)
chiesa di San Giuliano (d:Q55165717) convento di San Giuliano (d:Q24034979)
chiesa di Santa Giusta (d:Q55165718) chiesa di Santa Giusta (d:Q3673073)
chiesa di San Marciano (d:Q55165719) chiesa dei Santi Marciano e Nicandro (d:Q3668266)
chiesa di San Marco (d:Q55165721) chiesa di San Marco (d:Q22263721)
chiesa di Santa Margherita (d:Q55165724) chiesa di Santa Margherita (d:Q3673164)
chiesa di Santa Maria di Forfona (d:Q55165728)
chiesa di Santa Maria del Guasto (d:Q55165730)
chiesa di Santa Maria di Roio (d:Q55165731)
chiesa di Santa Maria del Soccorso (d:Q55165732)
chiesa di Santa Maria del Suffragio (d:Q55165734) chiesa di Santa Maria del Suffragio (d:Q47248131)
chiesa di San Pietro di Sassa (d:Q55165736)
chiesa di San Silvestro (d:Q55165738) chiesa di San Silvestro (d:Q3672053)
chiesa di San Sisto (d:Q55165740)
chiesa di San Vito (d:Q55165742) chiesa di San Vito alla Rivera (d:Q3672190)
fontana della Riviera (d:Q55165744)
mausoleo dei Camponeschi (d:Q55165745)
monastero di San Basilio (d:Q55165747)
Museo Nazionale d'Abruzzo (d:Q55165750) Museo nazionale d'Abruzzo (d:Q3328396)
Palazzo Antonelli oggi Drgemelle olsenagonetti (d:Q55165752)
Palazzo Antonelli a via di Sassa (d:Q55165754)
Palazzo Benedetti - Mancinelli (d:Q55165755)
Palazzo Bonanni oggi Cipolloni Cannella (d:Q55165756)
Palazzo Branconio oggi Farinosi (d:Q55165757) Palazzo Branconio (d:Q47508989)
Palazzo Cappa (via Paganico) (d:Q55165759) Palazzo Cappa Camponeschi (d:Q29250553)
Palazzo Cappa oggi Censi (d:Q55165761)
Palazzo Carli (d:Q55165763) Palazzo Carli Benedetti (d:Q3889805)
Palazzo Carli a Via di Roma (d:Q55165764)
Palazzo Censi a Piazza Santa Giusta (d:Q55165766)
Palazzo Ciampella oggi Ciolina (d:Q55165768)
Palazzo Fibbioni (in Corso Vittorio Emanuele) (d:Q55165770) Palazzo Fibbioni (d:Q3890099)
Palazzo Franchi oggi Fiore (d:Q55165771)
Palazzo Franchi oggi Persichetti (d:Q55165774)
Palazzo Pica (via Fortebraccio) (d:Q55165776)
Palazzo Pica Alfieri (piazza Santa Margherita) (d:Q55165777) Palazzo Pica Alfieri (d:Q3890651)
Palazzo Rivera (piazza di Roio) (d:Q55165781)
Palazzo Rivera in San Sisto (d:Q55165783)
Palazzo Romanelli (d:Q55165785)
Palazzo Spaventa (d:Q55165786)
resti antichi (d:Q55165788)
oratorio di San Martino (d:Q55165795)
Museo sperimentale d’arte contemporanea "Mu.Sp.Ac." (d:Q55378117) Museo sperimentale d'arte contemporanea (d:Q3868463)
San Michele Arcangelo - Catacombe (d:Q55675006)
San Michele Arcangelo (d:Q55675009) chiesa di San Michele Arcangelo (d:Q3671289)
area archeologica della medievale Civitas S. Maximi (d:Q55675023)
sito archeologico Civitas Sancti Maximi (d:Q55675161)
chiesa di San Bernardino (d:Q55678707) basilica di San Bernardino (d:Q2886989)
Archivio di Stato Aquila (d:Q55678954) Archivio di Stato dell'Aquila (d:Q55832396)
MUNDA - Museo nazionale d'Abruzzo (d:Q55685988) Museo nazionale d'Abruzzo (d:Q3328396)
MUNDA - Museo nazionale d'Abruzzo (d:Q55685989) Museo nazionale d'Abruzzo (d:Q3328396)
MUNDA - Museo nazionale d'Abruzzo (d:Q55685992) Museo nazionale d'Abruzzo (d:Q3328396)
basilica di Santa Maria di Collemaggio (d:Q55686333) basilica di Santa Maria di Collemaggio (d:Q2034923)
area archeologica Amiternum (d:Q55686408) Amiternum (d:Q177061)

Su 66 item creati, 31 sono duplicati degli esistenti ed altri sono duplicati alla sorgente (es.: "area archeologica della medievale Civitas S. Maximi" e "sito archeologico Civitas Sancti Maximi"): credo che il danno sia sufficientemente grave per giustificare un rollback e rieseguire questo import con più cura. --Pietro (msg) 22:00, 30 ago 2018 (CEST)[rispondi]

Beh, visto che parliamo di "creazione" di schede duplicate, parlare di rollback significa cancellare, e per far questo bisogna necessariamente scrivere su Wikidata, non qui, dato che c'è bisogno di sysop di Data. Noi da qui possiamo solo effettuare opera di correzione, attraverso l'unione delle duplicate. Se vogliamo perseguire questa strada penso che potremmo creare una pagina ad hoc, per evitare sovrapposizioni, e partire; diversamente, ci si deve trasferire di là. Altri pareri? --Retaggio (msg) 11:58, 31 ago 2018 (CEST)[rispondi]
Vorrei far notare che - oltre a non essere statisticamente rilevamente una sola città, ma non importa perché di correzioni da fare ce ne sono - il duplicato segnalato riguardo "Archivio di Stato Aquila" non è un duplicato del mio bot: l'item duplicato è l'altro, che deriva da un import automatico delle pagine di Wikipedia fatto dopo. Questo a segnalare ancora una volta che, sebbene non sia un effetto voluto, la creazione di duplicati da parte di bot su Wikidata avviene ogni giorno durante gli import, ad esempio proprio da quelli delle varie edizioni linguistiche di Wikipedia.
[@ Retaggio] è come dici tu. Trovare e segnalare i duplicati da cancellare richiede più tempo che trovarli e unirli (aggiungendo le informazioni nell'unione) oltre a essere inutilmente distruttivo. --AlessioMela (msg) 12:06, 31 ago 2018 (CEST)[rispondi]
[@ Retaggio] attenzione alla differenza fra schede Mibac ed ICCD. Io sto facendo il merge per il momento solo delle prime quando le vedo. Per il resto sto aspettando creino questa proprietà https://www.wikidata.org/wiki/Wikidata:Property_proposal/DBUnico_ID --Sabas88 (msg) 14:17, 31 ago 2018 (CEST)[rispondi]

Dopo averne provato a parlarne in qui e qui finiamo a parlarne anche qui. Non posso che pensare al tempo perso disperdendo questo invece che affrontandolo e incanalandolo fin dall'inizio. Lo dico a monito per il futuro che non come critica, mi interessa risolvere il problema (che è ancora più gestibile di quello delle scuole italiane...). Segnalo anche dal progetto su wikidata e voglio garantire che al netto di azioni via bot siamo a disposizione in tanti a ripulire la situazione. Chiaramente sarebbe utile avere una lista con gli elementi importati non ancora modificati da utenze non-bot. Così come siamo disponibili anche a aiutare un import successivo in caso di rollback. Insomma siamo, intendo le persone che ho sentito in questi mesi, disponibili a tutto nell'interesse della completezza di wikidata. Chiaramente il periodo WLM non aiuta a portare suggerimenti perché siamo tutti di fretta a ripulire quella porzione di item nelle tabelle del concorso. Ma confido che si possa trovare qualche strategia. --Alexmar983 (msg) 13:02, 31 ago 2018 (CEST)[rispondi]

[@ Pietro] grazie per la lista, sto provvedendo a unire gli item duplicati un po' per volta. --Sannita - L'admin (a piede) libero 12:32, 2 set 2018 (CEST)[rispondi]
Grazie [@ Sannita], sto continuando anche io, in particolare sugli item coinvolti in WLM e sui merge già fatti che riportano duplicazioni o informazioni incorrette come:
- coordinate, dato che quelle importate sono generalmente meno precise di quelle esistenti (es.: d:Q21552026);
- instance of, eliminandone duplicazioni in particolare con real property (es.: d:Q21552368);
- numeri telefonici, con più numeri in alternativa fusi in un'unica stringa (es.: d:Q3867687).
Come già detto, trovo la qualità di questo import estremamente bassa e mi auguro venga messo in piedi rapidamente un progetto per eliminarne i danni. --Pietro (msg) 15:23, 2 set 2018 (CEST)[rispondi]

Colgo l'occasione per segnalare che aprendo lo strumento WDfist di Magnus Manske è facile trovare immagini per i monumenti e aggiungerle a P18 (immagine significativa) con un clic. Ci mette qualche minuto a caricarsi, ma poi è un lampo. --Nemo 17:00, 2 set 2018 (CEST)[rispondi]