Discussioni Wikipedia:Elenchi generati offline/Tag sostituibili

Sto sviluppando un bot per la gestione di questa categoria. Volevo sapere delle cose sulla sostituzione per analizzare bene il problema e sviluppare in modo completo un bot ke gestisca tutto.

Le sostituzioni da fare sarebbero


<br> ==> \n\n

<br\> ==> \n\n

<p> ==> \n\n

</p> ==> \n\n

<b> ==> '''

</b> ==> '''

<i> ==> ''

</i> ==> ''

<u> ==> ??

</u> == ??

c'è qualche altro tag da sistemare già che ci siamo? --Domenico Biancardi - dimmi tutto 10:11, Set 5, 2005 (CEST)

Osservazioni:
<u> e </u> restano come sono perché non c'è il markup wiki per sostituirli, stesso discorso per <s> e </s>. Bold e italic vanno bene come li hai messi. Per il br la situazione è più complessa: in html va a capo, mentre il doppio \n su wikipedia inizia un paragrafo lasciando una linea vuota, quindi non sono equivalenti. Sicuramente puoi fare questa sostituzione:
<br>\n\n ==> \n\n
perché il br diventa inutile (e ce ne sono in giro).
Già che ci sei puoi aggiungere entity html come &agrave; &egrave; &igrave; ecc. con le rispettive lettere accentate à, è, ì eccetera
Se usi un dump vecchio e scopri che alcuni articoli sono già stati corretti non ti stupire perché anche l'Alfiobot sta correggendo questi tag, ma va piuttosto piano.
Alfio (msg) 10:24, Set 5, 2005 (CEST)
perfetto grazie alfio, gentilissimo come sempre ;) per il <p> allora va bene effettuare la sostituzione con il \n\n? ora chiedo l'autorizzazione per il bot e lo faccio partire. --Domenico Biancardi - dimmi tutto 10:36, Set 5, 2005 (CEST)
Oltre a <br> e <br/>, andrebbe tenuto conto anche di <br />, spesso usato perché pare sia migliore la compatibilità con alcuni browser pre-xhtml. Tag come <b> e <i> andrebbero considerati a coppie (cioè <b>*</b> ==> *), in quanto potrebbero esistere aperti e non chiusi, notificando, per un'eventuale correzione manuale, quelli "orfani". In più, per evitare che un </p><p> o cose scorrette inseriscano troppe linee vuote, non sarebbe male controllare che non ci siano più di due ritorni a capo di fila. Ci sarebbero poi da convertire le tabelle, ma è complicato... - Laurentius 11:36, Set 5, 2005 (CEST)

x le tabelle aspettiamo ma per queste modifiche che mi dici posso farle in un istante e controllare anche se ci sono tag non chiusi ottima idea :)

--Domenico Biancardi - dimmi tutto 11:40, Set 5, 2005 (CEST)

ho un dubbio. se ho un tag aperto dove metto quello di chiusura? alla fine della pagina? o dove? --Domenico Biancardi - dimmi tutto 12:02, Set 5, 2005 (CEST)
Se proprio li devi mettere in automatico direi alla fine della riga, ma in questi casi è meglio farlo manualmente. Un bot può fare in automatico solo poche operazioni, per la maggior parte occorre perlmeno controllare a vista cosa sta facendo. Alfio (msg) 12:46, Set 5, 2005 (CEST)

Come dice Alfio il <br> va a capo ma non inizia un nuovo paragrafo, quindi secondo me quella sostituzione non va fatta. Per gli altri tag segnalo che il bot "replace.py" ha già un'opzione per sostituire i tag con il wikimarkup. Quel bot è già molto testato e usato e il rischio di pasticciare le pagine è limitato. --lukius 13:05, Set 5, 2005 (CEST)

ho dato del valore aggiunto al bot in phyton. il bot in questione ha una lista di articoli presa direttamente nn online, dagli elechi, inoltre permette di definire numerose reg edit per le modifiche sugli articoli a livello di tag. ora ho corretto un bug dovuto ad una funzione per il CASE INSENSITIVE, ora vedrò di apportare migliorie ed appena il bot è approvato lo lascio andare anche un paio di ore al giorno, potrà coprire un numero di articoli consistente. --Domenico Biancardi - dimmi tutto 14:30, Set 5, 2005 (CEST)

Beh, i bot in python accettano input da file esterni in locale, da pagine online, direttamente da dump dei database (sia mysql che xml). Le regole di edit possono essere semplici(ssime) o molto complesse (si possono usare anche le RegExp), volendo si possono cambiare centinai di cose sbagliate in un articolo in un solo passaggio del bot (a tal proposito avevo proposto di costruire tutti assieme una lista delle cose da cambiare, in questo modo ad ogni dump un bot a caso farebbe un singolo passaggio e sistemerebbe tutto)  :)
Non sto ovviamente sconsigliando nessuno dal farsi il proprio bot autonomono, per carità. Segnalavo solo che ottimi bot pluritestati esistono già per queste e altre funzioni, casomai volessi risparmiarti un po' di tempo e debug. :)
P.s. I <br> vengono convertiti in <br /> in fase di rendering dal software (quando prepara il codice HTML da mandare al browser). Ciao e buon lavoro. --lukius 15:51, Set 5, 2005 (CEST)

Ovviamente non intervengo sul bot (non ho alcuna competenza...): segnalo solo che l'elenco è da aggiornare perché, prima Iron Bishop e poi io, ci siamo messi a correggere tutti i tag (ma un bot che scopra se qualcosa abbiamo saltato è bene accetto!). Su invito di Iron quell'elenco è rimasto, aspettando, credo, la verifica e l'aggiornamento successivo... - Alec 16:53, Set 5, 2005 (CEST)

Ma il tag <u>...</u>, non avendo un corrispettivo in wiki, non si potrebbe eliminare dalle ricerche? Si snellirebbe così l'elenco degli articoli da correggere... - Alec 17:12, nov 2, 2005 (CET)

Dal dump del 23/06/2005. --lucha ☮ & ♥ 11:06, Set 7, 2005 (CEST)

Nota: l'elenco è stato controllato a mano da Iron Bishop e Alec (si spera con pochi errori :) ) ed è ora da riaggiornare. - Alec 22:20, Set 11, 2005 (CEST)

riaggiornato al 12/10/05 :D --lucha ☮ & ♥ 23:18, ott 21, 2005 (CEST)
Ritorna alla pagina di progetto "Elenchi generati offline/Tag sostituibili".