Wikipedia:Bot/Sostituzioni/Spazio dopo la punteggiatura

Richiesta

Inserire uno spazio dopo la virgola (,), il punto e virgola (;) ed il punto (.)

Operatore
Stato operazione
Richiesta
Firma
~ Davey 14:52, 5 giu 2007 (CEST)[rispondi]
Sposto da Wikipedia:Bot/Richieste. --Nemo 15:46, 8 apr 2008 (CEST)[rispondi]
Per la virgola e il punto bisogna stare attenti ad escludere i numeri. Anche per le parole potrebbero esserci problemi con alcuni nomi di composti chimici
Esempi di composti chimici trovati su Wiki: 1,2-digliceridi, 1,2-etanditiolo, Acido 2,4-diclorofenossiacetico, Acido 2,2'-dinitro-5,5'-ditiodibenzoico, Acido 3,5-dinitrobenzoico. Per ora ho trovato solo composti in cui la virgola separa due numeri, non so se sia possibile che dopo la virgola ci sia una lettera. Servirebbe un chimico. --Poweruser (msg) 00:21, 4 mag 2008 (CEST)[rispondi]

Sposto da Wikipedia:Bot/Sostituzioni--Tf (ping) 16:47, 12 giu 2008 (CEST)[rispondi]

Proposta di comando:

python replace.py -namespace:0 -xml:itwiki-20080626-pages-meta-current.xml -regex "( [A-Za-z][a-z]+) ?([,.;])([A-Za-z]+\b[^\]])" "\1\2 \3" -exceptinside:"(.*\.jpg)|(.*\.png)|(.*\.jpeg)|(.*\.pdf)|(.*\.html)|(.*\.htm)|(.*\.svg)|(.*\.gif)|(.*\.ogg)|(.*\.txt)|(.*\.JPG)|(.*\.PNG)|(.*\.JPEG)|(.*\.PDF)|(.*\.HTML)|(.*\.HTM)|(.*\.SVG)|(.*\.GIF)|(.*\.OGG)|(.*\.it)|(.*\.com)|(.*\.eu)|(.*\.net)|(.*\.org)|(.*\.co)|( www\..*)" -exceptinsidetag:"timeline" -exceptinsidetag:"source" -exceptinsidetag:"nowiki" -recursive -summary:"Bot: aggiungo spazio dopo [.,;]"

Funziona abbastanza bene. Suggerimenti?--Tf (ping) 16:47, 12 giu 2008 (CEST)[rispondi]

funziona anche senza cambiare i composti chimici come detto sopra? --82.54.123.225 (msg) 19:54, 14 giu 2008 (CEST)[rispondi]

Sì, esclude i numeri prima e dopo , (o . o ;) --Tf (ping) 22:52, 14 giu 2008 (CEST)[rispondi]

Spazio dopo la punteggiatura

modifica

Per la virgola e il punto bisogna stare attenti ad escludere i numeri. Anche per le parole potrebbero esserci problemi con alcuni nomi di composti chimici Poweruser 15:36, 8 apr 2008

Sposto qui la discussione. Ricorda la firma. In Wikiquote ho controllato ogni singola modifica e funziona il codice seguente, con molte meno eccezioni; qui può darsi che se ne debbano aggiungere anche altre, o che se ne possano togliere parecchie (di quelle da comment a timeline), con un notevole risparmio di potenza di calcolo e quindi di tempo. In particolare, per come è scritta l'espressione regolare prende tutti i casi del genere «cap. X,2» ma non i numeri decimali, e in generale i casi in cui il segno d'interpunzione non è preceduto da una lettera; non so che cosa succeda coi composti chimici. --Nemo 22:59, 8 apr 2008 (CEST) P.s.: Dimenticavo, non ho capito bene come funzioni l'eccezione hyperlink, ma ad esempio questa sostituzione darebbe un errore qui con InguineMAH!gazine 10.[rispondi]

codice
    'spazi': {     
        'regex': True,
        'msg': {
               'it':u'Automa: Correzione automatica punteggiatura e spazi'
              },
        'replacements': [
            (u"([a-zA-Z]) ?([,:;!?]|\.\.\.|…)(\w)",                      ur"\1\2 \3"),
            (u"([a-zA-Z]) ?([\"»]) ?([,:;!?]|\.\.\.|…)(\w)",             ur"\1\2\3 \4"),
            (u"([a-z]) ?\.([A-Z][a-z]+\\b)",                              ur"\1. \2"),   
        ],   
        'exceptions': {
			'inside-tags': [
				'hyperlink',    
                                'link',
#                               'template',
#				'comment',       
#				'nowiki',
#                               'startspace',
#				'pre',           
#                               'source',
#				'math',
#				'table',    
#                               'gallery',
#                               'timeline',
			],
			'inside': [
#				r'\[[^\]]+\]', #Per esagerare colle precauzioni ed evitare errori come in Italo_Calvino#Collegamenti_esterni
#                               r'\[http[^ ]+([,:;!?]|\.\.\.|…)[^ ]+ .+\]', #Se si volesse salvare solo l'indirizzo e non il titolo
				r'(?s)<[^>]+>',
				r'(?s)\{[^\}]+\}', #Inutile, non produce errori in nessuna voce in Wikiquote; utile per togliere l'exceptinsid template
				r'&[^;]+;',
                       ],         
		}
    },
Aggiornato il codice. Nemo 23:47, 18 apr 2008 (CEST)[rispondi]
Occhio, che non ci sono solo i composti chimici da "salvare": ci sono gli URL, i nomi file, e molti altri casi d'uso quotidiano...! -- Massic80 Contattami 11:28, 8 feb 2010 (CET)[rispondi]