AushulzBot

Fatto

Ricerca e sviluppo

Regex e script di altri

Link

Idee per altre correzioni modifica

  • Cercare sezioni che si intitolano "Conclusioni"
  • Eliminare "---" dalle voci   Fatto da controllare qui.
  • Eliminare i "div" dalle voci
  • Eliminare le sezioni "Note" vuote (basta controllare che nella voce sia presente "<ref>" o "<ref name")   Fatto da controllare qui.
  • Prima lettera di nomi di persona (Giuseppe, Francesco, ...) e stati (Italia, Francia, ...) in maiuscolo
  • Cercare i template {{Portale|Scienza}}, {{Portale|Tecnologia}}, {{Portale|Tecnica}} e {{Portale|Scienza e tecnologia}} e sostituirli con {{Portale|Scienza e tecnica}}
  • _{*} -> _* e ^{*} -> ^* all'interno di <math>...</math> quando "*" è un solo carattere
  • “ ” -> "
  • ‘ ’ ` -> ' (ci sarebbe da aggiungere il discorso delle lettere accentate) - vedere il comando su Wikipedia:Bot/Sostituzioni
  • kmh e Kmh -> km/h
  • Kelvin -> kelvin   Fatto da controllare qui.
  • vedi: Wikipedia:Elenchi generati offline/Check Wikipedia
  • sostituzione di "<center>" (deprecato) con ":".   Fatto da controllare qui.
  • sostituzione di <br> e <br/> con <br /> (cercare la discussione allo sportello informazioni)
  • togliere ritorni di carrello e <br /> consecutivi
  • in questo sito si trovano delle convezioni del SI: [[1]]
  • cc-> cm^3
  • mps -> m/s
  • dividere lunghe sequenze di cifre a 3 a 3, con uno spazio di tipo entity
  • "<i>...</i>" -> "''...''"   Fatto da controllare qui.
  • "<b>...</b>" -> "'''...'''"   Fatto da controllare qui.
  • eliminare frasi del tipo "da non dimenticare che", "da notare che", "da ricordare che", "naturalmente", "semplicemente", "è ovvio che", "se vogliamo", "ovviamente", ecc...
  • spostare i template di avviso (ad esempio "da aggiornare" in cima alla pagina (pensare a come fare se ci sono più template di avviso a riconoscere che sono vicini all'inizio della pagina)
  • conversione in kelvin dei dati in °C nel template:composto chimico (scrivendo le misure in °C tra parentesi)
  • togliere il template:it dalle voci in cui non è presente Template:Lingue

Da provare e migliorare modifica

replace.py -regex "che\`" "ché" "\`([Ss])" "'\\1" "a\`" "à" "e\`" "è" "i\`" "ì" "o\`" "ò" "u\`" "ù" "([LlDd])\`" "\\1'" "\`\`([^ ])''" '"\1"' "\`\`" '"' -xml:itwiki-20090105-pages-meta-current.xml -exclude:excludelog.txt -namespace:0

Da fare più in là modifica

replace.py -regex "che\`" "ché" "\`([Ss])" "'\\1" "a\`" "à" "e\`" "è" "i\`" "ì" "o\`" "ò" "u\`" "ù" "([LlDd])\`" "\\1'" "\`\`([^ ])''" '"\1"' "\`\`" '"' -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0


replace.py -start:! -regex "Sistema [Ss]olare" "sistema solare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0

a questo va affiancato ad inizio frase:

replace.py -start:! -regex "Sistema [Ss]olare" "Sistema solare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0

potrei usare prima il secondo e poi controllare con il primo.


replace.py -start:! -regex "\bqual\'è\b" "qual è" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0

replace.py -start:! -regex "\bQual\'è\b" "Qual è" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0


replace.py -start:! -regex "\bun\'altro\b" "un altro" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0

replace.py -start:! -regex "\bUn\'altro\b" "Un altro" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0


replace.py -start:! -regex "\baccellerare\b" "accelerare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0

replace.py -start:! -regex "\bAccellerare\b" "Accelerare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0


replace.py -start:! -regex "([Pp])erch(è|[e'])" "\1erché"

replace.py -regex -start:! "E'([^'-'[Ss]])" "È\1"

replace.py -regex -start:! "(È)([Ss])" "E'\2"

benvenuto.py

 
Wikimedia Foundation
Questa è la pagina personale di un bot autorizzato su Wikipedia
Se trovate questa pagina bot su un sito diverso da Wikipedia si tratta di un clone. In questo caso la pagina potrebbe essere poco aggiornata e il sottoscritto potrebbe non riconoscersi più nei suoi contenuti né desiderare o gradire alcuna affiliazione con il sito che state consultando.
La pagina originale si trova qui: http://it.wikipedia.org/wiki/AushulzBot/Regex