Wikipedia:Bar/Discussioni/Frequency of section titles in Italian Wikipedia
Frequency of section titles in Italian Wikipedia |
6,3 KB · Atom | 28 agosto 2017, 15:01
- Apologies for writing in English. Aiutaci a tradurre nella tua lingua
I have just wrapped up a research project which investigates the 100 most frequent article section headings in Wikipedia article pages. Below are the top 10 Italian section headings, along with the number of Italian articles each heading appears in at least once, and the total percentage of all Italian articles it appears in. For more information (including a comparison with frequently used section titles in other languages and a link to the full dataset consisting of all section headings from all articles) and documentation, see the meta page: https://meta.wikimedia.org/wiki/Research:Investigate_frequency_of_section_titles_in_5_large_Wikipedias
number_of_articles | section_title | article_percentage | |
---|---|---|---|
1 | 686509 | Collegamenti esterni | 52.42 |
2 | 585769 | Note | 44.73 |
3 | 411609 | Altri progetti | 31.43 |
4 | 246274 | Voci correlate | 18.8 |
5 | 220758 | Bibliografia | 16.86 |
6 | 139173 | Biografia | 10.63 |
7 | 116651 | Storia | 8.91 |
8 | 77859 | Trama | 5.95 |
9 | 67758 | Carriera | 5.17 |
10 | 60746 | Palmarès | 4.64 |
Zareenf (msg) 21:04, 8 dic 2016 (CET) (data analyst intern at the Wikimedia Foundation)
- traduzione di valepert
- Ho appena terminato un progetto di ricerca che studia le 100 più frequenti intestazioni delle sezioni nelle voci di Wikipedia.
SottoSopra ci sono le 10 sezioni più frequenti su Wikipedia in italiano, con il numero di voci in cui appaiono almeno una volta e la percentuale totale in cui appaiono in tutte le voci in italiano. Per maggiori informazioni (incluso un confronto con i titoli di sezione frequentemente usati in altre lingue e un collegamento all'intero dataset che comprende tutte le intestazioni di tutte le voci) e la documentazione, si veda la pagina su meta: Research:Investigate_frequency_of_section_titles_in_5_large_Wikipedias
- E' l'inizio della
omogeneizzazioneglobalizzazione dell'enciclopedia?--Bramfab Discorriamo 22:18, 8 dic 2016 (CET)- dai dati completi noto che al 31esimo posto compare "Curiosità" e il 100esimo posto è un "Sezione 2" che, sebbene possa inizialmente far pensare a errori o prove, in realtà è usatissimo nelle voce di tennis (come altri in classifica: "Parte bassa", "Parte alta", "Doppio", ...). sarebbe stato interessante anche avere una statistica più dettagliata per livello di sezione. --valepert 22:40, 8 dic 2016 (CET)
- Bastano cinque minuti per fare una tale lista, se ci si accontenta di lasciare il wikitesto com'è (a meno degli spazi): ecco i primi trentamila. Nemo 11:22, 9 dic 2016 (CET)
- [↓↑ fuori crono] [@ Nemo_bis] dalla query mi sembra che l'analisi è fatta sul ns0, ma non capisco come nei risultati compaiano vari "Votazione iniziata il ...". --valepert 18:16, 9 dic 2016 (CET)
- Quale query? Il semplice conteggio sul dump è stato fatto, come indicato, sul pages-articles.xml, che come sai contiene ad esempio anche il namespace template. Nemo 17:40, 10 dic 2016 (CET)
- [↓↑ fuori crono] query era inteso come "interrogazione", non si alludeva a Quarry o strumenti analoghi. ricordavo che il file con articles nel nome contenesse solamente le pagine appunto etichettate in quel modo. --valepert 19:13, 10 dic 2016 (CET)
- Quale query? Il semplice conteggio sul dump è stato fatto, come indicato, sul pages-articles.xml, che come sai contiene ad esempio anche il namespace template. Nemo 17:40, 10 dic 2016 (CET)
- [↓↑ fuori crono] [@ Nemo_bis] dalla query mi sembra che l'analisi è fatta sul ns0, ma non capisco come nei risultati compaiano vari "Votazione iniziata il ...". --valepert 18:16, 9 dic 2016 (CET)
- Trovo che sia una ricerca importante. Andrebbero rimosse le sezioni finali predefinite (Note, Bibliografia ecc.): il risultato può essere uno spunto per meditare su alcune sezioni "strategiche", come Storia, Descrizione, Definizione. Si è visto anche l'apparire di una Generalità. L'indirizzo mi sembra (o può essere) quello dell'individuazione di buone pratiche più che l'omogenizzazione (?). pequod Ƿƿ 14:38, 9 dic 2016 (CET)
- Mah, ho qualche dubbio sulla veridicità del contatore. Nel file di Nemo, la sezione "Intrastrutture e trasporti" porta 1318 occorrenze; ne ho trovate solo 5 effettive da correggere Intrastrutture --> Infrastrutture. --Eumolpo (πῶς λέγεις; = che vuoi dire?) 19:03, 9 dic 2016 (CET)
- Non so che cosa tu intenda per "effettive", ma Speciale:Cerca/insource:"Intrastrutture e trasporti" trova appunto 1313 risultati nel wikitesto. A quanto pare, sezioni commentate inserite nei comuni tedeschi. Nemo 17:40, 10 dic 2016 (CET)
- Mah, ho qualche dubbio sulla veridicità del contatore. Nel file di Nemo, la sezione "Intrastrutture e trasporti" porta 1318 occorrenze; ne ho trovate solo 5 effettive da correggere Intrastrutture --> Infrastrutture. --Eumolpo (πῶς λέγεις; = che vuoi dire?) 19:03, 9 dic 2016 (CET)
- Bastano cinque minuti per fare una tale lista, se ci si accontenta di lasciare il wikitesto com'è (a meno degli spazi): ecco i primi trentamila. Nemo 11:22, 9 dic 2016 (CET)
- dai dati completi noto che al 31esimo posto compare "Curiosità" e il 100esimo posto è un "Sezione 2" che, sebbene possa inizialmente far pensare a errori o prove, in realtà è usatissimo nelle voce di tennis (come altri in classifica: "Parte bassa", "Parte alta", "Doppio", ...). sarebbe stato interessante anche avere una statistica più dettagliata per livello di sezione. --valepert 22:40, 8 dic 2016 (CET)
@Eumolpo Non ti risultano perché l testo è nascosto . Demostene119 (msg) 13:37, 12 dic 2016 (CET)
- Interessante. Vuol dire che per il 55,27% le nostre voci non hanno la sezione "Note", che non mi pare sia superflua. Mica poche... --Amarvudol (msg) 14:57, 12 dic 2016 (CET)
- Ricerca interessante. Sarebbe utile, per chi come me utilizza il Contenuto Translator, poter importare e tradurre in automatico i titoli dei paragrafi. Ad esempio: secondo me è senza senso, ogni volta, cancellare "See also" e riscrivere ogni volta "Voci correlate" (idem per gli altri paragrafi standard: note, bibliografia, storia, ecc.); se venisse fuori automaticamente già tradotto sarebbe meglio. --Holapaco77 (msg) 21:31, 12 dic 2016 (CET)