Discussioni Wikipedia:Dimensione in volumi

Ultimo commento: 5 anni fa, lasciato da 87.2.201.94 in merito all'argomento Ferma al 2010

vedi anche: Wikipedia:Bar/Discussioni/Dimensioni impossibili di wikipedia!!



come fai a sapere che wikipedia è codifica in ASCII ? --wiso 01:26, 8 gen 2008 (CET)Rispondi

Non è questione se wikipedia è in ascii. Lui a preso le dimensioni del database compresivo di tutto pure dei caratteri utilizzati per l'impaginazione. Il codisce ascii serve solo per associare i bit informatici al testo stampato. E' tutto da prendere abbastanza con le pinze serve solo per dare un idea visuale dello spazio che occuperebbe su carta il database di wikipedia. --Contezero 02:03, 8 gen 2008 (CET) P.S. Quando si fanno paragoni come questi carta stampata/bit si usa sempre come presupposto che un carattere sia uguale a 8 bit (codice ascii)--Contezero 02:21, 8 gen 2008 (CET)Rispondi

conteggi modifica

se vi può servire: Google dice che abbiamo circa 39.000 biografie categorizzate con Biobot [1] (questo tipo di ricerca si può fare per altre categorie cercando di ripulire i risultati con i segni meno); mentre secondo Categorie affollate il totale è 52309; altri totali sono in fondo ad Aiuto:Una voce a caso (ma sono da aggiornare; ad esempio i minerali dovrebbero essere il doppio); poi c'è anche Speciale:Mostlinkedtemplates ma bisogna depurare i risultati perché ad esempio il Template:Bio è incluso in Template:ListaBio e ciò genera circa 4000 inclusioni ricorsive (queste falsano i risultati quando si cercano i totali tramite i "puntano qui" dei template). Ovviamente per ogni 'gruppo di voci' bisogna andare a vedere il peso medio di una 'voce tipica' di quel gruppo prima di andare a calcolare i volumi che occupa quel gruppo sugli scaffali. --Priority 04:09, 8 gen 2008 (CET)Rispondi

dimenticavo il metodo a campione: si potrebbe cliccare 3.000 volte su "Una voce a caso" (20 utenti, 150 click a testa) e registrare il tipo di voci che saltano fuori in una tabella riepilogativa (dividendo le bio fra 'viventi' e 'morti' etc) --Priority 04:54, 8 gen 2008 (CET)Rispondi

ATTENZIONE: la lunghezza delle parole in italiano è maggiore di 5 caratteri (inglese). Ad una prima stima direi che siamo intorno ai 6,5 caratteri/parola. Inoltre, la lunghezza mi sembra leggermente maggiore nelle voci a carattere scientifico. --Priority 15:33, 8 gen 2008 (CET)Rispondi

Mi era venuta in mente anche a me sta cosa, Lui la lunghezza media delle parole l'ha ricavata tramite calcolo matematico. Io ho fatto lo stesso calcolo con i dati della wikipedia italiana. Cmq tenendo conto che alla fine la lunghezza media scelta è 7 direi che piu' o meno ci siamo--Contezero 15:37, 8 gen 2008 (CET)Rispondi

98 volumi modifica

Sul sito della Britannica [2] ci sono intere voci che si possono leggere gratis. Ho copiato venti pagine di vari argomenti in un editor, senza bibliografie, e dividendo il numero di caratteri per le parole la lunghezza media è di 6,2 caratteri, non lontana dal 6,6 di media delle voci in vetrina di wiki in italiano. La differenza percentuale tra 6,2+1 (un carattere per lo spazio) e 6,6+1 è nell'ordine del 5,26%. Nel loro store [3] affermano che in 32 volumi ci sono 44 milioni di parole: dividendo si ha 1.375.000 di parole per volume. L'ultimo tassello che ci serve è capire quanti caratteri mangia il wikicodice. Ho cercato una buona serie di voci a caso, importando il corpo principale della voce senza formattazione in un documento, e poi cliccando su 'modifica' ho copiato il wikicodice, comprese le categorie, i wikilink, etc., in un altro documento: il risultato è che il wikicodice si mangia circa il 19% dei caratteri nel nostro database (stima generosa). Ora il conto finale:

  • nel nostro database ci sono attualmente 1200 milioni di caratteri: togliendone il 19% si ottengono 972 milioni di caratteri, che divisi per 7,6 restituiscono circa 127,9 milioni di parole, le quali equivalgono, in termini di spazio su carta, a circa 134,6 milioni di parole in inglese enciclopedico, le quali possono essere contenute in circa 98 volumi della Britannica.

Il dato sul numero di caratteri nel database è da confermare, io ho fatto una semplice proporzione tra numero delle voci vecchie e nuove, e i Mb del database (319k : 964Mb = 394k : x), moltiplicando poi per 1048 e arrotondando di brutto (non so se all'incremento di voci corrisponde un incremento di Mb in maniera diretta; probabilmente no). --Priority 06:56, 9 gen 2008 (CET)Rispondi

Sottopagine modifica

Segnalo che nelle sottopagine ci sono le componenti della libreria. Sia chiaro che li ha creati Contezero, io non sarei in grado ;-) --Jaqen l'inquisitore 22:35, 14 gen 2008 (CET)Rispondi

Neanche Contezero è in grado. Li ha pedestremente ricopiati dalla wiki inglese :-)--Contezero 14:37, 15 gen 2008 (CET) P.S. alcune componenti sono inutili fino a quando non avremo uno scaffale completo io cmq le lascerei come buon auspicio--Contezero 14:39, 15 gen 2008 (CET)Rispondi

Sì, avevo notato che alcune erano orfane, ma come ho gia' scritto in riferimento a questa: questa per la verità non viene attualmente usata, ma prima o poi servirà! :-). --Jaqen l'inquisitore 17:52, 16 gen 2008 (CET)Rispondi

Ferma al 2010 modifica

Segnalo che questa pagina è ferma al 2010. --87.2.201.94 (msg) 12:23, 9 nov 2018 (CET)Rispondi

Ritorna alla pagina di progetto "Dimensione in volumi".