Censura (statistica)

In statistica, ingegneria, economia e ricerca medica, la censura si verifica quando il valore di una misurazione o di un'osservazione è solo parzialmente noto.

Ad esempio, si supponga che venga condotto uno studio per misurare l'impatto di un farmaco sulla mortalità legata a una malattia. In tale studio, può darsi si sappia che l'età di un individuo alla morte è di almeno 75 anni. Tale situazione potrebbe verificarsi se l'individuo si fosse ritirato dallo studio all'età di 75 anni, o se l'individuo fosse attualmente vivo all'età di 75 anni.

La censura si verifica anche quando un valore cade al di fuori dell'intervallo di uno strumento di misura. Ad esempio, una bilancia per il bagno potrebbe misurare solo fino a 140 chilogrammi. Se un individuo di 160 chilogrammi si pesasse usando quella bilancia, l'osservatore saprebbe solo che il peso dell'individuo è di almeno 140 chilogrammi.

Tipi modifica

Censura a sinistra: un'osservazione è al di sotto di un certo valore, ma non si sa di quanto.
Censura a intervallo: un'osservazione è in un intervallo tra due valori, ma non si sa esattamente in che punto.
Censura a destra: un'osservazione è al di sopra di un certo valore, ma non si sa di quanto.
Censura di tipo I: nel contesto dell'analisi di sopravvivenza si verifica quando un esperimento con un numero definito di soggetti o elementi si interrompe a un istante predeterminato, dopo il quale i soggetti ancora vivi sono censurati a destra.
Censura di tipo II: nel medesimo contesto, si verifica nel caso in cui l'esperimento termina solo quando rimane un certo numero di soggetti vivi, che risultano così censurati a destra.
Censura casuale (o non informativa): quando ogni soggetto ha un tempo di censura che è stocasticamente indipendente dal momento della sua morte. Il tempo di sopravvivenza osservato è il minimo tra il momento della censura e quello della morte. I soggetti che abbandonano lo studio prima della loro morte sono quelli che restano censurati a destra.

La censura non dovrebbe essere confusa con l'idea collegata del troncamento. Con la censura, si sa che le osservazioni censurate superano una certa soglia o stanno in un certo intervallo, e questa informazione parziale si può utilizzare al momento di modellare statisticamente il fenomeno. Con il troncamento, le osservazioni non danno mai luogo a valori al di fuori di un certo intervallo; i valori della popolazione al di fuori di questo intervallo sono interamente scartati. Si noti che in statistica il troncamento è cosa diversa dall'arrotondamento.

Il problema dei dati censurati, dove il valore osservato di una certa variabile è parzialmente noto, è legato al problema dei dati perduti, dove il valore osservato di una certa variabile è ignoto.

La censura a intervallo si può verificare quando l'osservazione di un valore richiede controlli o ispezioni successive. La censura a sinistra e a destra sono casi speciali della censura a intervallo, in cui rispettivamente l'estremo sinistro (inizio) dell'intervallo è a zero e l'estremo destro (fine) è a infinito.

I dati censurati a sinistra si osservano, ad esempio, nei dati analitici ambientali in cui le concentrazioni in traccia delle sostanze chimiche possono in realtà essere presenti in un campione ambientale (ad es. acqua freatica, suolo) ma sono "non rivelabili", ad es. perché si trovano sotto il limite di rivelabilità dello strumento analitico o del metodo di laboratorio. I metodi di stima per usare i dati censurati a sinistra variano, e d'altra parte non tutti i metodi di stima possono applicabili, o i più affidabili, per tutti gli insiemi di dati.^[1]

Epidemiologia modifica

Uno dei primi tentativi di analizzare un problema statistico concernente dati censurati fu l'analisi del 1766 di Daniel Bernoulli sui dati di morbilità e mortalità del vaiolo per dimostrare l'efficacia della vaccinazione.^[2]

Operating life testing modifica

Esempio di cinque test replicati che danno come risultato quattro fallimenti e un tempo sospeso.

Le prove di affidabilità consistono spesso nel condurre un test su un elemento (in condizioni specificate) per determinare il tempo occorrente perché si verifichi un fallimento.

Talvolta un fallimento è pianificato e atteso, ma non si verifica: errore dell'operatore, malfunzionamento dell'attrezzatura, anomalia del test, ecc. Il risultato del test non è stato il tempo di fallimento desiderato, ma si può (e si dovrebbe) usarlo come tempo di conclusione. L'uso di dati censurati è non intenzionale ma necessario.
Talvolta gli ingegneri pianificano un programma di test in modo che, dopo in certo tempo limite o un certo numero di fallimenti, tutti gli altri test saranno conclusi. Queste situazioni, definite come tempi sospesi, sono trattati come dati censurati a destra. In questo caso, l'uso di dati censurati è intenzionale. Un'analisi dei dati dei replicati comprende sia i tempi di fallimento degli elementi che sono falliti, sia il tempo di donclusione per quelli che non lo sono.

Analisi modifica

Per gestire i dati censurati si possono usare tecniche speciali. I test con tempi di fallimento specifici sono codificati come fallimenti effettivi; i dati censurati sono codificati per il tipo di censura e per l'intervallo o limite noto. Programmi speciali di software (spesso orientati all'affidabilità) possono condurre a stime di massima verosimiglianza per statistiche di riepilogo, intervalli di confidenza, ecc.

Note modifica

^ Helsel, D. Much ado about next to Nothing: Incorporating Nondetects in Science, Ann. Occup. Hyg., Vol. 54, N. 3, pp. 257-262, 2010
^ Bernoulli D. (1766) "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole. Mem. Math. Phy. Acad. Roy. Sci. Paris, reprinted in Bradley (1971) 21 and Blower (2004)

Bibliografia modifica

Blower, S. (2004), D, Bernoulli's " (PDF)", Reviews of Medical Virolology, 14: 275–288
Bradley, L. (1971) Smallpox Inoculation: An Eighteenth Century Mathematical Controversy, Nottingham
Mann, N. R. et al., Methods for Statistical Analysis of Reliability and Life Data, New York, Wiley, 1975, ISBN 0-471-56737-X.
Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011), "Non-parametric Tests for Censored Data", Londra, ISTE/WILEY, ISBN 9781848212893.

Voci correlate modifica

Collegamenti esterni modifica

Baccini Michela, Mealli Fabrizia, Metodi diagnostici basati sui residui nei modelli per dati di durata (PDF), in Università degli Studi di Firenze. Pubblicazioni digitali del Dipartimento di Statistica "G. Parenti". Serie didattica, Firenze, Firenze University Press, 2001, 6-9, ISBN 88-8453-025-3 (archiviato dall'url originale il 10 maggio 2006).
(EN) "Engineering Statistics Handbook", NIST/SEMATEK, [1]

Portale Matematica

Portale Statistica

[1] Helsel, D. Much ado about next to Nothing: Incorporating Nondetects in Science, Ann. Occup. Hyg., Vol. 54, N. 3, pp. 257-262, 2010

[2] Bernoulli D. (1766) "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole. Mem. Math. Phy. Acad. Roy. Sci. Paris, reprinted in Bradley (1971) 21 and Blower (2004)

[1]

[2]