Outlier: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Migliorata la "definizione", sulla base di en:wp
m →‎top: smistamento lavoro sporco e fix vari
Riga 1:
'''Outlier''' è un termine utilizzato in [[statistica]] per definire, in un insieme di osservazioni, un valore anomalo e aberrante, ossia un valore chiaramente distante dalle altre osservazioni disponibili.<ref>Gli statistici italiani preferiscono tradizionalmente parlare di ''dati anomali'' o ''aberranti''. Il significato è il medesimo.</ref>
 
Non esiste una definizione matematica di outlier.<ref name="ZimekFilzmoser2018">{{citeCita journalpubblicazione|last1cognome1=Zimek|first1nome1=Arthur|last2cognome2=Filzmoser|first2nome2=Peter|titletitolo=There and back again: Outlier detection between statistical reasoning and data mining algorithms|journalrivista=Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery|volume=8|issuenumero=6|yearanno=2018|pagespp=e1280|issn=1942-4787|doi=10.1002/widm.1280|url=https://findresearcher.sdu.dk:8443/ws/files/153197807/There_and_Back_Again.pdf}}</ref>
 
Uno dei possibili modi di valutare se un dato sia un outlier è di confrontarlo con l'[[scarto interquartile|intervallo interquartile]] <math>[Q_1,Q_3]</math> di tutti i dati osservati, calcolando la sua distanza dall'intervallo e rapportandola alla misura dell'intervallo stesso, con un parametro <math>k</math>
Riga 7:
Dove <math>Q_1</math> e <math>Q_3</math> sono rispettivamente il primo e il terzo [[quartile]], <math>I=Q_3-Q_1</math> è lo scarto interquartile e <math>k</math> è un parametro fissato.
 
[[ImmagineFile:Boxplot_vs_PDF.svg|right|thumb|L'intervallo per k=1 in una [[gaussiana]], rispetto alla [[deviazione standard]]]]
Normalmente si pone <math>k=1.</math><ref>Libro statistica - Paul Newbold</ref>
 
[[John Tukey]] propone di considerare <math>k=1,5</math><ref>{{cite bookCita libro|lastcognome=Tukey |firstnome=John W |titletitolo=Exploratory Data Analysis |yearanno=1977 |publishereditore=Addison-Wesley |isbn=978-0-201-07616-5 |oclc=3058187 |url=https://archive.org/details/exploratorydataa00tuke_0 }}</ref>, ovvero un outlier disterebbe dalla media di <math>Q_1</math> e <math>Q_3</math> più di due volte la distanza tra <math>Q_1</math> e <math>Q_3</math>.
 
Gli outlier sono valori numericamente distanti dal resto dei dati raccolti (ad esempio, in un [[campionamento statistico|campionamento]]). Le statistiche che derivano da campioni contenenti outlier possono essere fuorvianti. Per esempio, se misurassimo la temperatura di dieci oggetti presenti in una stanza, la maggior parte dei quali risultasse avere una temperatura compresa fra 20 e 25 gradi Celsius, allora il forno acceso, avente una temperatura di 250 gradi, sarebbe un dato aberrante. La [[Mediana (statistica)|mediana]] dei valori sarebbe circa 23, mentre la temperatura media salirebbe a circa 45 gradi: un indice chiaramente non rappresentativo della maggioranza dei valori di temperatura riscontrati nella stanza. In questo caso, la mediana rifletterebbe meglio della [[media aritmetica]] le misure della temperatura degli oggetti. Gli outlier possono essere indicativi del fatto che, in un dato [[campione (statistica)|campione]], alcuni dati appartengono a una [[popolazione statistica|popolazione]] differente rispetto a quella del resto del campione.