Selezione delle caratteristiche

Nel riconoscimento di pattern e nell'elaborazione delle immagini la selezione delle caratteristiche (in inglese feature selection) è una forma speciale di riduzione della dimensionalità di un determinato dataset.

La selezione delle caratteristiche è il processo di riduzione degli ingressi per l'elaborazione e l'analisi o l'individuazione delle caratteristiche maggiormente significative rispetto alle altre. Similmente esiste l'estrazione di caratteristiche (in inglese: feature extraction), dove si applica il processo di estrazione di informazioni utili dai dati esistenti.^[1]

La selezione delle caratteristiche risulta necessaria per creare un modello funzionale, ossia una riduzione della cardinalità, imponendo un limite superiore al numero di caratteristiche che devono essere considerate durante la creazione di questo. Solitamente i dati contengono informazioni ridondanti, ovvero più di quelle necessarie (oppure possono contenere anche informazioni errate).^[1]

La selezione delle caratteristiche rende più efficiente il processo di creazione di un modello, andando ad esempio a diminuire l'attività della CPU e la quantità di memoria necessarie per l'addestramento (training), anche se vi siano casi in cui le risorse non sono un problema.^[1]

La selezione delle caratteristiche viene utilizzata per tre ragioni:

semplificazione dei modelli per renderli più facili da interpretare da ricercatori / utenti;^[2]
tempi di addestramento (training) minori;
miglioramento generalizzato nella riduzione del problema di overfitting, ovvero una riduzione della varianza.^[3]

Principali metodologie modifica

La più semplice è verificare quale caratteristica se tolta produce un errore massimo. Per effettuare una selezione delle caratteristiche più avanzata si possono adottare varie tecniche, fra cui:

quelle con la più bassa varianza;
mediante l'analisi univariata (test di verifica d'ipotesi come il test F, informazione mutua);
mediante la convalida incrociata;
mediante tecniche Lasso;
mediante un algoritmo genetico per features selection.

Note modifica

^ ^a ^b ^c Selezione delle caratteristiche su MSDN
^ (EN) Gareth James, Daniela Witten, Trevor Hastie e Robert Tibshirani, An Introduction to Statistical Learning, Springer, 2013, p. 204. URL consultato il 13 febbraio 2017 (archiviato dall'url originale il 23 giugno 2019).
^ (EN) Mairead L. Bermingham, Ricardo Pong-Wong, Athina Spiliopoulou, Caroline Hayward, Igor Rudan, Harry Campbell, Alan F. Wright, James F. Wilson, Felix Agakov, Pau Navarro e Chris S. Haley, Application of high-dimensional feature selection: evaluation for genomic prediction in man, in Sci. Rep., vol. 5, 2015.

Voci correlate modifica

Portale Informatica

Portale Ingegneria

Portale Statistica

[MSDN-1] Selezione delle caratteristiche su MSDN

[islr-2] (EN) Gareth James, Daniela Witten, Trevor Hastie e Robert Tibshirani, An Introduction to Statistical Learning, Springer, 2013, p. 204. URL consultato il 13 febbraio 2017 (archiviato dall'url originale il 23 giugno 2019).

[Bermingham-prolog-3] (EN) Mairead L. Bermingham, Ricardo Pong-Wong, Athina Spiliopoulou, Caroline Hayward, Igor Rudan, Harry Campbell, Alan F. Wright, James F. Wilson, Felix Agakov, Pau Navarro e Chris S. Haley, Application of high-dimensional feature selection: evaluation for genomic prediction in man, in Sci. Rep., vol. 5, 2015.

[1]

[2]

[3]