Foresta casuale

Una foresta casuale (in inglese random forest) è un classificatore d'insieme ottenuto dall'aggregazione tramite bagging di alberi di decisione^[1]^[2] L'algoritmo per la creazione di una foresta casuale fu sviluppato originariamente da Leo Breiman e Adele Cutler.^[3]Le foreste casuali si pongono come soluzione che minimizza l'overfitting del training set rispetto agli alberi di decisione.^[4]

Il nome viene dalle foreste di decisione casuali che furono proposte per primo da Tin Kam Ho dei Bell Labs nel 1995.^[5]^[6]^[7]

Il metodo combina l'idea dell'insaccamento di Breiman della selezione casuale delle caratteristiche, introdotta indipendentemente da Ho e Amit Geman per costruire una collezione di alberi di decisione con la variazione controllata.

La selezione di un sottoinsieme di caratteristiche è un esempio del metodo del sottoinsieme casuale che, nella formulazione di Ho, è un modo di implementare la discriminazione stocastica proposta da Eugene Kleinberg.

Applicazioni

In combinazione col metodo chiamato Repeated Incremental and Pruning, trova impiego nella categorizzazione automatica di fatti e opinioni, così come nel fact-checking di singole proposizioni.^[8]

Note

^ (EN) Tin Kam Ho, The Random Subspace Method for Constructing Decision Forests (PDF), in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, n. 8, 1998, pp. 832–844, DOI:10.1109/34.709601. URL consultato l'8 febbraio 2017 (archiviato dall'url originale il 4 marzo 2016).
^ De Mauro, Andrea., Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning, Apogeo, 2019, ISBN 978-88-503-3478-0, OCLC 1065010076. URL consultato il 10 novembre 2019.
^ (EN) Tin Kam Ho, Random Decision Forests (PDF), Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995, 1995, pp. 278–282 (archiviato dall'url originale il 17 aprile 2016).
^ Hastie, Trevor. e Friedman, J. H. (Jerome H.), The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations, Springer, 2001, ISBN 0-387-95284-5, OCLC 46809224. URL consultato il 13 marzo 2020.
^ (EN) Eugene Kleinberg, An Overtraining-Resistant Stochastic Modeling Method for Pattern Recognition (PDF), in Annals of Statistics, vol. 24, n. 6, 1996, pp. 2319–2349, DOI:10.1214/aos/1032181157, MR 1425956 (archiviato dall'url originale il 19 luglio 2011).
^ (EN) Eugene Kleinberg, On the Algorithmic Implementation of Stochastic Discrimination (PDF), in IEEE Transactions on PAMI, vol. 22, n. 5, 2000. URL consultato l'8 febbraio 2017 (archiviato dall'url originale il 19 agosto 2011).
^ (EN) Eugine Kleinberg, Stochastic Discrimination and its Implementation (archiviato dall'url originale il 26 novembre 2012).
^ Ankan Mullick, Surjodoy Ghosh D, Shivam Maheswari, Srotaswini Sahoo e Suman Maity, Identifying Opinion and Fact Subcategories from the Social Web, in GROUP '18: Proceedings of the 2018 ACM Conference on Supporting Groupwork, DOI:10.1145/3148330.3154518, ISBN 978-1-4503-5562-9, OCLC 7279777466. URL consultato il 14 dicembre 2020. Ospitato su archive.is.

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file sulla foresta casuale

Portale Informatica

Portale Statistica

[ho1998-1] (EN) Tin Kam Ho, The Random Subspace Method for Constructing Decision Forests (PDF), in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, n. 8, 1998, pp. 832–844, DOI:10.1109/34.709601. URL consultato l'8 febbraio 2017 (archiviato dall'url originale il 4 marzo 2016).

[2] De Mauro, Andrea., Big data analytics : guida per iniziare a classificare e interpretare dati con il machine learning, Apogeo, 2019, ISBN 978-88-503-3478-0, OCLC 1065010076. URL consultato il 10 novembre 2019.

[ho1995-3] (EN) Tin Kam Ho, Random Decision Forests (PDF), Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995, 1995, pp. 278–282 (archiviato dall'url originale il 17 aprile 2016).

[4] Hastie, Trevor. e Friedman, J. H. (Jerome H.), The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations, Springer, 2001, ISBN 0-387-95284-5, OCLC 46809224. URL consultato il 13 marzo 2020.

[kleinberg1996-5] (EN) Eugene Kleinberg, An Overtraining-Resistant Stochastic Modeling Method for Pattern Recognition (PDF), in Annals of Statistics, vol. 24, n. 6, 1996, pp. 2319–2349, DOI:10.1214/aos/1032181157, MR 1425956 (archiviato dall'url originale il 19 luglio 2011).

[kleinberg2000-6] (EN) Eugene Kleinberg, On the Algorithmic Implementation of Stochastic Discrimination (PDF), in IEEE Transactions on PAMI, vol. 22, n. 5, 2000. URL consultato l'8 febbraio 2017 (archiviato dall'url originale il 19 agosto 2011).

[kleinbergurl-7] (EN) Eugine Kleinberg, Stochastic Discrimination and its Implementation (archiviato dall'url originale il 26 novembre 2012).

[8] Ankan Mullick, Surjodoy Ghosh D, Shivam Maheswari, Srotaswini Sahoo e Suman Maity, Identifying Opinion and Fact Subcategories from the Social Web, in GROUP '18: Proceedings of the 2018 ACM Conference on Supporting Groupwork, DOI:10.1145/3148330.3154518, ISBN 978-1-4503-5562-9, OCLC 7279777466. URL consultato il 14 dicembre 2020. Ospitato su archive.is.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]