Data mining: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Folto82 (discussione | contributi)
Folto82 (discussione | contributi)
mNessun oggetto della modifica
Riga 17:
Questo tipo di attività è cruciale in molti ambiti della [[ricerca scientifica]], ma anche in altri settori (per esempio in quello delle [[ricerca di mercato|ricerche di mercato]]). Nel mondo professionale è utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti ([[Customer relationship management|CRM]]), all'individuazione di comportamenti fraudolenti, fino all'ottimizzazione di [[sito web|siti web]].<ref>{{Cita web|titolo=Daniele Medri: Big Data & Business: An on-going revolution|url=http://www.statisticsviews.com/details/feature/5393251/Big-Data--Business-An-on-going-revolution.html|editore=[[Statistics Views]]|data=21 ottobre 2013}}</ref>
 
=== EsempiPremesse ===
Che cosa "non è" ''data mining''?
* cercare un numero di telefono nell'elenco;
* fare una ricerca in Internet su "vacanze alle Maldive".
 
I fattori principali che hanno contribuito allo sviluppo del data mining sono:
Che cosa "è" ''data mining''?
* fare una ricerca nel [[web]] su una parola chiave e classificare i documenti trovati secondo un criterio [[Semantica|semantico]] (per esempio "corriere": nome di giornale, professione, ecc.);
* scoprire chi sono i clienti che hanno maggiore propensione di acquisto su certi prodotti o campagne pubblicitarie.
 
* le grandi accumulazioni di dati in formato elettronico;
=== Text mining ===
* il [[storage|data storage]]] poco costoso;
È una forma particolare di data mining nella quale i dati consistono in testi in lingua naturale, in altre parole, documenti "destrutturati". Il text mining unisce la tecnologia della lingua con gli algoritmi del data mining.
* i nuovi metodi e tecniche di analisi ([[apprendimento automatico]]).
 
Le tecniche di data mining sono fondate su specifici [[algoritmo|algoritmi]]. I pattern identificati possono essere, a loro volta, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.
L'obiettivo è sempre lo stesso: l'estrazione di informazione implicita contenuta in un insieme di documenti.
 
Un concetto correlato al data mining è quello di [[apprendimento automatico]] (''Machine learning''); infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del sistema di data mining, di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli [[algoritmo euristico|algoritmi euristici]] e dell'[[intelligenza artificiale]]. Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di rivelare relazioni causali che poi si rivelano inesistenti.
Ha avuto un notevole sviluppo, grazie ai progressi delle tecniche di [[elaborazione del linguaggio naturale]] (NLP in inglese), della disponibilità di applicazioni complesse attraverso gli ''[[Application service provider]]'' (ASP) e dell'interesse verso le tecniche automatiche di gestione della lingua mostrato sia dagli accademici, sia dai produttori di software, sia dai gestori dei [[motore di ricerca|motori di ricerca]].
 
=== Tecniche ===
Tra le tecniche maggiormente utilizzate in questo ambito vi sono:
* [[Clustering]];
* [[Reti neurali]];
* [[Albero di decisione|Alberi di decisione]];
* [[Analisi delle associazioni]] (individuazione dei prodotti acquistati congiuntamente).
 
Un'altra tecnica molto diffusa per il data mining è l'apprendimento mediante classificazione. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto "con supervisione" (''supervised''), nel senso che lo schema di apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti ''training examples'', ovvero "esempi per l'addestramento". La conoscenza acquisita per apprendimento mediante classificazione può essere rappresentata con un albero di decisione.
 
L'estrazione dei dati vera e propria giunge quindi al termine di un processo che comporta numerose fasi: si individuano le fonti di dati; si crea un unico set di dati aggregati; si effettua una pre-elaborazione (data cleaning, analisi esplorative, selezione, ecc.); si estraggono i dati con l'algoritmo scelto; si interpretano e valutano i pattern; l'ultimo passaggio va dai pattern alla nuova conoscenza così acquisita.
 
Vi sono diverse proposte e tecniche aventi ognuna specifiche caratteristiche e vantaggi.
* [[Albero di decisione|Alberi di Decisione]]: classificazione, sommatorizzazione (es. mediante gli algoritmi C4.5, CART, [[Algoritmo ID3|ID3]], [[Entropia (teoria dell'informazione)|Entropia]], CHAID).
Line 42 ⟶ 48:
* Support Vector Machines (SVM): classificazione, pattern recognition (es. RSVM).
* Association/pattern discovery: regole di associazione e dipendenze, partner sequenziali (es. CN2).
 
=== Esempi ===
Che cosa "non è" ''data mining''?
* cercare un numero di telefono nell'elenco;
* fare una ricerca in Internet su "vacanze alle Maldive".
 
Che cosa "è" ''data mining''?
* fare una ricerca nel [[web]] su una parola chiave e classificare i documenti trovati secondo un criterio [[Semantica|semantico]] (per esempio "corriere": nome di giornale, professione, ecc.);
* scoprire chi sono i clienti che hanno maggiore propensione di acquisto su certi prodotti o campagne pubblicitarie.
 
=== Text mining ===
È una forma particolare di data mining nella quale i dati consistono in testi in lingua naturale, in altre parole, documenti "destrutturati". Il text mining unisce la tecnologia della lingua con gli algoritmi del data mining.
 
L'obiettivo è sempre lo stesso: l'estrazione di informazione implicita contenuta in un insieme di documenti.
 
Ha avuto un notevole sviluppo, grazie ai progressi delle tecniche di [[elaborazione del linguaggio naturale]] (NLP in inglese), della disponibilità di applicazioni complesse attraverso gli ''[[Application service provider]]'' (ASP) e dell'interesse verso le tecniche automatiche di gestione della lingua mostrato sia dagli accademici, sia dai produttori di software, sia dai gestori dei [[motore di ricerca|motori di ricerca]].
 
=== Software utilizzati ===
Line 60 ⟶ 82:
 
== Applicazioni ==
=== Ricerca scientifica ===
 
I fattori principali che hanno contribuito allo sviluppo del data mining sono:
 
* le grandi accumulazioni di dati in formato elettronico;
* il data storage poco costoso;
* i nuovi metodi e tecniche di analisi ([[apprendimento automatico]]).
 
Le tecniche di data mining sono fondate su specifici [[algoritmo|algoritmi]]. I pattern identificati possono essere, a loro volta, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni; in generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.
 
Un concetto correlato al data mining è quello di [[apprendimento automatico]] (''Machine learning''); infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del sistema di data mining, di una relazione causale precedentemente ignota, cosa che trova applicazione in ambiti come quello degli [[algoritmo euristico|algoritmi euristici]] e dell'[[intelligenza artificiale]]. Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di rivelare relazioni causali che poi si rivelano inesistenti.
 
Tra le tecniche maggiormente utilizzate in questo ambito vi sono:
* [[Clustering]];
* [[Reti neurali]];
* [[Albero di decisione|Alberi di decisione]];
* [[Analisi delle associazioni]] (individuazione dei prodotti acquistati congiuntamente).
 
Un'altra tecnica molto diffusa per il data mining è l'apprendimento mediante classificazione. Questo schema di apprendimento parte da un insieme ben definito di esempi di classificazione per casi noti, dai quali ci si aspetta di dedurre un modo per classificare esempi non noti. Tale approccio viene anche detto "con supervisione" (''supervised''), nel senso che lo schema di apprendimento opera sotto la supervisione fornita implicitamente dagli esempi di classificazione per i casi noti; tali esempi, per questo motivo, vengono anche detti ''training examples'', ovvero "esempi per l'addestramento". La conoscenza acquisita per apprendimento mediante classificazione può essere rappresentata con un albero di decisione.
 
L'estrazione dei dati vera e propria giunge quindi al termine di un processo che comporta numerose fasi: si individuano le fonti di dati; si crea un unico set di dati aggregati; si effettua una pre-elaborazione (data cleaning, analisi esplorative, selezione, ecc.); si estraggono i dati con l'algoritmo scelto; si interpretano e valutano i pattern; l'ultimo passaggio va dai pattern alla nuova conoscenza così acquisita.
 
=== Ricerca di mercato ===
L'utilizzo del data mining nella ricerca di mercato è volto ad ampliare la conoscenza su cui basare i [[processo decisionale|processi decisionali]]. Nel contesto aziendale il data mining è considerato parte del processo che porta alla creazione di un [[data warehouse]]. È efficace soprattutto per la valorizzazione delle informazioni aziendali residenti in questi grandi depositi di dati. Affinché l'informazione estratta dai dati esistenti sia significativa, e quindi potenzialmente utile, deve essere: