Big data analytics

Big data analytics è il processo di raccolta e analisi di grandi volumi di dati (big data) per estrarre informazioni nascoste. Associati a sofisticate analisi di business, i big data hanno il potenziale di dare alle imprese intuizioni sulle condizioni di mercato^[1], sul comportamento dei clienti, rendendo l’attività decisionale più efficace e veloce rispetto alla concorrenza^[2], discostandosi dalle tradizionali soluzioni di business intelligence perché operano su grandi volumi di dati e richiedono pertanto un’elaborazione più lenta e meno efficiente. Oggi sono fornite diverse tecnologie e tecniche di analisi per scoprire patterns nascosti e connessioni tra i dati.

Tale processo di analisi permette di operare un’analisi predittiva, ovvero permette di conoscere anticipatamente cosa accadrà: ciò diventa possibile poiché se abbiamo un modello e abbiamo dati storici a sufficienza possiamo determinare cosa succederà in un futuro prossimo (una tendenza) con basi o fondamenti statistici. Sulla base di queste previsioni è possibile poi intervenire sul futuro mediante un'analisi prescrittiva, ovvero si vanno a cercare le condizioni affinché un certo evento accada.

Quindi i big data rappresentano il nuovo strumento che rende "misurabile" la società: spingono verso una nuova scienza dei dati, in grado di misurare e, in prospettiva, prevedere crisi economiche, epidemie, diffusione di opinioni, distribuzione delle risorse economiche, bisogni di mobilità.^[3]

Storia

Per molti anni si è parlato di Big Data, ma solo recentemente molte organizzazioni hanno compreso la loro importanza. Catturare l’innumerevole mole di dati, che viene condivisa ogni giorno nel proprio business, permette ad un’azienda di analizzare ed estrarre informazioni significative e talvolta vitali per le proprie decisioni.

Inizialmente, prima ancora che il termine “Big Data” venisse usato, le attività commerciali erano basate su semplici analisi numeriche per scoprire informazioni e andamenti nascosti. Oggi invece le informazioni sono recuperate da enormi volumi di dati, dove l’analisi, ormai diventata veloce, permette di anticipare le scelte future in modo più accurato. Negli ultimi, il ricorso ai Big Data Analytics prevede progettualità e metodologie sempre più complesse e avanzate (analisi predittive e real time, ricorso a data lake o modelli integrati di archiviazione dati, team dedicati alla gestione della data science) in grado di impattare su tutti i processi di un'organizzazione: comunicazioni personalizzate, ottimizzazione dei processi produttivi, gestione delle emergenze, etc...

Descrizione

Definizione e caratteristiche

Si tratta di un processo di Business Intelligence adattato ai Big Data. Sono, quindi, necessari strumenti automatici che possano aiutare i manager ed i responsabili dell'azienda a prendere le decisioni giuste per massimizzare i profitti ed evitare gli sprechi dovuti a scelte sbagliate, soprattutto negli ultimi anni in cui la crisi economica lascia ancora meno margini per gli errori.

La presenza di dati non strutturati, rende necessario un diverso approccio nell’analisi che differisce dai tradizionali sistemi di gestione delle basi di dati. In questo contesto bisogna disporre di architetture software predisposte alla gestione di grossi volumi di dati, capaci di elaborazioni parallele su sistemi cluster. Tecnologie emergenti come Hadoop, MapReduce e NoSQL databases.

I principali obiettivi della Big Data analytics^[4] sono:

Ridurre i costi: sono introdotte nuove tecnologie per ridurre i costi di gestione e analisi di grandi volumi di dati.
Velocità: le analisi condotte devono essere capaci di produrre un risultato in breve tempo, oggi si fa sempre più riferimento ad analisi real time.
Precisione: potendo disporre di grosse quantità di dati possono essere condotte analisi più accurate.

Attraverso questi obiettivi è possibile anticipare il futuro con la conoscenza dei dati raccolti nel passato ed individuare nuove opportunità di guadagno.

Differenze con la business intelligence

La crescente maturità del concetto dei Big Data mette in evidenza le differenze con la Business Intelligence, in materia di dati e del loro utilizzo:

la Business Intelligence utilizza la statistica descrittiva con dati ad alta densità di informazione per misurare cose, rilevare tendenze, ecc., utilizza cioè dataset limitati, dati puliti e modelli semplici per scoprire cosa è successo e perché è successo;^[5]
i Big Data utilizzano la statistica inferenziale e concetti di identificazione di sistemi non lineari^[6] per dedurre leggi (regressioni, relazioni non lineari ed effetti causali) da grandi insiemi di dati^[7], e per rivelare rapporti e dipendenze ed effettuare previsioni di risultati e comportamenti^[6]^[8], in altre parole utilizzano dataset eterogenei (non correlati tra loro), dati raw e modelli predittivi complessi.^[5]^[9]

L'autore Jonathan Koomey, autore della Legge di Koomey^[10], ha raccomandato una serie di buone pratiche per comprendere i dati quantitativi. Questi includono:

Verificare la presenza di anomalie nei dati grezzi prima di eseguire un'analisi;
Eseguire nuovamente calcoli importanti, come la verifica di colonne di dati basate su formule;
Confermare che i totali principali sono la somma dei subtotali;
Controlla le relazioni tra i numeri che dovrebbero essere correlati in modo prevedibile, come i rapporti nel tempo;
Normalizzare i numeri per facilitare i confronti, come analizzare gli importi per persona o relativi al PIL o come valore dell'indice relativo a un anno base;
Suddividi i problemi in parti componenti analizzando i fattori che hanno portato ai risultati, come l'analisi DuPont del rendimento del capitale.

Per le variabili in esame, gli analisti in genere ottengono per esse statistiche descrittive, come media (media), mediana e deviazione standard. Possono anche analizzare la distribuzione delle variabili chiave per vedere come i singoli valori si raggruppano attorno alla media.^[11]

Note

^ (EN) Claudio Vitari e Elisabetta Raguseo, Big data analytics business value and firm performance: linking with environmental context, in International Journal of Production Research, 9 settembre 2019, pp. 1–21, DOI:10.1080/00207543.2019.1660822. URL consultato il 23 ottobre 2019.
^ (EN) Elisabetta Raguseo e Claudio Vitari, Investments in big data analytics and firm performance: an empirical investigation of direct and mediating effects, in International Journal of Production Research, vol. 56, n. 15, 3 agosto 2018, pp. 5206–5221, DOI:10.1080/00207543.2018.1427900. URL consultato il 23 ottobre 2019.
^ (EN) Dino Pedreschi, Siamo tutti pollicini digitali, 2012. URL consultato il 30 giugno 2017 (archiviato dall'url originale il 10 aprile 2018).
^ (EN) Elisabetta Raguseo, Big data technologies: An empirical investigation on their adoption, benefits and risks for companies, in International Journal of Information Management, vol. 38, n. 1, 2018-2, pp. 187–195, DOI:10.1016/j.ijinfomgt.2017.07.008. URL consultato il 23 ottobre 2019.
^ ^a ^b I Big Data vi parlano. Li state ascoltando? (PDF), EMC Corporation, 2012. URL consultato il 17 luglio 2017.
^ ^a ^b (EN) Stephen A. Billings, Nonlinear system identification: NARMAX methods in the time, frequency, and spatio-temporal domains, New York, Wiley, 23 settembre 2013, ISBN 978-1119943594.
^ (FR) Pierre Delort, Big data Paris 2013, su andsi.fr. URL consultato il 25 giugno 2017.
^ (FR) Pierre Delort, Big Data car Low-Density Data? La faible densité en information comme facteur discriminant, su lecercle.lesechos.fr. URL consultato il 25 giugno 2017.
^ Mario Rasetti e Emanuela Merelli, The Topological Field Theory of Data: a program towards a novel strategy for data mining through data language, in Journal of Physics: Conference Series, vol. 626, Torino, IOP Publishing Ltd, 2015, DOI:10.1088/1742-6596/626/1/012005. URL consultato il 25 giugno 2017.
^ Recommended Best Practices, su dx.doi.org, 1º ottobre 2008, DOI:10.14217/9781848590151-8-en. URL consultato il 3 giugno 2021.
^ Jake VanderPlas, Python Data Science Handbook, O'Reilly Media, 2016, ISBN 978-1491912058.

Voci correlate

Portale Informatica

Portale Statistica

[1] (EN) Claudio Vitari e Elisabetta Raguseo, Big data analytics business value and firm performance: linking with environmental context, in International Journal of Production Research, 9 settembre 2019, pp. 1–21, DOI:10.1080/00207543.2019.1660822. URL consultato il 23 ottobre 2019.

[2] (EN) Elisabetta Raguseo e Claudio Vitari, Investments in big data analytics and firm performance: an empirical investigation of direct and mediating effects, in International Journal of Production Research, vol. 56, n. 15, 3 agosto 2018, pp. 5206–5221, DOI:10.1080/00207543.2018.1427900. URL consultato il 23 ottobre 2019.

[3] (EN) Dino Pedreschi, Siamo tutti pollicini digitali, 2012. URL consultato il 30 giugno 2017 (archiviato dall'url originale il 10 aprile 2018).

[4] (EN) Elisabetta Raguseo, Big data technologies: An empirical investigation on their adoption, benefits and risks for companies, in International Journal of Information Management, vol. 38, n. 1, 2018-2, pp. 187–195, DOI:10.1016/j.ijinfomgt.2017.07.008. URL consultato il 23 ottobre 2019.

[emc-5] I Big Data vi parlano. Li state ascoltando? (PDF), EMC Corporation, 2012. URL consultato il 17 luglio 2017.

[billings-6] (EN) Stephen A. Billings, Nonlinear system identification: NARMAX methods in the time, frequency, and spatio-temporal domains, New York, Wiley, 23 settembre 2013, ISBN 978-1119943594.

[7] (FR) Pierre Delort, Big data Paris 2013, su andsi.fr. URL consultato il 25 giugno 2017.

[8] (FR) Pierre Delort, Big Data car Low-Density Data? La faible densité en information comme facteur discriminant, su lecercle.lesechos.fr. URL consultato il 25 giugno 2017.

[9] Mario Rasetti e Emanuela Merelli, The Topological Field Theory of Data: a program towards a novel strategy for data mining through data language, in Journal of Physics: Conference Series, vol. 626, Torino, IOP Publishing Ltd, 2015, DOI:10.1088/1742-6596/626/1/012005. URL consultato il 25 giugno 2017.

[10] Recommended Best Practices, su dx.doi.org, 1º ottobre 2008, DOI:10.14217/9781848590151-8-en. URL consultato il 3 giugno 2021.

[11] Jake VanderPlas, Python Data Science Handbook, O'Reilly Media, 2016, ISBN 978-1491912058.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]