Big data: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Riga 63:
L’immagazzinamento dei Big Data è un problema che deriva da due necessità: memorizzare ed organizzare enormi dataset non strutturati o semi-strutturati ed allo stesso tempo garantire la loro disponibilità e la capacità di interazione con essi in modo affidabile, veloce e sicuro.
Per rispondere a questi bisogni è stato unito allo sviluppo di infrastrutture hardware per l’archiviazione, anche la creazione di meccanismi per la gestione di questi dati, in particolare file system distribuiti e nuove tipologie di database.
 
L’infrastruttura a supporto dei Big Data consiste in insiemi di nodi di archiviazione ed elaborazione distribuiti in rete, connessi mediante reti di comunicazione ad alta velocità, in grado di scalare orizzontalmente ed essere configurata dinamicamente a seconda delle applicazioni.
I file system distribuiti hanno il compito di fornire una visione unificata dell’infrastruttura di storage distribuita sottostante, fornendo operazioni di base per la lettura e scrittura sequenziale di grandi quantità di dati, assicurando alte prestazioni ed allo stesso tempo un adeguato livello di tolleranza ai guasti. I file system distribuiti più conosciuti sono Google File System (GFS) ed Hadoop Distributed File System (HDFS). Vari tipi di database sono stati proposti negli anni nell’intento di memorizzare, gestire ed organizzare dataset caratterizzati da grandezze, strutture e provenienze diverse. A causa della staticità delle strutture tabellari, le soluzioni basate su RDBMS si sono rivelate inadatte ai requisiti di varietà e volume propri dei Big Data.
 
Vari tipi di database sono stati proposti negli anni nell’intento di memorizzare, gestire ed organizzare dataset caratterizzati da grandezze, strutture e provenienze diverse. A causa della staticità delle strutture tabellari, le soluzioni basate su RDBMS si sono rivelate inadatte ai requisiti di varietà e volume propri dei Big Data.
L’organizzazione logica dei dati è dunque affidata alle basi di dati NoSQL che abbandonano le restrizioni imposte dal modello relazionale e dal linguaggio SQL ma che invece possiedono caratteristiche fondamentali per i Big Data come l’essere "schemaless" e distribuite, avere una facile replicazione dei dati, eventual consistency e, non ultimo, il supporto per lo storage persistente di grandi moli di dati. Alla fase di immagazzinamento viene affiancata spesso una fase di integrazione che consiste in ulteriori elaborazioni e trasformazioni dei dati per prepararli alla successiva fase di analisi. Ciò permette di ottenere una visione unificata e normalizzata dei dati. Le operazioni che vengono svolte più frequentemente in questa fase sono l’unione di dati da database esterni ed il riconoscimento di contenuti testuali da documenti provenienti da fonti come il Web o le repository aziendali.
Alla fase di immagazzinamento viene affiancata spesso una fase di integrazione che consiste in ulteriori elaborazioni e trasformazioni dei dati per prepararli alla successiva fase di analisi. Ciò permette di ottenere una visione unificata e normalizzata dei dati. Le operazioni che vengono svolte più frequentemente in questa fase sono l’unione di dati da database esterni ed il riconoscimento di contenuti testuali da documenti provenienti da fonti come il Web o le repository aziendali.
 
===Modellazione e analisi===