Apri il menu principale

Base di dati

collezione organizzata di dati
(Reindirizzamento da Database)
Nota disambigua.svg Disambiguazione – "Database" rimanda qui. Se stai cercando altri significati, vedi Database (disambigua).

Con base di dati o banca dati (a volte abbreviato con la sigla DB dall'inglese data base) in informatica si indica un insieme di dati, omogeneo per contenuti e per formato, memorizzati in un elaboratore elettronico e interrogabili via terminale utilizzando le chiavi di accesso previste.

Indice

StoriaModifica

I database sono stati utilizzati fin dall'inizio della storia dell'informatica, ma la grande maggioranza di questi erano programmi specializzati per l'accesso a un singolo database. Oggi, invece, i moderni sistemi possono essere utilizzati per compiere operazioni su un gran numero di basi di dati differenti. Questa "specializzazione" era dovuta alla necessità di guadagnare in velocità di esecuzione pur perdendo in flessibilità.

Dagli anni settanta del XX secolo basi di dati hanno subito un enorme sviluppo sia in fatto di quantità di dati memorizzati sia in fatto di tipi di architetture adottate. A partire da allora e soprattutto dall'inizio del XXI secolo. Queste sono le architetture dati che si sono sviluppate negli anni:

  • Architettura Centralizzata, DBMS;
  • Architettura Parallela;
  • Architettura Distribuita;
  • Architettura Federata;
  • Architettura Data Integration;
  • Architettura Data Warehouse.

Database navigazionaliModifica

Con la crescita della capacità elaborativa dei calcolatori questo contrasto con la flessibilità andò attenuandosi, con la creazione negli anni sessanta di una serie di database utilizzabili per diverse applicazioni. L'interesse nel fissare uno standard crebbe e Charles W. Bachman, creatore di IDS, uno di questi prodotti, fondò il Database Task Group all'interno del gruppo Codasyl, il team di lavoro dedicato alla creazione e standardizzazione del linguaggio di programmazione COBOL. Nel 1971 questo standard fu prodotto e prese il nome di "Approccio Codasyl" e presto fu disponibile sul mercato una serie di prodotti basati su questo approccio.

Questo approccio era basato sulla navigazione manuale in un insieme di dati disposti sotto forma di rete. Alla prima apertura del programma questo si trovava sul primo dato disponibile contenente, tra le altre cose, un puntatore ai dati successivi. Per trovare un dato il programma attraversava la serie di puntatori fino a trovare il dato corretto. Delle semplici query come "Trova tutte le persone nate in Svezia" richiedevano l'attraversamento dell'intero set di dati. Non esisteva alcuna funzione di ricerca; oggi questo potrebbe sembrare una limitazione, ma all'epoca, essendo i dati archiviati su nastro magnetico, operazioni come quelle evidenziate sopra peggioravano ulteriormente il tempo di ricerca.

Nel 1968 IBM sviluppò un proprio sistema DBMS chiamato IMS. IMS era lo sviluppo di un programma utilizzato nelle missioni Apollo sui Sistemi /360 e utilizzava un sistema simile all'approccio Codasyl, con l'unica differenza di avere un sistema gerarchico anziché a rete.

Ambedue le soluzioni presero poi il nome di "database navigazionali" a causa del metodo di consultazione che era stato previsto. Inoltre Charles Bachman, in occasione della premiazione nel 1973 in cui gli venne conferito il Premio Turing, presentò un lavoro intitolato "Il programmatore come navigatore". IMS è abitualmente classificato come un database gerarchico, mentre IDS e IDMS (ambedue database CODASYL), CINCOMs e TOTAL sono classificati come database a rete (o reticolari).

Database relazionaliModifica

 Lo stesso argomento in dettaglio: RDBMS.

I DBMS relazionali sono detti anche RDBMS (Relational DBMS).

Edgar F. Codd lavorava alla sede californiana di IBM come ricercatore sulla nascente tecnologia degli hard disk quando osservò l'inefficienza dell'approccio Codasyl con la nuova modalità di memorizzazione dei dati, inefficienza principalmente dovuta all'assenza di una funzione di ricerca. Nel 1970 cominciò a produrre diversi documenti schematizzanti un nuovo approccio alla costruzione delle basi di dati, culminati nel "Modello relazionale per Basi di dati condivise" (A Relational Model of Data for Large Shared Data Banks).

In questo articolo, descrisse un nuovo sistema per archiviare e modificare grandi quantità di dati. Invece di utilizzare delle "righe" (in inglese, ma anche molto usato in italiano: "record" o anche "tuple") collegate tra di loro attraverso un qualche tipo di struttura "ad albero", come in Codasyl, ritenne di utilizzare una "tabella" di righe a lunghezza fissa. Questo sistema sarebbe stato molto inefficiente nell'archiviazione di dati "sparsi", in cui la tabella avrebbe potuto avere diverse "celle" vuote; tale errore di impostazione fu corretto dividendo i dati in diverse tabelle, in cui gli elementi opzionali venivano spostati, anziché sprecare spazio nella tabella principale.

Ad esempio, un utilizzo comune delle basi di dati è quello di registrare delle informazioni sugli utenti: il loro nome, informazioni di accesso, indirizzo e numeri di telefono. In un database navigazionale tutti questi dati sarebbero stati memorizzati in un unico "record", e gli elementi non presenti (ad esempio un utente di cui non sia noto l'indirizzo) sarebbero stati semplicemente omessi. Al contrario, in un database relazionale, le informazioni vengono divise, ad esempio, nelle tabelle "utente", "indirizzi", "numeri di telefono" e solo se i dati sono presenti viene creata, nella rispettiva tabella, una tupla.

Uno degli aspetti interessanti introdotti nei database relazionali sta nel collegamento delle tabelle: nel modello relazionale, per ogni "record" viene definita una "chiave", ovvero un identificatore univoco della tupla. Nella ricostruzione delle relazioni, l'elemento di riferimento, che distingue una riga da un'altra è proprio questa "chiave" e viene richiamata nella definizione della relazione. La chiave può essere uno dei dati stessi che vengono memorizzati (ad esempio, per la tabella utenti, il "Codice Fiscale" della persona), una loro combinazione (chiave composta), o ancora un campo che viene aggiunto specificatamente per questo scopo. In ogni caso, la chiave primaria deve essere presente in ogni tupla e mai ripetuta più di una volta in ogni relazione.

Questa operazione di "riunificazione" dei dati non è prevista nei linguaggi di programmazione tradizionali: mentre l'approccio navigazionale richiede semplicemente di "ciclare" per raccogliere i diversi "record", l'approccio relazionale richiede al programma di "ciclare" per raccogliere le informazioni riguardanti ogni record. Codd, propose, come soluzione, la creazione di un linguaggio dedicato a questo problema. Tale linguaggio, più tardi, si è sviluppato nella codifica che oggi è universalmente adottata e che è il mattone fondamentale delle basi di dati: SQL.

Utilizzando una branca della matematica chiamata "calcolo delle tuple", dimostrò che questo sistema era in grado di compiere tutte le normali operazioni di amministrazione dei database (inserimento, cancellazione, etc.) e che inoltre consentiva di disporre di uno strumento semplice per trovare e visualizzare gruppi di dati tramite un'unica operazione.

IBM cominciò a implementare questa teoria in alcuni prototipi all'inizio degli anni settanta, come nel "System R". La prima versione fu realizzata nel 1974/75 con uno strumento "monotabella"; negli anni successivi furono studiati i primi sistemi che potessero supportare la suddivisione dei dati in tabelle separate, utile, come abbiamo visto, per la separazione dei dati opzionali in tabelle diverse da quella principale. Versioni "multiutente" furono realizzate nel 1978 e nel 1979; negli stessi anni fu standardizzato il linguaggio SQL. La superiorità di questo sistema rispetto a Codasyl fu quindi evidente e IBM passò a sviluppare una versione commerciale di "System R", che prese il nome di "SQL/DS" prima e di "Database 2" (DB2) infine.

Il lavoro di Codd venne proseguito presso l'Università di Berkeley da Eugene Wong e Michael Stonebraker. Il loro progetto, chiamato INGRES e finanziato con fondi destinati alla creazione di un database geografico, vide la luce nel 1973 e produsse i primi risultati nel 1974 anche grazie all'opera di numerosi studenti che si prestarono quali programmatori (quasi 30 persone lavorarono al progetto). INGRES era assai simile a "System R" e prevedeva un linguaggio alternativo a SQL, chiamato QUEL.

Molte delle persone coinvolte nel progetto si convinsero della fattibilità commerciale dello stesso e fondarono imprese per entrare nel mercato con questo prodotto. Sybase, Informix, NonStop SQL e alla fine Ingres stessa nacquero quali "spin-off" per la diffusione di INGRES all'inizio degli anni ottanta. Perfino Microsoft SQL Server è, per certi versi, una derivazione di "Sybase" e, quindi, di INGRES. Solamente la Oracle di Larry Ellison partì utilizzando un approccio diverso, basato sul "System R" di IBM, e alla fine prevalse sulle altre compagnie con il suo prodotto, lanciato nel 1978.

In Svezia il lavoro di Codd venne sviluppato nella Università di Uppsala che sviluppò un diverso prodotto, "Mimer SQL", commercializzato nel 1984. Una particolarità di questa soluzione sta nell'introduzione del concetto di transazione, successivamente importata in quasi tutti i DBMS.

Database multidimensionaliModifica

I database multidimensionali sono un paradigma definito ancora una volta da Codd per sopperire alle scarse performance offerte dai database relazionali nel caso di utilizzo delle basi di dati stesse per processi di analisi (on line analitical process, OLAP). Tali sistemi consentono di effettuare analisi su enormi quantità di dati con efficienza, cosa non possibile su database relazionali più adatti a gestire transazioni (on line transaction process, OLTP).

Da fine anni '90 pressoché ogni database relazionale commerciale ha al suo interno un motore multidimensionale per effettuare analisi.

Database a oggettiModifica

I DBMS a oggetti sono detti anche ODBMS (Object DBMS).

I database multidimensionali ebbero comunque un ruolo importante sul mercato: portarono alla creazione di basi di dati a oggetti. Basata sugli stessi concetti generali, questa nuova tipologia di sistemi, consente agli utenti di memorizzare direttamente "oggetti" all'interno delle basi di dati. Ovvero, gli stessi principi della programmazione a oggetti, invece di dover effettuare un adattamento di metodi e variabili.

Questo può avvenire grazie al particolare concetto di proprietà dei database multidimensionali. Nella programmazione a oggetti, ognuno di questi "oggetti" tipicamente ne conterrà altri. Ad esempio, l'oggetto contenente il Signor Rossi, conterrà un riferimento all'oggetto "Indirizzo". Contenendo il supporto per molti linguaggi di programmazione a oggetti, i database che sfruttano la medesima tecnologia stanno avendo un periodo di forte sviluppo di questi tempi.

Oggi molti DBMS applicano in realtà un misto tra il modello relazionale e il modello a oggetti. Si parla quindi di ORDBMS (Object Relational DBMS).

DescrizioneModifica

Utilizzo terminologicoModifica

La locuzione può anche indicare contemporaneamente:

Informalmente e impropriamente la parola "base di dati" viene spesso usata per indicare il database management system (DBMS) riferendosi dunque alla sola parte software. Un client di database lato client interagisce con il DBMS server e quindi anche con la base di dati in senso fisico.

Nelle basi di dati più moderne, ovvero quelle basate sul modello relazionale, i dati vengono suddivisi in apposite tabelle per argomenti e poi questi argomenti vengono suddivisi per categorie (campi) con tutte le possibili operazioni di cui sopra. Questa suddivisione e questa funzionalità rendono le basi di dati notevolmente più efficienti rispetto a un archivio di dati creato per esempio tramite il file system di un sistema operativo su un computer, almeno per la gestione di dati complessi.

Gestione delle informazioniModifica

La base di dati deve contenere anche le informazioni sulle loro rappresentazioni e sulle relazioni che li legano. Spesso, ma non necessariamente, una base dati contiene le seguenti informazioni:

  • Strutture dati che velocizzano le operazioni frequenti, di solito a spese di operazioni meno frequenti.
  • Collegamenti con dati esterni, cioè riferimenti a file locali o remoti non facenti parte della base di dati.
  • Informazioni di sicurezza che autorizzano solo alcuni profili utente ad eseguire alcune operazioni su alcuni tipi di dati.
  • Programmi che vengono eseguiti, automaticamente o su richiesta di utenti autorizzati, per eseguire elaborazioni sui dati. Un tipico automatismo consiste nell'eseguire un programma ogni volta che viene modificato un dato di un certo tipo.

In un sistema informatico una base di dati può essere usata direttamente dai programmi applicativi, interfacciandosi con il supporto di memorizzazione agendo direttamente sui file. Questa strategia era adottata universalmente fino agli anni sessanta, ed è tuttora impiegata quando i dati hanno una struttura molto semplice o quando sono elaborati da un solo programma applicativo.

Tuttavia dalla fine degli anni sessanta, per gestire basi di dati complesse condivise da più applicazioni, si sono utilizzati appositi sistemi software detti "sistemi per la gestione di basi di dati" (in inglese "Database Management System" o "DBMS"). Uno dei vantaggi di questi sistemi è la possibilità di non agire direttamente sui dati, ma di vederne una rappresentazione concettuale.

La ricerca nel campo delle basi di dati studia le seguenti problematiche:

  • Progettazione di basi di dati.
  • Progettazione e implementazione di DBMS.
  • Interpretazione (analisi) di dati contenuti in database.

Le basi di dati spesso fanno uso di tecnologie derivate da altre branche dell'informatica. È usuale utilizzare tecniche derivate dall'intelligenza artificiale, come ad esempio il data mining, per cercare di estrarre relazioni o più in generale informazioni presenti nelle banche dati, ma non immediatamente visibili.

Struttura e modello logicoModifica

Le informazioni contenute in una base di dati sono strutturate e collegate tra loro secondo un particolare modello logico scelto dal progettista, per esempio relazionale, gerarchico, reticolare o a oggetti. Gli utenti si interfacciano con le base dati attraverso i cosiddetti query language (query di ricerca o interrogazione, inserimento, cancellazione, aggiornamento ecc.) e grazie a particolari applicazioni software dedicati (DBMS).

Di solito le basi di dati possono avere varie strutture, in ordine cronologico di comparsa e diffusione:

  1. gerarchico (anni sessanta) rappresentabile tramite un albero, ovvero con strutture simili ai file system gerarchici,
  2. reticolare (anni sessanta) rappresentabile tramite un grafo,
  3. relazionale (anni settanta) attualmente il più diffuso, rappresentabile mediante tabelle e relazioni tra esse,
  4. ad oggetti (anni ottanta) estensione alle basi di dati del paradigma "Object Oriented", tipico della programmazione a oggetti,
  5. Document-oriented (NoSQL),
  6. Key-Value Store (NoSQL),
  7. Graph-based (NoSQL),
  8. Colonnari (NoSQL),
  9. semantica (inizio anni duemila) rappresentabile con un grafo relazionale.

Il formato XML, oltre che per scambi di dati su web, si sta diffondendo per la definizione di vere e proprie basi di dati. XML ha una struttura gerarchica, pare quindi un "ritorno alle origini" dei modelli di dati.

Un requisito importante di una buona base dati consiste nel non duplicare inutilmente le informazioni in essa contenute: questo è reso possibile dai gestori di database relazionali, teorizzati da Edgar F. Codd, che consentono di salvare i dati in tabelle che possono essere collegate.

La funzionalità di una base di dati dipende in modo essenziale dalla sua progettazione: la corretta individuazione degli scopi della base di dati e quindi delle tabelle, da definire attraverso i loro campi e le relazioni che le legano, permette poi una estrazione dei dati più veloce e in generale una gestione più efficiente.

In InternetModifica

Sono un particolare tipo di servizi web che offrono la possibilità di creare basi di dati direttamente sul Web. Questi servizi offrono normalmente tutte le caratteristiche base di una normale base di dati per costruire tabelle strutturate di dati di ogni genere con campi di tipo testo, numeri, data e ora e altri.

Il loro servizio non è solo quello di repository o contenitore di dati, ma anche quello di creare un'interfaccia grafica usabile per la gestione degli stessi presentandosi come vere e proprie applicazioni web. La condivisione svolge un ruolo importante proprio perché i dati sono visibili su Internet e quindi da altre persone che, con le dovute autorizzazioni, possono lavorare sui dati.

ImplementazioneModifica

ProgettazioneModifica

 Lo stesso argomento in dettaglio: Progettazione di basi di dati.

La progettazione di basi di dati è il processo di formulazione di un modello dettagliato del database. Questo modello contiene tutte le scelte progettuali a livello logico e fisico e i parametri fisici di memorizzazione necessari per la generazione del data definition language (DDL) che può essere usato per l'implementazione del database. Un modello dei dati completamente specificato contiene i dettagli specifici per ogni singola entità.

Linguaggi utilizzatiModifica

Nell'ambito dell'utilizzo/amministrazione della base di dati, una qualunque operazione sulla base di dati da parte dell'utente/amministratore su DBMS è ottenibile tramite un opportuno linguaggio attraverso un DBMS manager a interfaccia grafica o a interfaccia a riga di comando. In generale è possibile distinguere più linguaggi per basi di dati, ciascuno con lessico e sintassi che definiscono tutte le istruzioni possibili, a seconda del loro utilizzo o finalità a partire dalla creazione/progettazione, gestione, ristrutturazione, sicurezza, fino all'interrogazione della base di dati stessa:

La sintassi di questi linguaggi varia a seconda del particolare DBMS e i vari linguaggi mantengono tra loro un'uniformità concettuale.

Inoltre è possibile suddividere i linguaggi come:

  • Linguaggi testuali interattivi, come l'SQL che rappresenta attualmente il linguaggio più utilizzato e di cui sono stati pubblicati diversi standard.
  • Linguaggi testuali interattivi immersi in linguaggi di programmazione comuni, quali C, BASIC ecc.
  • Linguaggi testuali interattivi immersi in linguaggi di programmazione proprietari.
  • Linguaggi grafici e user-friendly, come QBE (Query By Example), che possono essere utilizzati anche dai meno esperti.

Server di basi di datiModifica

 Lo stesso argomento in dettaglio: DBMS.

Il server è la parte del DBMS, e per estensione il server su cui il programma opera, che si occupa di fornire i servizi di utilizzo della base di dati ad altri programmi e ad altri computer secondo la modalità client/server. Il server memorizza i dati, riceve le richieste dei client ed elabora le risposte appropriate.

Tra i più diffusi DBMS open source troviamo:

I più diffusi sistemi commerciali sono:

I database server sono complessi sistemi software concepiti oltre che per memorizzare i dati, anche per fornire un accesso rapido ed efficace a una pluralità di utenti contemporaneamente e garantire protezione sia dai guasti sia dagli accessi indebiti (sicurezza o protezione della base dati).

Efficienza e sicurezzaModifica

 Lo stesso argomento in dettaglio: Protezione del database.

Sicurezza significa impedire che la base dati venga danneggiata da interventi accidentali o non autorizzati, per esempio un attacco ai database, e mantenerne l'integrità ovvero garantire che le operazioni effettuate sulla base di dati da utenti autorizzati non provochino una perdita consistente di dati, garantendone al contempo l'affidabilità. La protezione da accessi non autorizzati è un tema importante nella gestione delle basi di dati che si rivelano vulnerabili nei seguenti punti:

Rapporto col diritto d'autoreModifica

Le banche di dati sono tutelate dalla legge sul diritto d'autore sia come opere di ingegno di carattere creativo sia come bene prodotto grazie ai rilevanti investimenti finanziari.

In italia L'art 64 quinquies della legge 633/1941 sul diritto d'autore prevede che:

L'autore di un banca di dati ha il diritto esclusivo di eseguire o autorizzare:

a) la riproduzione permanente o temporanea, totale o parziale, con qualsiasi mezzo e in qualsiasi forma;

b) la traduzione, l'adattamento, una diversa disposizione e ogni altra modifica;

c) qualsiasi forma di distribuzione al pubblico dell'originale o di copie della banca di dati; la prima vendita di una copia nel territorio dell'Unione europea da parte del titolare del diritto o con il suo consenso esaurisce il diritto di controllare, all'interno dell'Unione stessa, le vendite successive della copia;

d) qualsiasi presentazione, dimostrazione o comunicazione in pubblico, ivi compresa la trasmissione effettuata con qualsiasi mezzo e in qualsiasi forma;

e) qualsiasi riproduzione, distribuzione, comunicazione, presentazione o dimostrazione in pubblico dei risultati delle operazioni di cui alla lettera b).[1]

L'autore di una banca di dati, che ha scelto e organizzato creativamente il materiale all'interno della raccolta, è quindi titolare delle facoltà esclusive di natura patrimoniale e morale riconosciute a tutti gli autori di opere dell'ingegno secondo l'articolo 64-quinquies e seg. della legge 633/1941. I diritti esclusivi di riproduzione, traduzione, adattamento, distribuzione, presentazione e dimostrazione sono detti diritti patrimoniali, cioè hanno un valore economicamente valutabile. In quanto patrimoniali i sopracitati diritti sono trasferibili.

L'autore può quindi effettuare o autorizzare: la riproduzione permanente o temporanea, totale o parziale, la traduzione, le modifiche, gli adattamenti e le diverse disposizioni del materiale, la distribuzione, la presentazione in pubblico e l'utilizzazione economica.

C'è invece la possibilità di una libera utilizzazione quando l'accesso e la consultazione sono svolte per finalità didattiche o di ricerca scientifica, quando l'uso dei dati persegue fini di sicurezza pubblica e quando i dati sono utilizzati per una procedura amministrativa o giurisdizionale. La durata del diritto d'autore è di 70 anni dalla morte dell'autore.

In qualunque caso le banche dati sono tutelate dal diritto d’autore indipendentemente dalla tutela eventualmente accordata alle opere o ai dati da cui esse sono composte, con la precisazione che la tutela della banca dati non si estende alle opere o dati in questione. In sostanza la tutela riguarda la struttura della banca dati, in pratica la sua forma espressiva.

Nel caso in cui la banca di dati sia originale, cioè con dati organizzati secondo criteri originali e non per esempio in ordine alfabetico o cronologico, l'autore gode dei diritti dei diritti morali e di sfruttamento economico della banca dati stessa. Invece nel caso in cui la banca dati non sia originale la tutela dei diritti non è per l'autore, ma per il costruttore ovvero colui che effettua investimenti per la costituzione della banca dati. Al costitutore della banca di dati sarà riconosciuta, sul solo territorio dell'Unione europea, la titolarità di un diritto sui generis diverso dal diritto d'autore e dai diritti connessi, volto a tutelare il lavoro svolto e gli investimenti effettuati. Infatti il costitutore può vietare le operazioni di estrazione e reimpiego della totalità o di una parte della banca dati. La durata del diritto del costitutore è di 15 anni, rinnovabile in caso di modifiche o integrazioni sostanziali apportate alla raccolta. Il conteggio dei 15 anni comincia dal 1º gennaio dell'anno successivo alla data del completamento della banca dati. Nel caso in cui il database sia accessibile via internet i 15 anni cominciano dal 1º gennaio successivo alla messa a disposizione della banca di dati stessa.

NoteModifica

  1. ^ Legge sul diritto d'autore | Altalex, su Altalex. URL consultato il 18 gennaio 2017.

BibliografiaModifica

  • Paolo Atzeni, Stefano Ceri, Stefano Paraboschi e Riccardo Torlone, Basi Di Dati (Modelli e Linguaggi di Interrogazione), McGraw Hill, 2003, ISBN 978-88-386-6600-1.
  • Atzeni, Ceri, Fraternali, Paraboschi, Torlone – Basi Di Dati (Architetture e Linee Di Evoluzione) - McGraw Hill, 2003
  • Ramez Elmasri, Shamkant B. Navathe – Fundamentals of Database Systems, Fourth Edition – Addison Wesley, 2003
  • Tamer-Ozsu, P. Valduriez – Principles of Distributed Database Systems - Prentice Hall, 1999
  • Giovanni Guglielmetti, La tutela delle banche dati con diritto sui generis nella direttiva 96/9/CE, in Contratto e impresa / Europa, 1997, pag. 177 e segg.;
  • Paola A.E. Frassi, "Creazioni utili e diritto d'autore. Programmi per elaboratore e raccolte di dati" - Giuffrè, 1997
  • Laura Chimienti, "Banche dati e diritto d'autore" - Giuffrè, 1999

Voci correlateModifica

Altri progettiModifica

Collegamenti esterniModifica