Funzione di aggregazione

Nella gestione dei database, una funzione di aggregazione o funzione aggregata è una funzione in cui i valori di più righe sono sintetizzati in un unico valore sommativo.

Le funzioni di aggregazione comuni includono:

Formalmente, una funzione aggregata prende come input un insieme, un multiinsieme o una lista da qualche dominio di input I e genera un elemento di un dominio di output O. I domini di input e output possono essere gli stessi, come per SUM, o possono essere diversi, come nel caso della funzione COUNT.

Le funzioni di aggregazione si trovano comunemente in numerosi linguaggi di programmazione, nei fogli di calcolo e nell'algebra relazionale.

La funzione listagg, come definita nello standard SQL:2016[1], aggrega i dati da più righe in una singola stringa concatenata.

Funzioni di aggregazione scomponibili modifica

Le funzioni di aggregazione presentano un collo di botiglia, perché in potenza richiedono di avere tutti i valori di input contemporaneamente. Nel calcolo distribuito, è auspicabile suddividere tali calcoli in parti più piccole e distribuire il lavoro, solitamente calcolando in parallelo tramite un algoritmo divide et impera.

Alcune funzioni di aggregazione possono essere calcolate scomponendo il problema in sottoproblemi più semplici: si calcolano gli agregati dei sottoinsiemi e poi l'aggregto finale: ne sono un esempio le funzioni COUNT, MAX, MIN e SUM. In altri casi, l'aggregato può essere calcolato mediante dei numeri ausiliari relativi ai sottoinsiemi, aggregando questi numeri ausiliari e infine calcolando il numero complessivo alla fine: ad esempio, la funzione AVERAGE tiene traccia delle somme parziali (sottoinsiemi) mediante un numero ausiliario che indica il numero di termini conteggiati, per il quale la somma si divide alla fine; la funzione RANGE tiene traccia dei massimi e minimi calcolati sui sottoinsiemi parziali, per poi calcolare la differenza finale di questi due valori.

In altri casi l'aggregato non può essere calcolato senza analizzare l'intero insieme in un'unica volta, sebbene in alcuni casi si possano distribuire approssimazioni. Gli esempi includono le funzioni DISTINCT COUNT, MEDIAN e MODE.

Tali funzioni sono chiamate funzioni di aggregazione scomponibili[2] o funzioni aggregate scomponibili. Le più semplici possono essere chiamate funzioni di aggregazione auto-scomponibili, che sono definite come quelle funzioni f tali che esiste un operatore di unione   tale che:

 ,

dove   è l'unione di un multiinsieme (omomorfismo monoide).

Ad esempio, per la funzione SUM:

 , per un singleton;
 , significando che l'unione   è semplicemente additiva.

COUNT:

 ,
 .

MAX:

 ,
 .

MIN:

 ,[1]
 .

Si noti che le funzioni di aggregazione autoscomponibili possono essere combinate (formalmente, calcolando il prodotto) mentre si applicano separatamente: ad esempio, si possono calcolare sia SUM che e COUNT in simultanea, tracciando due numeri.

Più in generale, si può definire una funzione di aggregazione scomponibile f come quella che può essere espressa come composizione di una funzione finale g e una funzione di aggregazione autoscomponibile h,   (ad esempio: AVERAGE=SUM/COUNT, e RANGE=MAXMIN).

Nel framework software di MapReduce, questi passaggi sono noti come InitialReduce (valore su record singolo/set singleton), Combine (unione binaria su due aggregazioni) e FinalReduce (funzione finale su valori ausiliari).[2]

Le funzioni di aggregazione scomponibili sono importanti nell'OLAP in quanto consentono di calcolare le query di aggregazione su dei numeri precalcolati nel cubo OLAP anziché sull'intero insieme dei dati di base.[3] Ad esempio, il supporto delle funzioni COUNT, MAX, MIN, e SUM in OLAP risulta agevole poiché questi possono essere calcolati per ogni cella del cubo OLAP e quindi riepilogati; invece, è difficile supportare MEDIAN, poiché deve essere calcolato separatamente per ogni vista sui dati.

Altre funzioni di aggregazione scomponibili modifica

Per calcolare la media e la deviazione standard dai dati aggregati è necessario avere a disposizione per ogni gruppo: il totale dei valori (Σx i = SUM(x)), il numero dei valori (N=COUNT(x)) e il totale dei quadrati dei valori (Σx i 2 =SUM(x 2 )) di ciascun gruppo.[4]

AVG:

 .

oppure

 .

oppure, solo se COUNT(X)=COUNT(Y)

 .


SUM(x2): La somma dei quadrati dei valori è importante per calcolare la Deviazione Standard dei gruppi:

 


STDDEV:
Per una popolazione finita con probabilità uguali in tutti i punti, abbiamo:

 

Ciò significa che la deviazione standard è pari alla radice quadrata della differenza tra la media dei quadrati dei valori e il quadrato del valore medio.

 .
 .

Note modifica

  1. ^ a b Markus Winand, Big News in Databases: New SQL Standard, Cloud Wars, and ACIDRain (Spring 2017), su dzone.com, DZone, 15 maggio 2017. URL consultato il 26 novembre 2022 (archiviato dall'url originale il 27 maggio 2017).
    «Nel dicembre 2016, l'ISO ha rilasciato una nuova versione dello standard SQL. Essa introduce nuove funzionalità come il row pattern matching, listagg, la formattazione di date e dati temporali e il supporto a JSON»
  2. ^ a b Jesus, Baquero, Almeida (2011), pp. 3–4.
  3. ^ Zhang, 2017.
  4. ^ Ing. Óscar Bonilla, MBA

Bibliografia modifica

Ulteriori letture

Voci correlate modifica

Collegamenti esterni modifica

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica