Pipeline (CPU): differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Elisione obbligatoria
correzioni di stile
Riga 1:
[[File:Nopipeline.png|thumb|upright=1.5|Esecuzione delle istruzioni in un microprocessore senza ''pipeline'']]
In [[Informatica]] la '''''pipeline'' dati''' è una tecnologia utilizzata nell'architettura [[hardware]] dei [[microprocessore|microprocessori]] dei [[computer]] per incrementare il [[throughput|''throughput'']], ovvero la quantità di [[istruzione (informatica)|istruzioni]] eseguite in una data quantità di tempo, [[calcolo parallelo|parallelizzando]] i flussi di [[Elaborazione dati|elaborazione]] di più istruzioni.
 
== Storia ==
Riga 8:
==Descrizione==
L'elaborazione di un'istruzione da parte di un processore si compone di cinque passaggi fondamentali:
# '''IF''' (''Instructioninstruction Fetchfetch''): Letturalettura dell'istruzione da [[memoria (informatica)|memoria]];
# '''ID''' (''Instructioninstruction Decodedecode''): Decodificadecodifica istruzione e lettura operandi da [[registro (informatica)|registri]];
# '''EX''' (''Executionexecution''): [[Esecuzione (informatica)|Esecuzioneesecuzione]] dell'istruzione;
# '''MEM''' (''Memorymemory''): Attivazioneattivazione della memoria (solo per certe istruzioni);
# '''WB''' (''Writewrite Backback''): Scritturascrittura del risultato nel registro opportuno;
Praticamente ogni CPU in commercio è gestita da un [[clock]] centrale e ogni operazione elementare richiede almeno un ciclo di clock per poter essere eseguita. Le prime CPU erano formate da un'unità polifunzionale che svolgeva in rigida sequenza tutti e cinque i passaggi legati all'elaborazione delle istruzioni. Una CPU classica richiedeva quindi almeno cinque cicli di clock per eseguire una singola istruzione.
 
Con il progresso della tecnologia si è potuto integrare un numero maggiore di [[transistor]] in un microprocessore e quindi si sono potute [[calcolo parallelo|parallelizzare]] alcune operazioni riducendo i tempi di esecuzione. La pipeline dati rappresenta la massima parallelizzazione del lavoro di un microprocessore.
[[File:Fivestagespipeline.png|thumb|upright=1.2|Esecuzione delle istruzioni in un microprocessore con ''pipeline'']]
Una CPU con ''pipeline'' è composta da cinque stadi specializzati, capaci di eseguire ciascuno un'operazione elementare di quelle sopra descritte. La CPU lavora come in una catena di montaggio cioè ad ogni stadio provvede a svolgere in maniera sequenziale un solo compito specifico per l'elaborazione di una certa istruzione. Quando la catena è a regime, ad ogni ciclo di clock dall'ultimo stadio esce un'istruzione completata. Nello stesso istante ogni unità sta però elaborando in parallelo i diversi stadi di successive altre istruzioni. In sostanza quindi si guadagna una maggior velocità di esecuzione a prezzo di una maggior complessità circuitale del microprocessore, che non deve essere più composto da una sola unità, ma da cinque unità che devono collaborare tra loro.
 
=== Problematiche ===
L'implementazione di una pipeline non sempre moltiplica il ''throughput'' finale. L'analisi delle problematiche legate alla gestione delle pipeline per ottenere le migliori prestazioni teoriche ricadono sotto la ricerca del [[instruction level parallelism]], il |parallelismo a livello d'di istruzione]], cioè le istruzioni che possono essere eseguite in parallelo senza creare conflitti o errori di esecuzione. Comunque le singole pipeline affrontano due problemi principalmente;
il problema legato alla presenza di istruzioni che possono richiedere l'utilizzo di risorse (dati o registri) non ancora disponibili e il problema legato alla presenza di salti condizionati.
*Il primo problema deriva dal lavoro parallelo delle unità.
Riga 28:
La prima istruzione deve prelevare i numeri contenuti nelle variabili A e B, sommarli e porli nella variabile C. La seconda istruzione deve prelevare il valore contenuto nella variabile C, sottrarlo di uno e salvare il risultato in D. Ma la seconda istruzione non potrà essere elaborata (EX) fino a quando il dato della prima operazione non sarà disponibile in memoria (MEM) e quindi la seconda operazione dovrà bloccarsi per attendere il completamento della prima e quindi questo ridurrà il throughput complessivo. Questo problema può essere attenuato facendo in modo che i dati elaborati dalla prima istruzione siano resi disponibile alla seconda istruzione prima del solo salvataggio definitivo in memoria. Questo si ottiene inserendo dei registri temporanei nell'unità di esecuzione dove salvare dati che serviranno all'istruzione successiva. Un problema simile è quando due istruzioni utilizzano gli stessi registri per operare. In questo caso si utilizza la [[rinominazione dei registri]], una tecnica che elimina la maggior parte degli stalli.
*Il secondo problema consiste nei salti condizionati.
I programmi contengono delle istruzioni condizionate che se una specifica condizione logica è verificata provvedono a interrompere il flusso sequenziale del programma e a mandare in esecuzione un altro pezzo di programma indicato dall'istruzione di [[salto (informatica)|salto]]. Ogni volta che questo accade il microprocessore si trova a dover eseguire un nuovo flusso di operazioni e quindi deve svuotare la pipeline del precedente flusso e caricare il nuovo flusso. Ovviamente queste operazioni fanno sprecare cicli di clock e quindi deprimono il throughput. Per ridurre questo problema le CPU adottano delle unità chiamate [[Predizione delle diramazioni|unità di predizione delle diramazioni]] (in inglese ''Branch Prediction Unit'') che fanno delle [[Esecuzione speculativa|previsioni sul flusso del programma]]. Queste unità riducono notevolmente i cicli persi per i salti.
 
=== Evoluzioni ===
Riga 35:
 
L'aumento degli stadi delle pipeline porta o permette un aumento della frequenza di clock, infatti spezzettando le singole operazioni necessarie per completare un'istruzione in tante sotto operazioni si può elevare la frequenza della CPU dato che ogni unità deve svolgere un'operazione più semplice e quindi può impiegare meno tempo per completare la sua operazione. Questa scelta di progettazione consente effettivamente di aumentare la frequenza di funzionamento delle CPU, ma rende critico il problema dei salti condizionati. In caso di un salto condizionato non previsto il Pentium 4 per esempio può essere costretto a svuotare e ricaricare una pipeline di 30 stadi perdendo fino a 30 cicli di clock contro una classica CPU a pipeline a 5 stadi che avrebbe sprecato nella peggiore delle ipotesi 5 cicli di clock.<br />
Inoltre l'aumento della [[Clock|frequenza di clock]] non è sempre proporzionale all'aumento di prestazioni, in quanto deve essere associata alla lunghezza della pipeline: a parità di pipeline, un aumento di frequenza porta un aumento di prestazioni; a parità di frequenza, pipeline più corte portano ad un aumento di prestazioni. L'aumento della frequenza porta però anche ad un aumento del consumo energetico e minore efficienza di calcolo.
 
La sempre maggior richiesta di potenza di calcolo ha spinto le industrie produttrici di microprocessori a integrare in un unico [[Circuito integrato|chip]] più microprocessori (architetture a [[multiprocessore]]). Questa strategia consente al [[computer]] di avere due CPU separate dal punto di vista logico, ma fisicamente risiedenti nello stesso chip. Questa strategia progettuale attenua i problemi di coerenza e di predizione dei salti. Infatti ogni CPU logica esegue un programma separato e quindi tra i diversi programmi non si possono avere problemi di coerenza tra le istruzioni. Questa scelta progettuale aumenta le prestazioni solo nel caso in cui il [[sistema operativo]] sia in grado di gestire/utilizzare più programmi contemporaneamente o in caso di un solo programma attivo se questo risulta scritto per poter utilizzare tutte le CPU disponibili, cioè se i programmi sono [[calcolo parallelo|parallelizzabili]].