ASCII esteso

codifica a 8 bit o più

Il termine ASCII esteso (in inglese extended ASCII o high ASCII) designa una codifica a 8 bit o più, in grado di rappresentare molti altri caratteri oltre ai tradizionali 128 dell'ASCII a 7 bit.

L'utilizzo di questo termine è stato spesso criticato in quanto potrebbe lasciar intendere (erroneamente) che l'ASCII sia stato aggiornato o che si tratti della stessa codifica.

Storia modifica

  Lo stesso argomento in dettaglio: Unicode.

Una nuova codifica chiamata Unicode fu sviluppata nel 1991 per poter codificare più caratteri in modo standard e permettere di utilizzare più set di caratteri estesi (es. greco e cirillico) in un unico documento; questo set di caratteri è oggi largamente diffuso.

Inizialmente prevedeva 65.536 caratteri (code points) ed è stato in seguito esteso a 1.114.112 (= 220 + 216) e finora ne sono stati assegnati circa 101.000. I primi 256 code point ricalcano esattamente quelli dell'ISO 8859-1. La maggior parte dei codici sono usati per codificare lingue come il cinese, il giapponese ed il coreano.

I motivi alla base modifica

Poiché il numero dei simboli usati nelle lingue naturali è di molto più grande dei caratteri codificabili col vecchio ASCII è stato necessario espanderne il set di codifica. Negli anni nei paesi che non utilizzano l'alfabeto latino (o comunque caratteri non presenti nel set ASCII), come i paesi dell'estremo oriente o nel mondo slavo, sono nati metodi di codifica per i caratteri non-standard afflitti però da seri problemi di compatibilità verso gli altri set.

Poiché la codifica ASCII utilizza 7 bit molti dei set di estensione usavano i 128 caratteri aggiuntivi codificabili usando l'ottavo bit disponibile in ogni byte.

Estensioni proprietarie modifica

Varie estensioni proprietarie nacquero sui mainframe non-EBCDIC e sui mini-computer, specialmente nelle università. La Commodore ad esempio aggiunse molti simboli non-ASCII alla sua codifica denominata PETSCII, basata sullo standard originario del 1963. L'IBM introdusse una codifica a 8 bit sui suoi IBM PC con varianti per i diversi paesi. L'IBM produsse codifiche ASCII-compatibili, poiché i primi 128 caratteri del set mantenevano il valore originario (US-ASCII), le varie codifiche vennero divise in pagine (code page).

ISO 8859 e adattamenti proprietari modifica

In seguito al proliferare di codifiche proprietarie, l'ISO rilasciò uno standard denominato ISO 8859 contenente un'estensione a 8 bit del set ASCII. Il più importante fu l'ISO 8859-1, detto anche Latin1, contenente i caratteri per i linguaggi dell'Europa Occidentale. Furono standardizzate codifiche per gli altri linguaggi: ISO 8859-2 per i linguaggi dell'Europa Orientale, ISO 8859-5 per i caratteri cirillici e molti altri.

Una particolarità dell'ISO 8859 rispetto agli altri caratteri estesi è che i caratteri dal 128 al 159, i cui 7 bit più bassi corrispondono ai caratteri di controllo ASCII, non sono usati per non creare problemi di compatibilità. Microsoft successivamente creò la code page 1252, un set compatibile con l'ISO 8859-1 che riempie anche questi 32 caratteri, che divenne lo standard per le versioni europee di Windows.

Voci correlate modifica

Altri progetti modifica

Collegamenti esterni modifica

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica