KOI8-U

KOI8-U è un sistema di codifica di caratteri a 8-bit progettato per essere adoperato con l'ucraino, lingua che utilizza l'alfabeto cirillico. Il KOI8-U, il cui nome sta per Kod Obmena Informaciej, 8 bit (in russo Код Обмена Информацией, 8 бит, Codice per lo scambio di informazioni, 8 bit), è basato sul KOI8-R, sistema di codifica basato sull'originale KOI8 e progettato per l'utilizzo con il russo e con il bulgaro, di cui sostituisce otto caratteri grafici con quattro lettere ucraine nelle loro versioni maiuscola e minuscola: Ґ, Є, І e Ї.

Il KOI8 ed il CP-1251, un altro sistema di codifica di caratteri per le lingue che utilizzano l'alfabeto cirillico, sono ancora molto più utilizzati dell'ISO 8859-5, che in effetti non ha mai trovato grande utilizzo, anche se oggi, ormai, nella stragrande maggioranza degli utilizzi moderni, viene loro preferito l'Unicode.

Il KOI8 ed i sistemi da lui derivati hanno la particolarità di avere le lettere cirilliche disposte in ordine pseudo-latino piuttosto che nel comune ordine dell'alfabeto cirillico come hanno per esempio l'ISO 8859-5 e l'Unicode. Sebbene questo possa sembrare anti intuitivo, questa caratteristica risulta utile per il fatto che se l'ottavo bit viene eliminato, il testo è parzialmente leggibile utilizzando il sistema ASCII e può essere convertito in un testo in KOI7 sintatticamente corretto. Per esempio se dalla scritta in KOI8-U "Русский Текст" viene eliminato l'ottavo bit, essa diventa rUSSKIJ tEKST ("Testo russo") ed un tentativo di interpretare tale stringa con il KOI7 porta a "РУССКИЙ ТЕКСТ". Il KOI8 fu creato basandosi sul codice Morse russo (che a sua volta fu creato dal codice Morse internazionale basandosi sulle assonanze) e la connessione riguardante l'ordine delle lettere tra il codice Morse russo e quello internazionale è la stessa che esiste tra il KOI8 e l'ASCII.

Nel sistema operativo Microsoft Windows, il numero di code page assegnato al sistema KOI8-U è 21866, nei sistemi di IBM è invece il numero 1186.^[1]

Tabella modifica

La seguente tabella mostra il sistema di codifica KOI8-U.^[1] Ogni carattere è rappresentato al centro della cella con il suo equivalente Unicode in alto e il suo codice decimale in basso.

Legenda
	Caratteri di controllo		Punteggiatura
	Cifre numeriche		Caratteri alfabetici
	Caratteri internazionali		Caratteri non definiti
	Caratteri grafici		Punteggiatura estesa

KOI8-U
	-0	-1	-2	-3	-4	-5	-6	-7	-8	-9	-A	-B	-C	-D	-E	-F
0-	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
1-	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31
2-	0020 SP 32	0021 ! 33	0022 " 34	0023 # 35	0024 $ 36	0025 % 37	0026 & 38	0027 ' 39	0028 ( 40	0029 ) 41	002A * 42	002B + 43	002C , 44	002D - 45	002E . 46	002F / 47
3-	0030 0 48	0031 1 49	0032 2 50	0033 3 51	0034 4 52	0035 5 53	0036 6 54	0037 7 55	0038 8 56	0039 9 57	003A : 58	003B ; 59	003C < 60	003D = 61	003E > 62	003F ? 63
4-	0040 @ 64	0041 A 65	0042 B 66	0043 C 67	0044 D 68	0045 E 69	0046 F 70	0047 G 71	0048 H 72	0049 I 73	004A J 74	004B K 75	004C L 76	004D M 77	004E N 78	004F O 79
5-	0050 P 80	0051 Q 81	0052 R 82	0053 S 83	0054 T 84	0055 U 85	0056 V 86	0057 W 87	0058 X 88	0059 Y 89	005A Z 90	005B [ 91	005C \ 92	005D ] 93	005E ^ 94	005F _ 95
6-	0060 ` 96	0061 a 97	0062 b 98	0063 c 99	0064 d 100	0065 e 101	0066 f 102	0067 g 103	0068 h 104	0069 i 105	006A j 106	006B k 107	006C l 108	006D m 109	006E n 110	006F o 111
7-	0070 p 112	0071 q 113	0072 r 114	0073 s 115	0074 t 116	0075 u 117	0076 v 118	0077 w 119	0078 x 120	0079 y 121	007A z 122	007B { 123	007C \| 124	007D } 125	007E ~ 126	127
8-	2500 ─ 128	2502 │ 129	250C ┌ 130	2510 ┐ 131	2514 └ 132	2518 ┘ 133	251C ├ 134	2524 ┤ 135	252C ┬ 136	2534 ┴ 137	253C ┼ 138	2580 ▀ 139	2584 ▄ 140	2588 █ 141	258C ▌ 142	2590 ▐ 143
9-	2591 ░ 144	2592 ▒ 145	2593 ▓ 146	2320 ⌠ 147	25A0 ■ 148	2219 ∙ 149	221A √ 150	2248 ≈ 151	2264 ≤ 152	2265 ≥ 153	00A0 NBSP 154	2321 ⌡ 155	00B0 ° 156	00B2 ² 157	00B7 · 158	00F7 ÷ 159
A-	2550 ═ 160	2551 ║ 161	2552 ╒ 162	0451 ё 163	0454 є 164	2554 ╔ 165	0456 і 166	0457 ї 167	2557 ╗ 168	2558 ╘ 169	2559 ╙ 170	255A ╚ 171	255B ╛ 172	0491 ґ 173	255D ╝ 174	255E ╞ 175
B-	255F ╟ 176	2560 ╠ 177	2561 ╡ 178	0401 Ё 179	0404 Є 180	2563 ╣ 181	0406 І 182	0407 Ї 183	2566 ╦ 184	2567 ╧ 185	2568 ╨ 186	2569 ╩ 187	256A ╪ 188	0490 Ґ 189	256C ╬ 190	00A9 © 191
C-	044E ю 192	0430 а 193	0431 б 194	0446 ц 195	0434 д 196	0435 е 197	0444 ф 198	0433 г 199	0445 х 200	0438 и 201	0439 й 202	043A к 203	043B л 204	043C м 205	043D н 206	043E о 207
D-	043F п 208	044F я 209	0440 р 210	0441 с 211	0442 т 212	0443 у 213	0436 ж 214	0432 в 215	044C ь 216	044B ы 217	0437 з 218	0448 ш 219	044D э 220	0449 щ 221	0447 ч 222	044A ъ 223
E-	042E Ю 224	0410 А 225	0411 Б 226	0426 Ц 227	0414 Д 228	0415 Е 229	0424 Ф 230	0413 Г 231	0425 Х 232	0418 И 233	0419 Й 234	041A К 235	041B Л 236	041C М 237	041D Н 238	041E О 239
F-	041F П 240	042F Я 241	0420 Р 242	0421 С 243	0422 Т 244	0423 У 245	0416 Ж 246	0412 В 247	042C Ь 248	042B Ы 249	0417 З 250	0428 Ш 251	042D Э 252	0429 Щ 253	0427 Ч 254	042A Ъ 255
	-0	-1	-2	-3	-4	-5	-6	-7	-8	-9	-A	-B	-C	-D	-E	-F

Nella tabella soprastante, il corrispettivo del codice Unicode 20 è il carattere spazio mentre del codice Unicode A0 è lo spazio unificatore.

Le differenze dal KOI8-R consistono nelle posizioni 0xA4; 0xA6; 0xA7; 0xAD; and 0xB4; 0xB6; 0xB7; 0xBD; occupate da lettere che non compaiono nella lingua russa.

Anche se l'RFC 2319^[2] dice che il carattere in posizione 0x95 ha corrispettivo Unicode U+2219 (∙), esso può anche avere U+2022 (•) in modo da farlo coincidere con il carattere punto elenco del Windows-1251.

Alcune versioni riportate contengono un errore circa il carattere in posizione 0xB4, a cui viene assegnato il codice Unicode U+0403 piuttosto che il corretto U+0404. Un esempio di questo si trova nall'appendice A dell'RFC 2319 (la tabella nel testo principale riporta comunque il codice corretto).

Note modifica

^ ^a ^b CPGID 01186 - Code page identifiers, su www-01.ibm.com, IBM. URL consultato il 16 novembre 2016 (archiviato dall'url originale il 18 febbraio 2017).
^ RFC 2319 - Ukrainian Character Set KOI8-U, su tools.ietf.org, aprile 1998. URL consultato il 17 novembre 2016.

Voci correlate modifica

Collegamenti esterni modifica

Universal Cyrillic decoder, Un'applicazione online che può aiutare nel recupero di testi illeggibili in cirillico creati con il sistema di codifica KOI8-U.
Una breve storia dei sistemi di codifica per il cirillico
IBM CDRA

Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica

[IBM-1] CPGID 01186 - Code page identifiers, su www-01.ibm.com, IBM. URL consultato il 16 novembre 2016 (archiviato dall'url originale il 18 febbraio 2017).

[2] RFC 2319 - Ukrainian Character Set KOI8-U, su tools.ietf.org, aprile 1998. URL consultato il 17 novembre 2016.

[1]

[2]