Care este tabelul de cod

Figura 1 prezintă simbolurile incluse în standard (în limba engleză) și extinsă (rusă) codarea ASCII.

Prima jumătate a tabelului ASCII este standardizat. Acesta conține coduri de control (de la 00h la 20h și 77H). Aceste coduri sunt eliminate din tabel, deoarece acestea nu se aplică în text elemente. Aici sunt plasate semne de punctuație și semne matematice: 2LH -. 26h - , 28h - (, 2BH - + litere mari și mici :. 41h - A, 61h - o.







A doua jumătate a tabelului conține fonturi naționale, personaje de desen, din care pot fi construite din tabel, simboluri matematice speciale. Partea de jos a tabelului de codificare pot fi schimbate folosind driverele adecvate - programe de sprijin de control. Această tehnică permite utilizarea mai multor fonturi și caractere.

fiecare cod de caractere de afișare ar trebui să afișeze imaginea simbol - cod nu doar digital și imaginea sa corespunzătoare ca fiecare personaj are propria forma sa. Descriere forma fiecare caracter este stocat într-o memorie a ecranului - generator de caractere. Se afișează pe display simbolul IBM PC, de exemplu, prin intermediul unor puncte care formează o matrice de caractere. Fiecare pixel dintr-o astfel de matrice este un element al imaginii și poate fi luminoase sau întunecate. punct întunecat este codat 0, luminos (luminos) - 1. Dacă în matricea reprezintă câmpul de pixeli negri marcați punctul și lumină - o stea, puteți portretiza o formă caracter grafic.

Oamenii din diferite țări folosesc caractere pentru a înregistra cuvintele limbii materne, limba este. În prezent cele mai multe aplicații, inclusiv sisteme de e-mail și browsere web, sunt pur și simplu pe 8 biți, adică, ele pot afișa și în mod corect percepe doar caractere de 8 biți, în conformitate cu standardul ISO-8859-1.

Există mai mult de 256 de caractere din lume (dacă luăm în considerare chirilică, arabă, chineză, japoneză, coreeană și Thai) și există mai multe și mai multe caractere noi. Și creează următoarele lacune pentru mulți utilizatori:

Nu puteți utiliza caractere de diferite codificări în același document. Din moment ce fiecare document text care utilizează propriul set de codificări, atunci există mari dificultăți cu recunoaștere automată a textului.

Există personaje noi (de exemplu, Euro), având ca rezultat ISO este în curs de dezvoltare un nou standard ISO-8859-15, care este foarte similar cu standardul ISO-8859-1. Diferența este următoarea: din vechile simboluri standard de codare-ISO 8859-1 se referă la masa monedelor vechi au fost eliminate, care nu este utilizată în prezent, pentru a face loc pentru caractere noi (cum ar fi Euro). Ca rezultat, utilizatorii pot sta pe discurile sunt aceleași documente, dar în diferite codificări. Solutia la aceste probleme este adoptarea unui set internațional de codificări, care se numește codificarea universală sau Unicode.







Standardul este format din două secțiuni principale: (. UTF limba engleză, format Unicode transformare) Set universal de caractere (. Engleză UCS, set de caractere universal) și familia codificări. Setul de caractere universal specifică o corespondență de coduri simboluri - cod spațiu de element, care reprezintă numere întregi non-negative. Familia de codificări specifică un UCS secvențe de cod mașină.

Standardul Unicode a fost conceput pentru a crea o singură codificare a caracterelor pentru toate limbile moderne și multe vechi scrise. Fiecare caracter este codificat în standardul de 16 biți, ceea ce îi permite să captureze mult mai multe caractere decât folosind codificarea anterioară de 8-biți. O altă distincție importantă din alt sistem de codificare Unicode este că acesta nu numai că atribuie fiecare caracter un cod unic, dar, de asemenea, determină diferitele caracteristici ale personajului, de exemplu:

tipul de caractere (litere mari, litere mici, cifre, semne de punctuație, etc.);

atributele de caractere (afișare de la stânga la dreapta sau de la dreapta la stânga, spațiu, pauze de linie, etc.);

majuscule sau minuscule corespunzătoare (pentru litere majuscule și minuscule, respectiv);

valoare numerică corespunzătoare (caractere digitale).

Intreaga gama a codurilor de la 0 la FFFF este împărțit într-un număr de subseturi standard, fiecare dintre acestea corespunzând unui alfabet al unei limbi sau a unui grup de caractere speciale, care sunt similare în funcție. Diagrama de mai jos prezintă o listă generală a subseturi de Unicode 3.0 (Figura 2).

Care este tabelul de cod

Standardul Unicode este baza pentru stocarea și textul multor sisteme informatice de astăzi. Cu toate acestea, nu este compatibil cu majoritatea protocoalelor Internet, deoarece coduri pot conține valori de octet, iar protocoalele sunt utilizate în mod obișnuit octeți 00 - 1F și FE - FF ca un serviciu. mai multe formate de conversie Unicode au fost proiectate pentru compatibilitate (UTFs, Unicode Formate de transformare), dintre care astăzi cele mai comune este UTF-8. Acest format definește următoarele reguli de transformare fiecare cod Unicode set în octeți (o-trei) potrivit pentru transportul protocoale Internet.

cod binar de caractere

1110xxxx 10yyyyyy 10zzzzzz

Aici, x, y, z reprezintă biții de sursă care urmează să fie recuperate de la cel mai mic, și a intrat în octeții de rezultatul de la dreapta la stânga, până când toate aceste poziții sunt ocupate.

Astfel, există 4 octeți de bază metoda de codare în format Unicode:

UTF-8: 128 de caractere sunt codificate într-un singur octet (format ASCII) 1920 simboluri codificate cu 2 octeți ((romane, grecești, chirilice, coptă, armeană, ebraică, caractere arabe) 63488 simboluri sunt codificate de 3 octeți (chineză, japoneză et al.) Cele 2,147,418,112 caractere rămase (nu este utilizat) poate fi codificat de 4, 5 sau 6 octeți.

UCS-2: Fiecare caracter este reprezentat de 2 octeți. Această codificare include doar primele 65,535 simbolurile din formatul Unicode.

UTF-16: este o extensie a UCS-2, inclusiv 1,114,112 de caractere Unicode format. Primele 65.535 simboluri sunt reprezentate cu 2 octeți, iar restul - cu 4 octeți.

USC-4: Fiecare caracter este codificat de 4 octeți.