Capitolul 20

Prezentare generală

Alfabet de 256 de caractere este suficient de extinsă pentru a conține litere (majuscule și minuscule) pentru o pereche de limbi europene, numere, set domnilor de punctuatie, iar altceva pe lucrurile mici.







standarde obligatorii care ar stabili o astfel de corespondență.

Tabelul 20.1. Pagina de cod ASCII (0 ‥ 127 de caractere)

Istoria chirilic (de exemplu, chirilice) pagina de cod este complex. Caracteristica lor comună este că acestea sunt umplute cu prima jumătate a anului, în conformitate cu ASCII. de ce nu sunt menționate aici.

Una dintre cele mai vechi, se pare, este un KOI8-R. născut în lumea calculatoarelor care rulează sisteme de operare Unix. Mai degrabă ciudat ordinea de litere chirilice are o explicație. Vă rugăm să rețineți că dimensiunea de caractere ASCII suficient de șapte biți. Cu alte cuvinte, toate -Symbols ASCII codificat cu octet 0 ******* formă. Instalarea biți fac obiectul unui dumping din stânga în acest octet este echivalent cu adăugarea de 128 la numerele de cod. Această adăugare are același efect ca și impunerea jumătatea superioară a tabelului de cod pe partea de jos. Pe de altă parte, în scădere acest bit schimbă fiecare simbol din tabelul de până la 8 linii.

În zilele de demult, când octeții nu sunt opt ​​și șapte biți (bit din stânga este folosit pentru a controla erori în transmiterea informațiilor între sistemele informatice), simboluri ale jumătatea de jos a paginii ar putea pierde bitul din stânga râvnit. KOI8-R garanția de codificare că acest text va rămâne mai mult sau mai puțin ușor de citit. De exemplu, atunci când deteriorarea pagina de cod text va kODOWAQ stranica.







In pagina de cod KOI8-R sunt versiunea ucraineană a KOI8-U. precum și versiunea KOI8-C cu literele pre-reformă din România (yatyami, fitami, Izhitsa), litere și limbi balcanice cu o grafică chirilice.

Tabelul 20.3. Cod Pagina KOI8-R (a doua jumătate; simboluri 128 ‥ 255)

pagina de cod CP866. care este, de asemenea, numit alternativa de codificare GOST. A devenit larg răspândită în țara noastră pe computerele care rulează Microsoft DOS. Există, de asemenea, a fost o așa numită codificare GOST miez. dar ea nu este larg răspândită, precum și codificarea ISO8859-5. propusă de organizația ISO pentru a sprijini alfabetul chirilic.

Noi CP866 codificări au mai puține probleme cu ordinea alfabetică (dacă nu vorbim despre suferința scrisoarea Oo. Și caractere specifice și alfabete belorumynskogo din Ucraina). Cu toate acestea, există o diferență nefericită între literele n și p. umplut cu pictograme pentru desen cadre.

Tabelul 20.4. Pagina de cod CP866 (a doua jumătate, simboluri 128 ‥ 255)

Se pare că cea mai perfectă pagina de cod CP1251. propus de Microsoft pentru a fi utilizate în sistemul de operare Microsoft Windows.

Tabelul 20.5. Pagina de cod CP1251 (a doua jumătate, simboluri 128 ‥ 255)

Problemele asociate cu pagini de cod

Abundența de diferite pagini de cod cauzează probleme atunci când transferul de texte între diferite sisteme informatice.

Pentru fiecare text transmis este necesar pentru a face informațiile care însoțesc despre pagina de cod utilizat.

Datorită faptului că diferite codificări pot conține diferite seturi de caractere, procesul de re-codificare nu este întotdeauna bine definit. De exemplu, simbolul - (cratimă lungă) este disponibil în CP1251 și absentă în pagina de cod CP866. Ce ar trebui să se întâmple când transcodarea cu acest simbol?

În cele din urmă, dimensiunea redusă a paginii de cod sau imposibil pentru noi de a utiliza un singur text toate varietate de caractere, inventat de omenire. De exemplu, nici unul dintre descrise în secțiunea anterioară, pagina de cod chirilic nu permite să scrie următorul text:

Urât, dar necesar