Sisteme de codificare - studopediya

Codificare text este stabilirea unui tabel de corespondență între simbolul de codare și combinația de biți de stare, care este, procesul de codificare este că fiecare caracter este atribuit un cod unic. În prezent, există diferite sisteme de codificare, principala diferență dintre ele este numărul de biți necesari pentru a codifica un simbol.







· ASCII (American Standard Code pentru schimbul de informații): informații cantitate utilizată = 7 biți pentru codificarea unui simbol. (. A se vedea curs 1) Dacă luăm în considerare caracterele ca evenimente posibile, putem calcula numărul de caractere ce pot fi codificate:

Astfel, numărul de simboluri codificate este limitat, astfel încât în ​​șapte biți sistem de codificare, este imposibil de a codifica litera a alfabetului românesc. Problema a apărut în același timp, să reprezinte și română, și caractere latine. Modalități de rezolvare a acestei probleme este o transliterare și extinderea codificare.

· Sistemul de codificare opt biți:

Dacă codul MSB-0, sistemul de codare coincide cu ASCII, în cazul în care MSB -1, introduce suplimentar pagina codurile-uri.

În România, a fost stabilit un astfel de sistem KOI-8, dezavantaj este faptul că scrisorile din România nu sunt alfavitu.Krome că există CP-866, CP-1251, ANSI, utilizat în sistemul de operare Windows.

· Pagini de cod de mari dimensiuni:

Codificarea un simbol nevoie de 16 biți

în mod natural cu sistemul de codificare este nici o problema de imposibilitatea de codificare a unui simbol, ca excesul de 65535 se referă la varietatea de caractere folosite, dar UNICODE are un alt defect în traducerea textelor din ASCII în UNICODE crește semnificativ dimensiunea textului calculatorului. În acest sens, ea a dezvoltat o altă clasă de sisteme de codificare, folosind un număr variabil de biți pentru codificarea caracterelor.







Dacă cel mai semnificativ bit al codului este zero (bit8 = 0), sistemul de codificare coincide cu ASCII, în care fiecare dintre primele 128 de simboluri este codificat într-un singur octet.
Dacă un senior este egal cu una (1 = bit8, Bit7 = 0), următoarele 16384 caractere sunt codificate în mod similar cu UNICODE, adică pentru fiecare codare de caractere utilizează doi octeți. caractere rămase (65535-128-16384 = 49023) sunt codificate de trei octeți.

Exemplu: Luați în considerare cât de multe informații are un șir de caractere „Informații × - × Informații“
în diferite sisteme de codificare. În cazul SR1251 fiecare caracter este codificat într-un octet Þ cantitatea de informații: 24 * 1 = 24 octeți. In UNICODE, fiecare caracter este codificat în doi octeți Þ cantitatea de informații: 24 * 2 = 48 octeți. În codificarea UTF-8 de litere, spații și cratimele trebuie să fie un octet pentru fiecare caracter, și fiecare caracter al cuvântului „informații“ codificate în doi octeți Þ de informații: 14 * 1 + 10 * 2 = 34 octeți.

Pe de o parte, textul de calculator - l în ordine alfabetică, conform căreia textul este prezentat ca un șir de caractere (alfabetizării). O altă abordare este că textul de calculator deja considerat ca fiind o structură complexă care constă dintr-un set de șiruri de caractere.

T: - una dintre aceste lanțuri de lungime k.

Această abordare face posibilă înțelegerea algoritmului pentru transformarea textului care urmează maparea funcțional principiu, adică un singur șir de text, o parte din domeniul acestui algoritm, este asociat cu un alt lanț, care este rezultatul conversiei: ®t2 T1. În acest caz, domeniul functiei (algoritmul) va fi limba.

Gramatica limbii - acestea sunt regulile care dau naștere la toți membrii lanțului de limbă. Simbol alfabet separat - este o expresie regulată. Gramatica, construit pe expresii regulate, scrise sub forma unui program care generează un șir de caractere. Numirea expresii regulate - set set de siruri de caractere care alcătuiesc limba.