Представителство в компютъра текстова информация - studopediya

Компютърна всеки текст - е линейна последователност от символи. И това не е просто обикновени герои, но и пространствата между думите, както и други специални знаци: прехода към следващия ред, преходът към следващата страница и т.н. Всеки символ на последователността съответства на специфична двоичен код.

За да прехвърлите информация от компютър представителство на човешките съществено значение за кодиране на знаците таблици - таблица за съответствие между символите на определен език и символни кодове. Те се наричат също кодови страници (код на страницата, или съкр. CP), известен като английски термин набор символи (понякога съкратен до CHARSET).

Най-известната маса кодирането е ASCII код - American Standard Code за информационен обмен. Той първоначално е бил предназначен за предаване чрез телеграфни текстове и в момента той е 7-битов, т. Е. За кодирането на английски характер, сервизни и контролни знаци използва само 128 semibitovyh комбинации. При разработването на първите компютри на IBM, този код се използва за представяне на символи в компютъра. Тъй като ASCII изходния код е бил само 128 символа, за да ги кодира достатъчно стойности байтове (на осмия бит свежда до нула). Списъкът на тези герои и съответните им осем-битова версия (т.е.. Д. Състоящ се от осем двоични цифри) двоични файлове са основната (основен) код ASCII таблицата.

Когато те започнаха да се адаптира към други компютри страни и езици, място за нови герои вече не е достатъчно. За да се поддържа напълно добавянето на английски и други езици, IBM въвежда използването на няколко кодови таблици, специфични за страната. Таблица 864 (арабски), Израел - - маса 862 (Израел) и т.н. В таблиците с кодовете на втората половина на набора от символи (т.е., така че да се скандинавски маса 865 (Nordic), арабските страни са предложени .. . тези, за които осмия бит е един) е бил използван за представяне на героите на националните азбуки (с изключение на някои псевдо-символи). набор от знаци вариант се използва в САЩ и повечето европейски страни, наречена кодова страница 437 (CP437).

Очевидно е, че замяната характер през втората половина на кодовата таблица може да се направи по различни начини. В България исторически, че на български език, има няколко различни алтернативни кодиране маси кирилица: KOI8-R, IBM CP866, cp1251, ISO-8551-5. Всички те изобразяват същите герои от първата половина на таблицата (0-127) и различното представяне на знака от българската азбука и псевдо.

Алтернативен кодиране - на базата на CP437 кодовата страница, където всички специфични европейски герои през втората половина се заменят с кирилицата, оставяйки Pseudographic герои непокътнати. В резултат на това не се разваля програмите за да видите, използвайки за текстови полета, а също така осигурява използването на кирилица. Алтернативен кодова таблица, наречена IBM CP866 кодиране, където е добавена поддръжка на MS-DOS версия 6.22. Това кодиране се използва в конзолата Russified Windows NT семейни системи.

Таблица. 4.4 и 4.5 за всеки символ посочва своя знак код, ред и колона дава код шестнадесетичен. Пример: символа "I" е код 15910 и 9F16

Таблица 4.4. Алтернативен набор от символи (CP866)

Представителство в компютъра текстова информация - studopediya

Таблица 4.5. Windows (CP1251) кодова таблица

Пример 4.6. Така тя ще изглежда като думата "наука" в различни кодировки в шестнайсетична система:

Page генерирана за: 0.002 сек.