Encoding IT дайре

Като цяло, кодиране или набор от символи. - тази кореспонденция между подмножество на целите числа (обикновено поредна) и определен набор от знаци. Ключът тук е концепцията за характера. Герой може да бъде писмо (или не може) да бъде, може да настроите звука на речта (или може да не съвпадат) и може да бъде представляван от графичен знак (но може да се направи без каквато и да е видимо изображение). Символът - чувство атом, най-малката неделима частица на информацията.

По този начин, "A" на кирилица и латиница, "A" - те са различни герои, защото те се използват в различен контекст и да различна информация.

Изключително важно за кодиране е сумата, покрита от код и по този начин знаци. Тъй като текстовете се съхраняват в компютъра като последователност от байтове, повечето кодировки естествено попадат в един байт, или осем-битова способна да кодира не повече от 256 герои и двубайтовите или shestnadtsatibitnye чийто капацитет може да достигне до 65 636 фамилиарност.

ASCII - преди да преминат към кодиране на осем-битови, че е необходимо да кажа няколко думи за кодиран по име ASCII (American Standard Code за информационен обмен) - кодирано като осем но обхващащ само 128 знака и затова се задоволяват със седем значими бита (старши, на осмия бит, докато винаги е равна на нула). Значението на това кодиране, включително латинската азбука, цифрите и основен пунктуация, е необичайно голям: почти никой друг (голям размер) кодове са съвместими с него, т.е. пост на първия си 128 фамилиарност са едни и същи герои в един и същи начин ...

KOI8. Хронологично, един от първите български букви стандарти за кодиране е KOI8 компютри ( "код за обмен на информация, на 8-битов"). Това кодиране се използва в праисторически съветско време за ES EVM компютри, а когато в средата на 80-те години се появява първият руски версия на операционната система UNIX, са наследили това кодиране от техните "предци". В резултат на това KOI8 в момента е един от най-кодировки, които трябва да поддържат някакъв руски уеб-страница.

Windows-1251. Вторият най-важен в българското Интернет (и, разбира се, първият от upotrebimo на персонални компютри) кодиране - стандартна кирилица Microsoft Windows, съкратено SR1251 ( "CP" означава "Кодекс", "код на страницата"). Всички -дограма- приложения, които работят с български език, трябва да разберат това кодиране без превод. Благодарение на разпространението на Windows кодиране SR1251, с KOI8 влиза абсолютния минимум на кодировки, които трябва да поддържат сайта на руски език.

Семейство от 8859. Latin-1. Подобна е ситуацията и с конкурентни платформи и операционни системи, както и, като следствие, с конкурентни несъвместими кодиране се наблюдава и на други езици, като използва собствената си азбука или латиница с разширения. Международната организация по стандартизация (Международната организация по стандартизация, ISO) се опита да въведе ред на осем-битова кодиране, създавайки поредица от ISO 8859 кодови таблици, които се простират таблицата ASCII за латински букви с диакритични знаци и лигатури (кодиране ISO 8859-1), кирилица (ISO 8859-5), арабски (ISO 8859-6), гръцки (ISO 8859-7), както и други азбуки.

Ако кодирането ISO 8859-5 за кирилица не е хванал, първият от тази серия - кодиране ISO 8859-1, известен също като Latin-1 - е успял да се превърне в приетите стандарти за кодиране "разширяване" на латинската азбука. В този кодиране тя включва почти всички герои, се използва при писане на западноевропейските езици - френски, немски, испански, и т.н.

Изпълнение на Unicode е довело до промяна в подхода към традиционния 8-битово кодиране. Ако зададете кодирането на шрифта се използва за, но сега тя се дава от таблица на съответствието между това кодиране и Unicode. В действителност, 8-битово кодиране се обърна към представянето на подмножество на Unicode. Тя е много по-лесно да се създаде програми, които трябва да работят с много различни кодировки: Сега, за да добавите поддръжка за друго кодиране, просто трябва да се добави още една реализация на маса за Unicode.

В близко бъдеще все по-важна роля специален формат на Unicode (и ISO 10646), наречена UTF-8. Тази "производно" кодиране използва символи да напише байта вериги с различна дължина (от един до шест), които с помощта на прост алгоритъм превръща Unicode- кодове, и по-често използваните символи съответства на по-къси вериги. Основното предимство на този формат - един ASCII съвместими не само от стойностите на кода, но също така и по броя на бита в символ, за да се кодират всеки от първите 128 знака в UTF-8 само един байт (въпреки че, например, за кирилица трябва да имат два байт).

Следващите таблици се отнасят до кода, използван за обозначаване на кодиране на уеб-страницата на символите:

прозорци-1251 - Windows кирилица

KOI8-R - Encoding KOI8 за български език