информация на кодировката на текста

Кодиране на информацията в компютъра

Всяка двоична цифра машина има количеството информация, равна на най-малко.

Този извод може да се направи като се вземат предвид данните за машина азбука са еднакво вероятни събития. Когато може да се реализира писане нули и единици, само да изберете една от двете възможни състояния, и следователно, тя има количеството информация, равна на 1 бит. Следователно, две фигури носят информация от 2 бита, четири бита и Т бита --4. Г. За да се определи количеството на информация в бита е достатъчно да се определи броя на цифрите в кода на двоичен машина.

В момента повечето от хората са с помощта на компютър процеси на текста, който се състои от символи: букви, цифри, препинателни знаци и др ..

Въз основа на информационния капацитет на една клетка от 1 бит може да кодира само две различни държави. За всеки един от героите, които могат да бъдат въведени от клавиатурата в Латинска регистър, може да получи уникален двоичен код изисква 7 бита. Въз основа на последователността на 7 бита в съответствие с формула Hartley, могат да бъдат получени от N = 7 февруари = 128 различни комбинации от нули и единици, т.е. двоични кодове. Присвояване на всеки един от героите му двоичен код, ние получаваме една маса кодиране. Човек работи герои, компютърът - техните двоични кодове.

За оформлението латински букви, като маса за кодиране е един за целия свят, така че текста, въведен с латински оформление, ще бъдат адекватно показва на всеки компютър. Тази таблица е името на ASCII (American Standard Code за обмен на информация) на английски език се произнася [ески] на руски се произнася [Асука]. По-долу е цялата ASCII таблица, в която кодове са дадени в десетичен вид. На него може да се определи, че когато въведете от клавиатурата, например, "*" характер, компютъра си получава кода на 42 (10), от своя страна, 42 (10) = 101 010 (2) - Това е двоичен код на характера "* ". Кодекси за 0-31 в тази таблица не се използват.

Таблица на ASCII символи

За да се кодира един символ се използва количеството информация на един байт, Т. Е. I = 1 байт = 8 бита. С помощта на формула, която се отнася за броя на възможните събития в размер на информация и аз, можем да изчислим колко различни знаци могат да бъдат кодирани (ако приемем, че героите - тя е на възможни събития):

К = 2, I = 2 8 и + = 256,

т. е. да представлява текстова информация можете да използвате силата на азбуката 256 знака.

Същността на кодиране е, че всеки символ е поставен в съответстваща двоичен код от 00000000 да 11111111 и съответния знак код между 0 и 255.

Трябва да се помни, че в настоящия момент за кодиране на българските букви, използвани пет различни кодови таблици (KOI - 8, SR1251, SR866, Mac, ISO), текстовете са кодирани с помощта на една маса няма да се показват правилно в различно кодиране. Интуитивно, това може да бъде представена като фрагмент на единна маса характер кодиране.

Същата двоичен код е свързано с различни знаци.

Въпреки това, в повечето случаи на преобразуване на текст документи, които потребителят не се занимава, и специални програми - конвертори, които са вградени в приложението.

Unicode включва почти всички модерната литература, в това число: арабски, арменски, бенгалски, Бирма, гръцки, грузински, деванагари, иврит, кирилица, коптски, кхмерски, латински, тамилски, Хангул, Хан (Китай, Япония, Корея), Cherokee, етиопски, японски (катакана, хирагана, канджи), и др.

В Unicode, широк набор от математически и музикални символи и пиктограми.

За символи на кирилица в диапазона Unicode на два кода, разпределени:

Кирилица (# 0400 - # 04FF)

Кирилица Доплащане (# 0500 - # 052F).

Но въвеждането на Unicode маса в най-чистата му форма е ограничен, поради причината, че ако кодът на един знак ще заемат повече от един байт и два байта, които да се съхраняват в текста ще трябва два пъти повече дисково пространство, както и за предаване чрез комуникационни канали - два пъти повече време.

Така че сега на практика е по-често представяне на Unicode UTF-8 (Unicode Transformation Format). UTF-8 осигурява най-добрата съвместимост със системи, които използват 8-битови символи. Текст, състоящ се само от символи с броя по-малко от 128 се превръща в обикновен ASCII текст, когато пишете в UTF-8. Останалите Unicode символи са представени от последователности с дължина от 2 до 4 байта. По принцип, както най-често в света на символи - символи на латиница - все още заемат 1 байт кодиране е по-икономичен от чист Unicode UTF-8.

За определяне на цифровия код на характера, трябва или да използвате кодовата таблица. За да направите това, изберете менюто "Insert" - "символ", а след това на екрана се появява диалогов прозорец характер. В диалоговия прозорец, има маса от знаци за избрания шрифт. Символите в тази таблица са подредени ред по ред, от ляво на дясно, като се започва с интервал.