Тема 5. Кодирование текстовой информации.
Кодирование — это преобразование одной формы представления информации в другую. Кодировочная таблица — это правила преобразования информации. Вспомним, что для кодирования 255 (0-256) символов, входящих в стандартизированную таблицу кодирования символьной информации ASCII (ANSI) и CP-1251, используется 8 бит. Например, символа C в памяти компьютера представляется как 01000011 в двоичной системе счисления, или 67 в десятичной.


В настоящее время, для кодирования текстовой информации используют кодировочную таблицу Unicode (UTF-8, UTF-16). Стандарт Unicode предложен в 1991 году некоммерческой организацией «Консорциум Юникода». Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, казахского алфавита, музыкальных, химических и прочих символов. Примечание. Ниже проиллюстрирована часть таблицы Unicode.

Самостоятельное задание.
- Создайте текстовый документ
- Наберите слово Информатика
- Сохраните документ с кодировкой ASCII (ANSI)
- Откройте этот документ и сохраните его в кодировке Unicode (UTF-8)
-
Сравните полученные результаты
*Для хранения одного символа с использованием кодировочной таблицы ANSI используется 1 Байт.
**Для хранения одного символа с использованием кодировочной таблицы UTF-8 (UTF-16) используется 2 Байт.
Слово Информатика содержит 11 символов.
11 символов * 1 Байт = 11 Байт (объем текстового файла сохранённого с кодировкой ANSI.
11 символов * 2 Байт = 22 Байт (объем текстового файла сохранённого с кодировкой Unicode.
