Тема 5. Кодирование текстовой информации.

Кодирование — это преобразование одной формы представления информации в другую. Кодировочная таблица — это правила преобразования информации. Вспомним, что для кодирования 255 (0-256) символов, входящих в стандартизированную таблицу кодирования символьной информации ASCII (ANSI) и CP-1251, используется 8 бит. Например, символа C в памяти компьютера представляется как 01000011 в двоичной системе счисления, или 67 в десятичной.





В настоящее время, для кодирования текстовой информации используют кодировочную таблицу Unicode (UTF-8, UTF-16). Стандарт Unicode  предложен в 1991 году некоммерческой организацией «Консорциум Юникода». Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, казахского алфавита, музыкальных, химических и прочих символов. Примечание. Ниже проиллюстрирована часть таблицы Unicode.



Самостоятельное задание

  • Создайте текстовый документ
  • Наберите слово Информатика
  • Сохраните документ с кодировкой ASCII (ANSI)
  • Откройте этот документ и сохраните его в кодировке Unicode (UTF-8)
  • Сравните полученные результаты

*Для хранения одного символа с использованием кодировочной таблицы ANSI используется 1 Байт.
**Для хранения одного символа с использованием кодировочной таблицы UTF-8 (UTF-16) используется 2 Байт.

Ответ:

Слово Информатика содержит 11 символов.

11 символов * 1 Байт = 11 Байт (объем текстового файла сохранённого с кодировкой ANSI.

11 символов * 2 Байт = 22 Байт (объем текстового файла сохранённого с кодировкой Unicode.


Last modified: Saturday, 23 September 2023, 3:33 PM