Количество информации как минимальная информационная емкость

Вводя количественное выражение того, что называют теперь информационной емкостью, Хартли ставил перед собой задачу «установить меру, не зависящую от психологических факторов». Казалось бы, оценка информации, реально содержащейся в информационной емкости, связана с индивидуальными особенностями того, кто воспринимает информацию, и поэтому не может быть столь объективной, как оценка информационной емкости. На одинаковых по своей информационной емкости фототелеграфных бланках могут быть воспроизведены офорт мастера и рисунок первоклассника. Учет смысловых различий, количественное определение того, что может быть названо семантической информацией (Goldman, 1953), не представляется пока возможным.

Однако нас будет интересовать не истолкование смыслового значения тех или иных изображений, а только их хранение, передача и воспроизведение. Такой подход к определению информации характерен для инженера, проектирующего систему телеграфной связи и разрабатывающего способ представления (кодирования) букв электрическими сигналами вне зависимости от смысла и значения текстов, которые будут передаваться.

С этой точки зрения и офорт мастера, и рисунок школьника представляют собой просто различные совокупности черных и белых элементов изображения. Не только для фототелеграфного аппарата и телевизионной камеры, но и для периферии зрительного анализатора (сетчатки), накапливающей изображения и передающей их в центральный отдел его, имеет значение это обстоятельство, а не смысл зрительных образов, в которые объединяются эти элементы.

Шеннон, создавший основы современной теории информации (см., в частности, Shannon a. Weaver, 1949), показал, что может быть дана единая количественная мера информации, содержащейся в сообщении. Мы рассмотрим эту весьма общую меру, пользуясь примерами, когда сообщением является изображение. Совершенно аналогично могли бы быть использованы и другие примеры, когда сообщение имеет форму речи, буквенных текстов, командных сигналов, радиолокационных сигналов и т. д.

Информационную емкость, предоставляемую для тех или иных сообщений, используют в подавляющем большинстве случаев неэффективно. Обычно нетрудно указать способы более экономного представления сообщений, требующие меньшей информационной емкости, чем та, которая использована.

Количество информации, содержащейся в сообщении, можно определить как минимальную информационную емкость, которая требуется для его представления.

Свойства сообщения, которые должны быть учтены для более экономного представления его, можно выяснить с помощью следующих примеров.

Рассмотрим два различных класса двухградационных изображений. Пусть изображения, относящиеся к одному из них, представляют собой редкие, расположенные в случайных сочетаниях черные элементы на белом фоне, а изображения, относящиеся ко второму классу, — случайные сочетания равновероятных черных и белых элементов. Для определенности положим, что в среднем на каждые 64 элемента изображения из первого класса приходится 4 черных и 60 белых, тогда как в изображениях второго класса их будет в среднем поровну. На рис. 29 показаны типовые фрагменты по 64 элемента из изображений первого и второго классов. Для представления изображений в обоих случаях использованы одинаковые информационные емкости в 64 дв. ед. Если условиться обходить квадраты из 64 элементов слева направо и сверху вниз, получим для одного фрагмента последовательность двоичных чисел
0010000000000000000000000000000000000010000100000000000000000100,
а для другого — последовательность
0111001010010101110011000111010101001010001001111100100111000110.

Однако сразу видно, что изображения, относящиеся к первому классу (рис. 29, а), можно было бы записать более экономно. Достаточно, например, указать, как это делают при описании положения шахматных пешек на доске, лишь номера столбца и строки, где находятся редкие черные элементы. В нашем примере координаты элементов будут соответственно (2, 0), (6, 4), (3, 5), (5, 7). В двоичной системе этому соответствуют числа 010 и 000 для первого элемента, 110 и 100 — для второго и т. д. Весь фрагмент изображения будет записан теперь последовательностью
010000110100011101101111.

Другой подход состоит в том, чтобы выписать в двоичной системе номера черных элементов в каждой группе из 64 элементов. На рис. 29, а черные элементы при указанном порядке нумерации будут 2-й, 38-й, 43-й и 61-й (первому элементу приписывают нулевой номер, последнему — 63-й). В двоичном выражении 2=000010, 38=100110, 43=101011, 61 = 111101. Теперь получится последовательность
000010100110101011111101.

В обоих случаях оказалось достаточно 24 двоичных цифр вместо 64 для представления того же фрагмента изображения. В среднем на один элемент изображения потребовалась информационная емкость 3/8 двоичных единицы в устройстве для записи информации вместо одной двоичной единицы. *
Однако для записи изображения такого типа, как на рис.29, б, этот прием окажется неэффективным. Потребуется по-прежнему 6 двоичных знаков на каждый черный элемент, но теперь уже не 1/16, а 1/2 всех элементов черные. Следовательно, общее число двоичных знаков для представления изображения будет 1/2 · 64 · 6=192, втрое больше, чем при обычной записи, когда на каждый элемент изображения приходилась 1 дв. ед.


Рис. 29. Примеры (а и б) двухградационных изображении с различными частотами черных и белых элементов.

* Строго говоря, значение требуемой информационной емкости, приходящейся на элемент изображения, может оказаться несколько больше, чем приведено здесь. В своих рассуждениях мы не учли того, что будет встречаться немало 64-элементных фрагментов изображения, где число черных элементов будет не точно среднее значение 4, а 3 или 5, даже 2 или 6 и т. д. Для того чтобы знать, к какому фрагменту изображения относится тот или иной элемент, номер которого записан в указанной выше форме, понадобится ввести дополнительные разделительные знаки в сокращенную последовательность нулей и единиц, служащую для записи изображения. Например, можно группировать элементы по 63, а не по 64 и после того, как будут указаны номера всех черных элементов в группе, написать знак 111111, обозначающий окончание группы. При этом среднее число двоичных единиц на элемент несколько возрастет (в данном случае немного больше, чем на 6/63 дв. ед. на элемент), однако останется заметно меньше, чем 1 дв. ед.