Формула для вычисления энтропии системы носит имя. Бит, информационная энтропия Шеннона и код Хэмминга

Энтропия (теория информации)

Энтропи́я (информационная) - мера хаотичности информации , неопределённость появления какого-либо символа первичного алфавита . При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.

Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв (в этом случае говорят об энтропии n -ого порядка, см. ) встречаются очень редко, то неопределённость ещё более уменьшается.

Для иллюстрации понятия информационной энтропии можно также прибегнуть к примеру из области термодинамической энтропии , получившему название демона Максвелла . Концепции информации и энтропии имеют глубокие связи друг с другом, но, несмотря на это, разработка теорий в статистической механике и теории информации заняла много лет, чтобы сделать их соответствующими друг другу.

Формальные определения

Определение с помощью собственной информации

Также можно определить энтропию случайной величины, введя предварительно понятия распределения случайной величины X , имеющей конечное число значений:

I (X ) = − logP X (X ).

Тогда энтропия будет определяться как:

От основания логарифма зависит единица измерения информации и энтропии: бит , нат или хартли .

Информационная энтропия для независимых случайных событий x с n возможными состояниями (от 1 до n ) рассчитывается по формуле:

Эта величина также называется средней энтропией сообщения . Величина называется частной энтропией , характеризующей только i -e состояние.

Таким образом, энтропия события x является суммой с противоположным знаком всех произведений относительных частот появления события i , умноженных на их же двоичные логарифмы (основание 2 выбрано только для удобства работы с информацией, представленной в двоичной форме). Это определение для дискретных случайных событий можно расширить для функции распределения вероятностей .

В общем случае b -арная энтропия (где b равно 2, 3, …) источника с исходным алфавитом и дискретным распределением вероятности где p i является вероятностью a i (p i = p (a i ) ) определяется формулой:

Определение энтропии Шеннона связано с понятием термодинамической энтропии . Больцман и Гиббс проделали большую работу по статистической термодинамике, которая способствовала принятию слова «энтропия» в информационную теорию. Существует связь между термодинамической и информационной энтропией. Например, демон Максвелла также противопоставляет термодинамическую энтропию информации, и получение какого-либо количества информации равно потерянной энтропии.

Альтернативное определение

Другим способом определения функции энтропии H является доказательство, что H однозначно определена (как указано ранее), если и только если H удовлетворяет условиям:

Свойства

Важно помнить, что энтропия является количеством, определённым в контексте вероятностной модели для источника данных. Например, кидание монеты имеет энтропию − 2(0,5log 2 0,5) = 1 бит на одно кидание (при условии его независимости). У источника, который генерирует строку, состоящую только из букв «А», энтропия равна нулю: . Так, например, опытным путём можно установить, что энтропия английского текста равна 1,5 бит на символ, что конечно будет варьироваться для разных текстов. Степень энтропии источника данных означает среднее число битов на элемент данных, требуемых для её зашифровки без потери информации, при оптимальном кодировании.

  1. Некоторые биты данных могут не нести информации. Например, структуры данных часто хранят избыточную информацию, или имеют идентичные секции независимо от информации в структуре данных.
  2. Количество энтропии не всегда выражается целым числом бит.

Математические свойства

Эффективность

Исходный алфавит, встречающийся на практике, имеет вероятностное распределение, которое далеко от оптимального. Если исходный алфавит имел n символов, тогда он может быть сравнён с «оптимизированным алфавитом», вероятностное распределение которого однородно. Соотношение энтропии исходного и оптимизированного алфавита - это эффективность исходного алфавита, которая может быть выражена в процентах.

Из этого следует, что эффективность исходного алфавита с n символами может быть определена просто как равная его n -арной энтропии.

Энтропия ограничивает максимально возможное сжатие без потерь (или почти без потерь), которое может быть реализовано при использовании теоретически - типичного набора или, на практике, - кодирования Хаффмана , кодирования Лемпеля - Зива - Велча или арифметического кодирования .

Вариации и обобщения

Условная энтропия

Если следование символов алфавита не независимо (например, во французском языке после буквы «q» почти всегда следует «u», а после слова «передовик» в советских газетах обычно следовало слово «производства» или «труда»), количество информации, которую несёт последовательность таких символов (а следовательно и энтропия) очевидно меньше. Для учёта таких фактов используется условная энтропия.

Условной энтропией первого порядка (аналогично для Марковской модели первого порядка) называется энтропия для алфавита, где известны вероятности появления одной буквы после другой (то есть вероятности двухбуквенных сочетаний):

где i - это состояние, зависящее от предшествующего символа, и p i (j ) - это вероятность j , при условии, что i был предыдущим символом.

Так, для русского языка без буквы « » .

Через частную и общую условные энтропии полностью описываются информационные потери при передаче данных в канале с помехами. Для этого применяются так называемые канальные матрицы . Так, для описания потерь со стороны источника (то есть известен посланный сигнал), рассматривают условную вероятность получения приёмником символа b j при условии, что был отправлен символ a i . При этом канальная матрица имеет следующий вид:

b 1 b 2 b j b m
a 1
a 2
a i
a m

Очевидно, вероятности, расположенные по диагонали описывают вероятность правильного приёма, а сумма всех элементов столбца даст вероятность появления соответствующего символа на стороне приёмника - p (b j ) . Потери, приходящиеся на передаваемый сигнал a i , описываются через частную условную энтропию:

Для вычисления потерь при передаче всех сигналов используется общая условная энтропия:

Означает энтропию со стороны источника, аналогично рассматривается - энтропия со стороны приёмника: вместо всюду указывается (суммируя элементы строки можно получить p (a i ) , а элементы диагонали означают вероятность того, что был отправлен именно тот символ, который получен, то есть вероятность правильной передачи).

Взаимная энтропия

Взаимная энтропия, или энтропия объединения , предназначена для расчёта энтропии взаимосвязанных систем (энтропии совместного появления статистически зависимых сообщений) и обозначается H (A B ) , где A , как всегда, характеризует передатчик, а B - приёмник.

Взаимосвязь переданных и полученных сигналов описывается вероятностями совместных событий p (a i b j ) , и для полного описания характеристик канала требуется только одна матрица:

p (a 1 b 1) p (a 1 b 2) p (a 1 b j ) p (a 1 b m )
p (a 2 b 1) p (a 2 b 2) p (a 2 b j ) p (a 2 b m )
p (a i b 1) p (a i b 2) p (a i b j ) p (a i b m )
p (a m b 1) p (a m b 2) p (a m b j ) p (a m b m )

Для более общего случая, когда описывается не канал, а просто взаимодействующие системы, матрица необязательно должна быть квадратной. Очевидно, сумма всех элементов столбца с номером j даст p (b j ) , сумма строки с номером i есть p (a i ) , а сумма всех элементов матрицы равна 1. Совместная вероятность p (a i b j ) событий a i и b j вычисляется как произведение исходной и условной вероятности,

Условные вероятности производятся по формуле Байеса . Таким образом имеются все данные для вычисления энтропий источника и приёмника:

Взаимная энтропия вычисляется последовательным суммированием по строкам (или по столбцам) всех вероятностей матрицы, умноженных на их логарифм:

H (A B ) = − p (a i b j )logp (a i b j ).
i j

Единица измерения - бит/два символа, это объясняется тем, что взаимная энтропия описывает неопределённость на пару символов - отправленного и полученного. Путём несложных преобразований также получаем

Взаимная энтропия обладает свойством информационной полноты - из неё можно получить все рассматриваемые величины.

История

Примечания

См. также

Ссылки

  • Claude E. Shannon. A Mathematical Theory of Communication (англ.)
  • С. М. Коротаев.
Клод Элвуд Шеннон (1916-2001) -
американский инженер и математик,
основатель теории информации,
т.е. теории обработки, передачи
и хранения информации

Клод Шеннон первым начал интерпретировать передаваемые сообщения и шумы в каналах связи с точки зрения статистики, рассматривая как конечные, так и непрерывные множества сообщений. Клода Шеннона называют «отцом теории информации» .

Одной из самых известных научных работ Клода Шеннона является его статья «Математическая теория связи» , опубликованная в 1948 году.

В этой работе Шеннон, исследуя проблему рациональной передачи информации через зашумленный коммуникационный канал, предложил вероятностный подход к пониманию коммуникаций, создал первую, истинно математическую, теорию энтропии как меры случайности и ввёл меру дискретного распределения p вероятности на множестве альтернативных состояний передатчика и приёмника сообщений.

Шеннон задал требования к измерению энтропии и вывел формулу, ставшую основой количественной теории информации:

H (p) .

Здесь n - число символов, из которых может быть составлено сообщение (алфавит), H - информационная двоичная энтропия .

На практике значения вероятностей p i в приведённой формуле заменяют их статистическими оценками: p i - относительная частота i -го символа в сообщении, где N - число всех символов в сообщении, N i - абсолютная частота i -го символа в сообщении, т.е. число встречаемости i -го символа в сообщении.

Во введении к своей статье «Математическая теория связи» Шеннон отмечает, что в этой статье он расширяет теорию связи, основные положения которой содержатся в важных работах Найквиста и Хартли .

Гарри Найквист (1889-1976) -
американский инженер шведского
происхождения, один из пионеров
теории информации

Первые результаты Найквиста по определению ширины частотного диапазона, требуемого для передачи информации, заложили основы для последующих успехов Клода Шеннона в разработке теории информации.

В 1928 году Хартли ввёл логарифмическую меру информации H = K · log 2 N , которую часто называют хартлиевским количеством информации.

Хартли принадлежит следующая важная теорема о необходимом количестве информации: если в заданном множестве M , состоящем из N элементов, содержится элемент x , о котором известно только то, что он принадлежит этому множеству M , то, чтобы найти x , необходимо получить об этом множестве количество информации, равное log 2 N бит.

Кстати, отметим, что название БИТ произошло от английской аббревиатуры BIT - BInary digiT . Этот термин впервые был предложен американским математиком Джоном Тьюки в 1946 году. Хартли и Шеннон использовали бит как единицу измерения информации.

Вообще, энтропия Шеннона - это энтропия множества вероятностей p 1 , p 2 ,…, p n .

Ральф Винтон Лайон Хартли (1888-1970)
- американский учёный-электронщик

Строго говоря, если X p 1 , p 2 ,…, p n - вероятности всех её возможных значений, то функция H (X ) задаёт энтропию этой случайной величины, при этом, хотя X и не является аргументом энтропии, можно записывать H (X ).

Аналогично, если Y - конечная дискретная случайная величина, а q 1 , q 2 ,…, q m - вероятности всех её возможных значений, то для этой случайной величины можно записывать H (Y ).

Джон Уайлдер Тьюки (1915-2000) -
американский математик. Тьюки избрал
бит для обозначения одного разряда
в двоичной системе счисления

Шеннон назвал функцию H (X )энтропией по совету Джона фон Неймана .

Нейман убеждал: эту функцию следует назвать энтропией «по двум причинам. В первую очередь, Ваша функция неопределённости была использована в статистической механике под этим именем, так что у неё уже есть имя. На втором месте, и что более важно, никто не знает, что такое энтропия на самом деле, так что в дискуссии Вы всегда будете иметь преимущество» .

Надо полагать, что этот совет Неймана не был простой шуткой. Скорее всего, и Джон фон Нейман и Клод Шеннон знали об информационной интерпретации энтропии Больцмана как о величине, характеризующей неполноту информации о системе.

В определении Шеннона энтропия - это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения .

7. Энтропия Колмогорова

Андрей Николаевич
Колмогоров (1903-1987) -
советский учёный, один из крупнейших
математиков XX века

А.Н. Колмогоровым были получены фундаментальные результаты во многих областях математики, в том числе в теории сложности алгоритмов и теории информации.

В частности, ему принадлежит ключевая роль в превращении теории информации, сформулированной Клодом Шенноном как технической дисциплины, в строгую математическую науку, и в построении теории информации на принципиально иной, отличной от шенноновской, основе.

В своих работах по теории информации и в области теории динамических систем А.Н. Колмогоров обобщил понятие энтропии на эргодические случайные процессы через предельное распределение вероятностей. Чтобы понять смысл этого обобщения, необходимо знать основные определения и понятия теории случайных процессов.

Значение энтропии Колмогорова (еще называемой K-энтропией ) задает оценку скорости потери информации и может интерпретироваться как мера «памяти» системы, или мера скорости «забывания» начальных условий. Её можно также рассматривать как меру хаотичности системы.

8. Энтропия Реньи

Альфред Реньи (1921-1970) -
венгерский математик, создатель
Математического института в Будапеште,
ныне носящего его имя

Ввёл однопараметрический спектр энтропий Реньи.

С одной стороны, энтропия Реньи представляет собой обобщение энтропии Шеннона. А с другой стороны, одновременно с этим она представляет собой обобщение расстояния (расхождения) Кульбака-Лейблера . Отметим также, что именно Реньи принадлежит полное доказательство теоремы Хартли о необходимом количестве информации.

Расстояние Кульбака-Лейблера (информационная дивергенция, относительная энтропия) - это несимметричная мера удалённости друг от друга двух вероятностных распределений .

Обычно одно из сравниваемых распределений является «истинным» распределением, а второе распределение - предполагаемым (проверяемым) распределением, являющимся приближением первого.

Пусть X , Y - это конечные дискретные случайные величины, для которых области возможных значений принадлежат заданному множеству и известны функции вероятности: P (X = a i ) = p i и P (Y = a i ) = q i .

Тогда значение DKL расстояния Кульбака-Лейблера вычисляется по формулам

D KL (X , Y ) =, D KL (Y , X ) = .

В случае абсолютно непрерывных случайных величин X , Y , заданных своими плотностями распределения, в формулах для вычисления значения расстояния Кульбака-Лейблера суммы заменяются соответствующими интегралами.

Расстояние Кульбака-Лейблера всегда является неотрицательным числом, при этом оно равно нулю D KL (X , Y ) = 0 тогда и только тогда, когда для заданных случайных величин почти всюду справедливо равенство X = Y .

В 1960 году Альфред Реньи предлагает своё обобщение энтропии.

Энтропия Реньи представляет собой семейство функционалов для количественного разнообразия случайности системы. Реньи определил свою энтропию как момент порядка α меры ε-разбиения (покрытия).

Пусть α - заданное действительное число, удовлетворяющее требованиям α ≥ 0, α ≠ 1. Тогда энтропия Реньи порядка α определяется формулой H α = H α (X ), где p i = P (X = x i ) - вероятность события, состоящего в том, что дискретная случайная величина X окажется равна своему соответствующему возможному значению, n - общее число различных возможных значений случайной величины X .

Для равномерного распределения, когда p 1 = p 2 =…= p n =1/n , все энтропии Реньи равны H α (X ) = ln n .

В противном случае, значения энтропий Реньи слабо уменьшаются при возрастании значений параметра α. Энтропии Реньи играют важную роль в экологии и статистике как индексы разнообразия.

Энтропия Реньи также важна в квантовой информации, она может быть использована в качестве меры сложности.

Рассмотрим некоторые частные случаи энтропии Реньи для конкретных значений порядка α:

1. Энтропия Хартли : H 0 = H 0 (X ) = ln n , где n - мощность области возможных значений конечной случайной величины X , т.е. количество различных элементов, принадлежащих множеству возможных значений;

2. Информационная энтропия Шеннона : H 1 = H 1 (X ) = H 1 (p ) (определяется как предел при α → 1, который несложно найти, например, с помощью правила Лопиталя);

3. Корреляционная энтропия или столкновение энтропии : H 2 = H 2 (X )= - ln (X = Y );

4. Min-энтропия : H ∞ = H ∞ (X ).

Отметим, что для любого неотрицательного значения порядка (α ≥ 0) всегда выполняются неравенства H ∞ (X ) ≤ H α (X ). Кроме того, H 2 (X ) ≤ H 1 (X ) и H ∞ (X ) ≤ H 2 (X ) ≤ 2·H ∞ (X ).

Альфред Реньи ввёл не только свои абсолютные энтропии (1.15), он определил также спектр мер расхождений, обобщающих расхождения Кульбака-Лейбнера.

Пусть α - заданное действительное число, удовлетворяющее требованиям α > 0, α ≠ 1. Тогда в обозначениях, использованных при определении значения D KL расстояния Кульбака-Лейблера, значение расхождения Реньи порядка α определяется формулами

D α (X , Y ), D α (X , Y ).

Расхождение Реньи также называют alpha -расхождением или α-дивергенцией. Сам Реньи использовал логарифм по основанию 2, но, как всегда, значение основания логарифма абсолютно неважно.

9. Энтропия Тсаллиса

Константино Тсаллис (род. 1943) -
бразильский физик
греческого происхождения

В 1988 году предложил новое обобщение энтропии, являющееся удобным для применения с целью разработки теории нелинейной термодинамики.

Предложенное им обобщение энтропии, возможно, в ближайшем будущем сможет сыграть существенную роль в теоретической физике и астрофизике.

Энтропия Тсаллиса Sq , часто называемая неэкстенсивной (неаддитивной) энтропией, определяется для n микросостояний согласно следующей формуле:

S q = S q (X ) = S q (p ) = K · , .

Здесь K - размерная константа, если размерность играет важную роль для понимания задачи.

Тсаллис и его сторонники предлагают развивать «неэкстенсивную статистическую механику и термодинамику» в качестве обобщения этих классических дисциплин на случай систем с длинной памятью и/или дальнодействующими силами.

От всех других разновидностей энтропии, в т.ч. и от энтропии Реньи, энтропия Тсаллиса отличается тем, что не является аддитивной. Это принципиальное и важное отличие .

Тсаллис и его сторонники считают, что эта особенность даёт возможность построить новую термодинамику и новую статистическую теорию, которые способы просто и корректно описывать системы с длинной памятью и системы, в которых каждый элемент взаимодействует не только с ближайшими соседями, но и со всей системой в целом или её крупными частями.

Примером таких систем, а поэтому и возможным объектом исследований с помощью новой теории, являются космические гравитирующих системы: звёздные скопления, туманности, галактики, скопления галактик и т.п.

Начиная с 1988 года, когда Константино Тсаллис предложил свою энтропию, появилось значительное число приложений термодинамики аномальных систем (с длиной памятью и/или с дальнодействующими силами), в том числе и в области термодинамики гравитирующих систем.

10. Квантовая энтропия фон Неймана

Джон (Янош) фон Нейман (1903-1957) -
американский математик и физик
венгерского происхождения

Энтропия фон Неймана играет важную роль в квантовой физике и в астрофизических исследованиях.

Джон фон Нейман внёс значительный вклад в развитие таких отраслей науки, как квантовая физика, квантовая логика, функциональный анализ, теория множеств, информатика и экономика.

Он являлся участником Манхэттенского проекта по разработке ядерного оружия, одним из создателей математической теории игр и концепции клеточных автоматов, а также основоположником современной архитектуры компьютеров.

Энтропия фон Неймана, как всякая энтропия, связана с информацией: в данном случае - с информацией о квантовой системе. И в этом плане она играет роль фундаментального параметра, количественно характеризующего состояние и направление эволюции квантовой системы.

В настоящее время энтропия фон Неймана широко используется в различных формах (условная энтропия, относительная энтропия и т.д.) в рамках квантовой теории информации.

Различные меры запутанности непосредственно связаны с энтропией фон Неймана. Тем не менее, в последнее время появился ряд работ, посвящённых критике энтропии Шеннона как меры информации и возможной её неадекватности, и, следовательно, неадекватности энтропии фон Неймана как обобщения энтропии Шеннона.

Проведенный обзор (к сожалению, беглый, а порой и недостаточно математически строгий) эволюции научных взглядов на понятие энтропии позволяет дать ответы на важные вопросы, связанные с истинной сущностью энтропии и перспективами применения энтропийного подхода в научных и практических исследованиях. Ограничимся рассмотрением ответов на два таких вопроса.

Первый вопрос : имеют ли между собой многочисленные разновидности энтропии, как рассмотренные, так и не рассмотренные выше, что-нибудь общее кроме одинакового названия?

Этот вопрос возникает естественным образом, если принять во внимание то разнообразие, которое характеризует существующие различные представления об энтропии.

На сегодня научное сообщество не выработало единого, признанного всеми, ответа на этот вопрос: одни учёные отвечают на этот вопрос утвердительно, другие - отрицательно, третьи - относятся к общности энтропий различных видов с заметной долей сомнения...

Клаузиус, по-видимому, был первым учёным, убеждённым в универсальном характере энтропии и полагавшим, что во всех процессах, происходящих во Вселенной, она играет важную роль, в частности, определяя их направление развития во времени.

Кстати, именно Рудольфу Клаузиусу принадлежит одна из формулировок второго начала термодинамики: «Невозможен процесс, единственным результатом которого являлась бы передача тепла от более холодного тела к более горячему» .

Эту формулировку второго начала термодинамики называют постулатом Клаузиуса , а необратимый процесс, о котором идёт речь в этом постулате, - процессом Клаузиуса .

Со времени открытия второго начала термодинамики необратимые процессы играли уникальную роль в физической картине мира. Так, знаменитая статья 1849 года Уильяма Томпсона , в которой приведена одна из первых формулировок второго начала термодинамики, называлась «Об универсальной тенденции в природе к диссипации механической энергии».

Отметим также, что и Клаузиус был вынужден использовать космологический язык: «Энтропия Вселенной стремится к максимуму» .

Илья Романович Пригожин (1917-2003) -
бельгийско-американский физик и
химик российского происхождения,
лауреат Нобелевской премии
по химии 1977 года

К аналогичным выводам пришёл Илья Пригожин . Пригожин полагает, что принцип энтропии ответственен за необратимость времени во Вселенной и, возможно, играет важную роль в понимании смысла времени как физического феномена.

К настоящему времени выполнено множество исследований и обобщений энтропии, в том числе и с точки зрения строгой математической теории. Однако заметная активность математиков в этой области пока не востребована в приложениях, за исключением, пожалуй, работ Колмогорова , Реньи и Тсаллиса .

Несомненно, энтропия - это всегда мера (степень) хаоса, беспорядка. Именно разнообразие проявления феномена хаотичности и беспорядка обусловливает неизбежность разнообразия модификаций энтропии.

Второй вопрос : можно ли признать сферу применения энтропийного подхода обширной или все приложения энтропии и второго начала термодинамики ограничиваются самой термодинамикой и смежными направлениями физической науки?

История научного изучения энтропии свидетельствует, что энтропия - это научное явление, открытое в термодинамике, а затем успешно перекочевавшее в другие науки и, прежде всего, в теорию информации.

Несомненно, энтропия играет важную роль практически во всех областях современного естествознания: в теплофизике, в статистической физике, в физической и химической кинетике, в биофизике, астрофизике, космологии и теории информации.

Говоря о прикладной математике, нельзя не упомянуть приложения принципа максимума энтропии.

Как уже отмечалось, важными областями применения энтропии являются квантово-механические и релятивистские объекты. В квантовой физике и астрофизике такие применения энтропии представляют собой большой интерес.

Упомянем лишь один оригинальный результат термодинамики чёрных дыр: энтропия чёрной дыры равна четверти площади её поверхности (площади горизонта событий) .

В космологии считается, что энтропия Вселенной равна числу квантов реликтового излучения, приходящихся на один нуклон.

Таким образом, сфера применения энтропийного подхода весьма обширна и включает в себя самые разнообразные отрасли знания, начиная с термодинамики, других направлений физической науки, информатики и заканчивая, например, историей и экономикой.

А.В. Сигал , доктор экономических наук, Крымский университет имени В.И. Вернадского

1.4 Энтропия источника. Свойства количества информации и энтропии

Количество информации, содержащееся в одном элементарном сообщении x i , не полностью характеризует источник. Источник дискретных сообщений может быть охарактеризован средним количеством информации, приходящимся на одно элементарное сообщение , носящим название энтропия источника

, i =1…k , (1.3)

где k – объём алфавита сообщений.

Таким образом, энтропия – это среднестатистическая мера неопределенности знаний получателя информации относительно состояния наблюдаемого объекта.

В выражении (1.3) статистическое усреднение (т.е. определение математического ожидания дискретной случайной величины I (X i )) выполняется по всему ансамблю сообщений источника. При этом необходимо учитывать все вероятностные связи между сообщениями. Чем выше энтропия источника, тем большее количество информации в среднем закладывается в каждое сообщение, тем труднее запомнить (записать) или передать такое сообщение по каналу связи. Таким образом, суть энтропии Шеннона заключается в следующем: энтропия дискретной случайной величин – это минимум среднего количества битов, которое нужно передавать по каналу связи о текущем значении данной случайной величины.

Необходимые затраты энергии на передачу сообщения пропорциональны энтропии (среднему количеству информации на сообщение). Отсюда следует, что количество информации в последовательности из N сообщений определяется количеством этих сообщений и энтропией источника, т.е.

I (N )=NH (X ) .

Энтропия как количественная мера информационности источника обладает следующими свойствами:

1) энтропия равна нулю, если хотя бы одно из сообщений достоверно (т.е. имеет вероятность p i = 1);

2) величина энтропии всегда больше или равна нулю, действительна и ограничена;

3) энтропия источника с двумя альтернативными событиями может изменяться от 0 до 1;

4) энтропия – величина аддитивная: энтропия источника, сообщения которого состоят из сообщений нескольких статистически независимых источников, равна сумме энтропий этих источников;

5) энтропия будет максимальной, если все сообщения равновероятны

. (1.4)

При неравновероятных сообщениях x i энтропия уменьшается. В связи с этим вводят такую меру источника, как статистическая избыточность алфавита источника

, (1.5)

где H (X ) – энтропия реального источника; H (X ) max = log 2 k – максимально достижимая энтропия источника.

Определяемая по формуле (1.5) избыточность источника информации говорит об информационном резерве сообщений, элементы которых неравновероятны.

Существует также понятие семантической избыточности , которое следует из того, что любую мысль, которая содержится в сообщении из предложений человеческого языка, можно сформулировать короче. Считается, что если какое-либо сообщение можно сократить без потери его смыслового содержания, то оно имеет семантическую избыточность.

Рассмотрим дискретные случайные величины (д.с.в.) Х и Y , заданные законами распределения P (X = X i )= p i , P (Y = Y j )= q j и совместным распределением P (X = X i , Y = Y j )= p ij . Тогда количество информации, содержащееся в д. с. в. Х относительно д. с. в. Y , определяется по формуле

. (1.6)

Для непрерывных случайных величин (сл. в.) X и Y , заданных плотностями распределения вероятностей r X (t 1 ) , r Y (t 2 ) и r XY (t 1 , t 2 ) , аналогичная формула имеет вид

Очевидно, что

следовательно

т.е. приходим к выражению (1.3) для расчета энтропии H (X ) .

Свойства количества информации и энтропии:

1) I (X , Y ) ≥ 0 ; I (X , Y ) =0 Û X и Y независимые (одна случайная величина ничем не описывает другую);

2) I (X, Y ) =I (Y, X ) ;

3) НХ =0 Û X=const ;

4) I (X, Y ) =HX+HY-H (X, Y ) , где ;

5) I (X, Y ) ≤ I(X, X); I(X, Y)= I(X, X) Þ X= f(Y) .

КОНТРОЛЬНЫЕ ВОПРОСЫ

1 Какие существуют виды информации?

2 Как перевести непрерывную информацию в дискретный (цифровой) вид?

3 Что такое частота дискретизации непрерывной информации?

4 Как формулируется теорема дискретизации?

5 Что такое информация, кодирование, канал связи, шум?

6 В чем заключаются основные положения вероятностного подхода Шеннона к определению количества информации?

7 Как определяется количество информации, содержащееся в одном сообщении дискретного источника?

8 Как определяется количество информации на одно сообщение источника взаимозависимых сообщений?

9 Что такое энтропия источника? Какие ее свойства?

10 При каких условиях энтропия источника максимальна?

11 Как определяется количество информации? Какие свойства количества информации?

12 Чем обусловлена статистическая избыточность источника информации?

что означает термин "энтропия" с точки зрения теории информации? и получил лучший ответ

Ответ от MarZ[гуру]
Информационная энтропия, как определено Шенноном и добавлено другими физиками близко, соотносится с понятием термодинамической энтропии. Это величина, обозначающая несокращаемое (несжимаемое) количество информации, содержимое в данной системе (обычно, - в принимаемом сигнале).
В теории информации
Энтропия в статистической механике имеет тесную связь с информационной энтропией - мерой неопределённости сообщений, которые описываются множеством символов x_1,ldots,x_n и вероятностей p_1,ldots,p_n появления этих символов в сообщении. В теории информации энтропией сообщения с дискретным распределением вероятностей называют величину
Sn = − ∑PkInPk,
k
где
∑Pk = 1.
k
Информационная энтропия равна нулю, когда какая-либо вероятность равна единице (а остальные - нулю), т. е. когда информация полностью предсказуема и не несёт ничего нового для приёмника. Энтропия принимает наибольшее значение для равновероятного распределения, когда все вероятности pk одинаковы; т. е. когда неопределённость, разрешаемая сообщением максимальна. Информационная энтропия также обладает всеми теми математическими свойствами, которыми обладает термодинамическая энтропия. Например, она аддитивна: энтропия нескольких сообщений равна сумме энтропий отдельных сообщений.
Источник: http://www.wikiznanie.ru/ru-wz/index.php/Энтропия

Ответ от Александр Зонов [гуру]
Так же, как и в термодинамике энтропия - мера беспорядочности системы.


Ответ от . [активный]
Энтропи́я (информационная) - мера хаотичности информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.


Ответ от 3 ответа [гуру]

Привет! Вот подборка тем с ответами на Ваш вопрос: что означает термин "энтропия" с точки зрения теории информации?

Понятие Энтропи́и впервые введено в 1865 Р. Клаузиусом в термодинамике для определения меры необратимого рассеяния энергии. Энтропия применяется в разных отраслях науки, в том числе и в теории информации как мера неопределенности какого-либо опыта, испытания, который может иметь разные исходы. Эти определения энтропии имеют глубокую внутреннюю связь. Так на основе представлений об информации можно вывести все важнейшие положения статистической физики. [БЭС. Физика. М: Большая российская энциклопедия, 1998].

Информационная двоичная энтропия для независимых (неравновероятных) случайных событий x с n возможными состояниями (от 1 до n , p - функция вероятности) рассчитывается по формуле Шеннона :

Эта величина также называется средней энтропией сообщения. Энтропия в формуле Шеннона является средней характеристикой – математическим ожиданием распределения случайной величины .
Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределённость появления для некоторых букв меньше, чем для других.
В 1948 году, исследуя проблему рациональной передачи информации через зашумлённый коммуникационный канал, Клод Шеннон предложил революционный вероятностный подход к пониманию коммуникаций и создал первую, истинно математическую, теорию энтропии. Его сенсационные идеи быстро послужили основой разработки теории информации, которая использует понятие вероятности. Понятие энтропии, как меры случайности, введено Шенноном в его статье «A Mathematical Theory of Communication», опубликованной в двух частях в Bell System Technical Journal в 1948 году.

В случае равновероятных событий (частный случай), когда все варианты равновероятны, остается зависимость только от количества рассматриваемых вариантов и формула Шеннона значительно упрощается и совпадает с формулой Хартли, которая впервые была предложена американским инженером Ральфом Хартли в 1928 году, как один из научных подходов к оценке сообщений:

, где I – количество передаваемой информации, p – вероятность события, N – возможное количество различных (равновероятных) сообщений.

Задание 1. На равновероятные события.
В колоде 36 карт. Какое количество информации содержится в сообщении, что из колоды взята карта с портретом “туз”; “туз пик”?

Вероятность p1 = 4/36 = 1/9, а p2 = 1/36. Используя формулу Хартли имеем:

Ответ: 3.17; 5.17 бит
Заметим (из второго результата), что для кодирования всех карт, необходимо 6 бит.
Из результатов также ясно, что чем меньше вероятность события, тем больше информации оно содержит. (Данное свойство называется монотонностью )

Задание 2. На неравновероятные события
В колоде 36 карт. Из них 12 карт с “портретами”. Поочередно из колоды достается и показывается одна из карт для определения изображен ли на ней портрет. Карта возвращается в колоду. Определить количество информации, передаваемой каждый раз, при показе одной карты.