Информатика и вычислительная техника

       

Количественные оценки и показатели качества информации


Для измерения количества информации вводятся два параметра: количество информации 1 и объем данных Vg. Эти параметры по - разному интерпретируются в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера информации.

Синтаксическая мера информации. Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных в текстовом сообщении измеряется количеством символов (знаков) в этом сообщении. Поэтому часто объем данных называют длиной сообщения. Очевидно, что в зависимости от языка той или иной национальности этот объем может быть различным для сообщения одного и того же смыслового содержания.

В компьютерной технике, как известно, все данные, подлежащие обработке, представляются в кодированном виде с использованием, как правило, двоичной системы счисления. В этой системе счисления минимальной единицей измерения объема данных служит бит (один двоичный разряд). Например, сообщение в виде шестиразрядного двоичного кода 110010 имеет объем данных Vg = 6 бит. В современных компьютерах применяется также более укрупненная единица измерения - байт, который соответствует 8 бит. Отметим, что с увеличением основания системы счисления для одного и того же сообщения требуется меньшее количество цифровых знаков, что приводит к соответствующему уменьшению объема данных. Так, по сравнению с двоичной системой счисления восьмеричная, десятичная и шестнадцатеричная системы счисления приводят к такому уменьшению, соответственно, в 3; 3,33 и 4 раза.

Количество информации I обычно связывают с оценкой неопределенности системы (энтропии системы). Действительно, получение информации о какой - либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Такой вероятностно - статистический подход к измерению количества информации был впервые предложен К.Э.Шенноном в его работе "Математическая теория связи", опубликованной в 1948 году.


Согласно этой теории количество информации I? о системе, полученной в сообщении р, оценивается уменьшением неопределенности состояния системы или разностью между начальной энтропией Н (до получения сообщения) и конечной энтропией Н? (после получения сообщения ?), т.е.

I? = H - H?.

14

Если в результате полученного сообщения ? неопределенность в системе полностью исчезает (Н? = 0), то количество информации в этом сообщении равно энтропии:

I? = Н

Иными словами, энтропия системы Н может рассматриваться как мера недостающей информации для устранения неопределенности в системе.

Энтропия системы Н, имеющей N возможных состояний, согласно формуле Шеннона, равна

где Pi - вероятность того, что система находится в i - м состоянии.



Если все состояния системы равновероятны, т.е. их вероятности равны Pi = 1/N , то ее энтропия определяется соотношением:

Если для передачи сообщения используется двоичная система счисления, то n - разрядная двоичная комбинация может отобразить N = 2n различных состояний системы. Для равновероятностных состояний системы и при использовании в формуле Шеннона двоичного логарифма качество информации будет равно объему передаваемых данных V? и соответствовать n битам, т.е. I = V? = n. Для неравновероятных состояний системы всегда I < V? = n. Для оценки информативности сообщений используют отношение количества информации к объему данных:

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе, т.е. работы по извлечению информативных данных, уменьшающих неопределенность в системе.

Семантическая мера информации. Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, получила распространение так называемая тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезауруса, т.е. совокупности сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус.


Так, например, при Sp ? 0 пользователь вообще

15

может не воспринять и не понять поступающую информацию. Наоборот, при Sp > ? пользователь все знает, и поступающая информация ему не нужна. Максимальное количество семантической информации Ic потребитель получает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sponm), когда поступающая информация понятна пользователю и, вместе с тем, несет ему ранее не известные (отсутствующие в его тезаурусе)сведения.

Относительной мерой количества семантической информации может служить коэффициент содержательности С. определяемый отношением семантической информации к ее объему: С = Iс/V?.

Прагматическая мера информации. Эта мера определяет полезность (ценность) информации для достижения пользователем поставленной цели. Данная мера является величиной относительной, зависящей от особенностей использования этой информации в конкретной области при реализации определенной цели. Например, в экономической системе прагматические свойства информации можно оценить приростом экономического эффекта функционирования системы, достигнутым благодаря использованию этой информации для управления системой.

Показатели качества информации. По сравнению с количественными оценками показатели качества информации менее формализованы и потому достаточно условны и субъективны. Перечислим и кратко прокомментируем некоторые из этих показателей

Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта.

Содержательность и информативность отражают долю, соответственно, семантической и синтаксической информации в общем объеме данных, т.е. С =
Ic
V?
  и Y =
I
V?
 .

Достаточность (полнота) означает, что информация по своему содержанию (семантике) и прагматике содержит минимальный состав, но достаточный для принятия правильного решения.

Доступность информации для ее восприятия пользователем, достигаемая, в частности, путем согласования ее семантической формы с тезаурусом пользователя.



Актуальность информации характеризует степень сохранения ее ценности при использовании в необходимых целях. Она зависит от динамики изменения характеристик объекта и от интервала времени, прошедшего с момента возникновения данной информации до ее регистрации и использования. С актуальностью информации тесно связан такой показатель качества информации, как ее своевременность (поступление информации должно быть строго согласовано с соответствующими стадиями и этапами решения поставленной задачи).

16

Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса или явления. С точностью также близко связана достоверность информации, которая оценивается вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

В заключении следует отметить, что практически все рассмотренные параметры качества информации определяются и формируются на уровне самой методики разработки информационных систем. Хотя, конечно, на некоторые из них оказывают определенное влияние также и технологические характеристики функционирования таких систем.

В этой связи можно, например, высказать определенные соображения по поводу точности как показателя качества информации. Дело в том, что именно точность непосредственно зависит от физической формы представления информации и используемых для ее регистрации технических средств.

Существуют две формы физического представления информации: аналоговая (непрерывная) и дискретная (цифровая). В первом случае информация представляется в виде непрерывного ряда значений какой - либо физической величины (чаще всего электрического напряжения); при этом каждое ее значение отражает соответствующее текущее состояние исследуемого объекта. В аналоговом виде точность представления информации весьма невысокая, поскольку ограничена точностью тех технических устройств, которые используются для ее измерения и регистрации.

При дискретной форме представления используется набор определенных символов (знаков), который формируется в определенные последовательности, отображающей соответствующую информацию.Обычно каждому символу присваивается числовое (цифровое) значение, и тогда представленная информация приобретает чисто цифровой характер. Для информации, отображаемой в цифровой форме, формально нет ограничений по точности представления. Эта точность определяется значением единицы младшего разряда числа. Чем больше количество разрядов, тем выше точность представления. Хотя реальная точность может определяться не младшим разрядом числа, а тем последним разрядом, достоверность которого гарантируется.

Благодаря явным преимуществам цифровой формы по точности представления информации для ее обработки стали применяться именно электронные вычислительные машины, обычно называемые просто электронными вычислительными машинами (ЭВМ), без упоминания об их цифровом принципе действия.

17

14 :: 15 :: 16 :: 17 :: Содержание


Содержание раздела