71. Кодирование как средство формализованного представления
данных
Для полной формализации информации недостаточно простой
классификации, поэтому проводят следующую процедуру - кодирование.
Кодирование - это процесс присвоения
условных обозначений объектам и классификационным группам по соответствующей
системе кодирования.
Система кодирования - это совокупность
правил обозначения объектов и группировок с использованием кодов.
Код - это условное обозначение объектов
или группировок в виде знака или группы знаков в соответствии с принятой
системой. Код базируется на определенном алфавите
(некоторое множество знаков). Число знаков этого множества называется
основанием кода. Различают следующие типы алфавитов:
цифровой, буквенный и смешанный.
Код характеризуется следующими параметрами:
•
длиной;
•
основанием кодирования;
•
структурой кода, под которой понимают распределение знаков по признакам и
объектам классификации;
•
степенью информативности;
•
коэффициентом избыточности, который определяется как отношение
максимального количества объектов фактическому количеству объектов.
Все системы кодирования можно сгруппировать в два
подмножества: регистрационные и классификационные
системы кодирования.
Особенностью регистрационных систем кодирования
является их независимость от применяемых систем классификации.
Регистрационные коды используются для идентификации объектов и передачи
информации об объектах на расстояние, поэтому они должны удовлетворять следующим
требованиям: минимальности длины кода, однозначности соответствия наименования
объекта и его кода в течение длительного периода времени и защищенности кода
от помех и ошибок.
Регистрационные коды состоят из двух частей: информационной и
контрольной, предназначенной для защиты передаваемой информации от ошибок.
Контрольная часть может рассчитываться по различным алгоритмам, в частности,
наиболее употребляемыми являются следующие формулы их расчета:
где М - модуль (простое число, делящееся на единицу и
на само себя);
Хi - информационные разряды,
i - номер разряда;
Вi - вес информационного
разряда.
К регистрационным системам относятся порядковая и серийная
системы кодирования.
Приведенная на рис. классификация систем
кодирования может быть детализирована. Так, последовательная и параллельная
системы кодирования строятся на основе разрядной (позиционной) или
комбинированной систем кодирования. Создание систем кодирования базируется
на использовании соответствующих методов кодирования.
В заключении необходимо дать оценку соответствия
спроектированного лингвистического обеспечения требованиям к
лингвистическому обеспечению системы (подсистемы), предъявляемым
нормативными документами (стандартами, руководящими документами и др.), а также
техническим заданием на создание конкретной АИС.
Наименование метода |
Сущность |
Преимущества |
Недостатки |
Сфера (условия) применения |
|
Регистрационные методы кодирования |
|||||
Порядковый метод кодирования |
метод, при котором кодами служат числа натурального
ряда; в этом случае кодом каждого из объектов классифицируемого
множества является его порядковый номер |
- обеспечивает довольно большую долговечность
классификатора при незначительной избыточности кода; - обладает наибольшей простотой, использует наиболее
короткие коды и лучше обеспечивает однозначность определения каждого
объекта классификации; - обеспечивает наиболее простое присвоение кодов новым
объектам, появляющимся в процессе ведения классификатора, т. к. каждому
новому объекту присваивается следующий номер по порядку |
- отсутствие в коде какой-либо конкретной информации о
свойствах объекта; - сложность машинной обработки информации при
получении итогов по группе объектов классификации с одинаковыми
признаками; - не обеспечивает возможности размещения вновь
появившихся объектов классификации в необходимом месте классификатора,
т. к резервные коды располагаются в конце ряда |
чаще всего применяется в сочетании с другими методами
кодирования |
|
Серийно-порядковый метод кодирования |
метод, при котором кодами служат числа натурального
ряда с закреплением отдельных серий этих чисел за объектами
классификации с одинаковыми признаками |
- наличие в каждой серии, кроме кодов имеющихся
объектов классификации, определенного количества кодов для
резерва, резерв кодов располагается в середине или в конце серии |
|
целесообразно применять для объектов, имеющих два
соподчиненных признака |
|
В целом метод обладает всеми преимуществами и
недостатками порядкового метода кодирования |
|||||
Классификационные методы кодирования |
|||||
Последовательный метод кодирования |
метод кодирования, при котором код объекта
классификации и (или) классификационной группировки образуется с
использованием кодов последовательно расположенных подчиненных
группировок, полученных при иерархическом методе классификации; в этом
случае код нижестоящей группировки образуется путем добавления
соответствующего количества разрядов к коду вышестоящей
группировки |
- логичность построения кода; - большая емкость |
- обладает всеми недостатками, присущими
иерархическому методу классификации; - ограниченные возможности идентификации
объектов; - невозможность применения полученного кода по
частям, т.к. существует зависимость значений последующих разрядов
кода от предыдущих; - сложность группировки объектов по
различным сочетаниям имеющихся признаков; - практически невозможно вносить новые признаки
и производить изменения в коде без коренной перестройки
классификатора |
чаще всего используется при иерархическом методе
классификации; применять метод целесообразно в тех случаях, когда
набор признаков классификации и их последовательность стабильны в
течение длительного времени |
|
Параллельный метод кодирования |
метод, при котором код объекта классификации и (или)
классификационной группировки образуется с использованием кодов
независимых группировок, полученных при фасетном методе классификации |
- гибкость структуры кода, обусловленная блочностью
его построения; - возможность использовать при решении конкретных
технико-экономических и социальных задач коды только тех признаков
объектов, которые необходимы, что дает возможность работать в каждом
отдельном случае с кодами небольшой длины; - возможность группировки объектов по любому сочетанию
признаков; - наглядность кодовой комбинации (легко указать,
набором каких характеристик описывается рассматриваемый объект); - набор признаков при необходимости может легко
пополняться присоединением кода нового признака |
|
хорошо приспособлен для машинной обработки информации |
|
Общероссийские классификаторы технико-экономической и
социальной информации
Важными средствами информационного обеспечения, прежде всего в
таких видах деятельности, как экономика, статистика, банковское дело, таможенное
деле, внешнеэкономическая деятельность и др., являются классификаторы
технико-экономической и социальной информации, необходимые для обеспечения
интегрированной обработки данных в автоматизированных информационных системах.
Классификаторы ТЭиСИ являются нормативными документами.
Классификатор содержит систематизированный свод наименований объектов,
представленных как классификационные группировки, и присвоенные им коды.
Классификации и кодированию подлежат социальные и
экономические объекты и их свойства, информация о которых используется в
деятельности органов власти и управления и содержится в унифицированных формах
документов.
В настоящее время разработано и действует 37 общероссийских и
продолжающих действовать общесоюзных классификаторов. Совокупность
классификаторов технико-экономической и социальной информации, а также
научно-методических и нормативно-технических документов по их разработке,
ведению и внедрению, а также служб, осуществляющих работы по классификации и
кодированию, составляют Единую систему классификации и кодирования
технико-экономической и социальной информации (ЕСКК ТЭИ).
Каждый классификатор может быть предназначен для однозначной
идентификации объекта, передачи информации на расстояние по каналам связи или
для поиска и логической обработки первичной информации с целью получения и
выдачи результатной информации.
По сфере действия выделяют следующие виды
классификаторов: международные, общегосударственные (общесистемные),
отраслевые и локальные классификаторы.
Международные классификаторы входят в
состав Системы международных экономических стандартов (СМЭС) и обязательны для
передачи информации между организациями разных стран мирового сообщества. СМЭС
представляет собой множество стандартных решений по классификационным
группировкам и кодированию специальной и экономической информации и
формированию источников этой информации. В состав СМЭС входят классификации
Организации Объединенных наций (ООН) и ее специализированных образований.
Второй класс классификаторов образуют
общегосударственные (общесистемные) классификаторы, обязательные
для организации процессов передачи и обработки информации между экономическими
системами государственного уровня внутри страны.
Для выполнения процедур обработки информации и передачи ее
между организациями внутри отрасли используют отраслевые классификаторы.
В пределах отдельных предприятий используют, как правило, локальные
классификаторы.