55. Проектирование подсистемы лингвистического обеспечения

Лингвистическое обеспечение предусматривает выбор и (или) создание лингвистических средств, обеспечивающих рациональное представление и поиск данных в АИС.

Лингвистическое обеспечение АИС включает в себя комплекс информационно-поисковых языков (ИПЯ), а также средств и методов их создания, ведения, использования и контроля.

Для лингвистического обеспечения системы приводят требования к применению в системе языков программирования высокого уровня, языков взаимодействия пользователей и технических средств системы, а также требования к кодированию и декодированию данных, к языкам ввода-вывода данных, языкам манипулирования данными, средствам описания предметной области (объекта автоматизации), к способам организации диалога.

В структуре лингвистического обеспечения проектируемой АИС, в зависимости от ее типа и состава решаемых задач, могут быть представлены следующие группы лингвистических средств:

1. Информационно-поисковые языки:

1.1. Классификационные ИПЯ

1.2. Дескрипторные ИПЯ

1.3. Объектно-признаковый язык (в т. ч. язык библиографического описания)

2. Элементы информационно-поисковых языков:

2.1. Международные стандартные номера (ISBN, ISSN)

2.2. Коды названий (языков, стран, физических единиц и т. п.)

3. Языки взаимодействия с системой:

3.1. Семантические языки разметки текста ((HTML и т. п.)

3.2. Языки диалога (элементы интерфейса и т. п.)

4. Форматы представления данных в машиночитаемой форме (коммуникативные форматы RUSMARC, UNIMARC и т. п.)

5. Нормативно-справочная база:

5.1. Нормативные документы

5.2. Инструктивно-методические документы

5.3. Справочники

5.4. Файлы авторитетных записей (предметных рубрик, авторов и т. п.).

Наполнение данных групп конкретными лингвистическими средствами осуществляется на основе анализа задач, решаемых конкретной системой, функционирующих в ней документальных потоков, а также выполняемых информационных запросов.

Процесс проектирования лингвистического обеспечения АИС включает следующие этапы:

1. Выявление лингвистических средств на основе анализа задач, решаемых в конкретной АИС.

2. Выявление лингвистических средств входного и выходного документального потока.

3. Выявление лингвистических средств, обеспечивающих выполнение информационных запросов.

4. Выявление компонентов нормативно-справочной базы лингвистического обеспечения: стандартов, положений, инструктивно-методических документов, справочников и т. п.

5. Разработка логических структур проектируемых справочников.

В случае, если лингвистические средства разрабатываются самостоятельно либо используются локальные лингвистические средства конкретных организаций и учреждений, следует привести их (полностью или в виде фрагмента) в приложении. Необходимо обосновать выбор той или иной системы кодирования при построении лингвистического средства. При этом рекомендуется ориентироваться на системы кодирования, представленные на рис.

Приведенная на рис. классификация систем кодирования может быть детализирована. Так, последовательная и параллельная системы кодирования строятся на основе разрядной (позиционной) или комбинированной систем кодирования. Создание систем кодирования базируется на использовании соответствующих методов кодирования.

В заключении необходимо дать оценку соответствия спроектированного лингвистического обеспечения требованиям к лингвистическому обеспечению системы (подсистемы), предъявляемым нормативными документами (стандартами, руководящими документами и др.), а также техническим заданием на создание конкретной АИС.

Методы кодирования информации

Наименование метода	Сущность	Преимущества	Недостатки		Сфера (условия) применения
Регистрационные методы кодирования
Порядковый метод кодирования	метод, при котором кодами служат числа натурального ряда; в этом случае кодом каждого из объектов классифицируемого множества является его порядковый номер	- обеспечивает довольно большую долговечность классификатора при незначительной избыточности кода; - обладает наибольшей простотой, использует наиболее короткие коды и лучше обеспечивает однозначность определения каждого объекта классификации; - обеспечивает наиболее простое присвоение кодов новым объектам, появляющимся в процессе ведения классификатора, т. к. каждому новому объекту присваивается следующий номер по порядку	- отсутствие в коде какой-либо конкретной информации о свойствах объекта; - сложность машинной обработки информации при получении итогов по группе объектов классификации с одинаковыми признаками; - не обеспечивает возможности размещения вновь появившихся объектов классификации в необходимом месте классификатора, т. к резервные коды располагаются в конце ряда		чаще всего применяется в сочетании с другими методами кодирования
Серийно-порядковый метод кодирования	метод, при котором кодами служат числа натурального ряда с закреплением отдельных серий этих чисел за объектами классификации с одинаковыми признаками	- наличие в каждой серии, кроме кодов имеющихся объектов классификации, определенного количества кодов для резерва, резерв кодов располагается в середине или в конце серии			целесообразно применять для объектов, имеющих два соподчиненных признака
		В целом метод обладает всеми преимуществами и недостатками порядкового метода кодирования
Классификационные методы кодирования
Последовательный метод кодирования	метод кодирования, при котором код объекта классификации и (или) классификационной группировки образуется с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе классификации; в этом случае код нижестоящей группировки образуется путем добавления соответствующего количества разрядов к коду вышестоящей группировки	- логичность построения кода; - большая емкость		- обладает всеми недостатками, присущими иерархическому методу классификации; - ограниченные возможности идентификации объектов; - невозможность применения полученного кода по частям, т.к. существует зависимость значений последующих разрядов кода от предыдущих; - сложность группировки объектов по различным сочетаниям имеющихся признаков; - практически невозможно вносить новые признаки и производить изменения в коде без коренной перестройки классификатора	чаще всего используется при иерархическом методе классификации; применять метод целесообразно в тех случаях, когда набор признаков классификации и их последовательность стабильны в течение длительного времени
Параллельный метод кодирования	метод, при котором код объекта классификации и (или) классификационной группировки образуется с использованием кодов независимых группировок, полученных при фасетном методе классификации	- гибкость структуры кода, обусловленная блочностью его построения; - возможность использовать при решении конкретных технико-экономических и социальных задач коды только тех признаков объектов, которые необходимы, что дает возможность работать в каждом отдельном случае с кодами небольшой длины; - возможность группировки объектов по любому сочетанию признаков; - наглядность кодовой комбинации (легко указать, набором каких характеристик описывается рассматриваемый объект); - набор признаков при необходимости может легко пополняться присоединением кода нового признака			хорошо приспособлен для машинной обработки информации

К оглавлению