72. Проблемы взаимодействия и совместимости средств
лингвистического обеспечения АИС
Совместимость лингвистических средств остается одной из
важнейших проблем разработки лингвистического обеспечения.
Одно из основных направлений развития современных
информационных систем – создание информационных сетей. Под сетями понимаются
различные формы объединения служб и систем, обеспечивающих пользователям доступ
ко многим базам данных, как создаваемым в составе сети, так и получаемым извне.
Интеграция действий в области обработки и поставки информации
исключает огромные непроизводственные потери общественных ресурсов на
дублирование обработки одних и тех же документов в разных отраслях. Пример
такого подхода – созданные в нашей стране централизованные библиотечные системы
(ЦБС) и сеть автоматизированных информационных центров (САЦНТИ).
Реальная эксплуатация этих систем и сетей столкнулась с
чрезвычайно сложным препятствием на пути регулярного обмена информацией,
обработанной в отдельных звеньях такой системы. Это препятствие вызвано
многообразием применяемых ИПЯ, в результате чего взаимодействие отдельных
элементов, подсистем оказывается весьма затруднительным.
Проблема совместимости языковых средств была и остаётся
центральной проблемой разработки, создания, ведения ЛО.
В настоящее время нет единого стандартизированного понятия
«совместимость ИПЯ».
Значения понятия «совместимость»:
1. в узком смысле: возможность
использования в одной и той же ИПС поисковых образов документов на одном ИПЯ, а
поисковых предписаний – на другом;
2. переводимость, т.е.
возможность автоматической или ручной трансляции поискового образа документа
(ПОД) или поискового предписания (ПП) с одного ИПЯ на другой.
3. сосуществование, т.е.
возможность использования нескольких ИПЯ в одной системе
Одной из первых попыток разрешить проблему совместимости
языковых средств в масштабе всей страны явились работы по созданию единой
системы классификации печатных изданий и документальных материалов. Важнейшим
результатом работ по этой проблеме, проводившихся в 1965-
Важно осознание принципиальной невозможности построения
единого ИПЯ, выполняющего одновременно все функции лингвистических средств и
обеспечивающего все информационные задачи, решаемые системой. Оно означает
понимание того, что каждый тип ИПЯ предназначен для функционирования в строго
определенных условиях и «настроен» на удовлетворение информационных нужд
определенного типа. Многообразие используемых ИПЯ объясняется различиями в
тематике. Характере информационных массивов и запросов, требованиях к полноте и
точности поиска, режиму работы системы. Поэтом попытки тем или иным путем свести
все типы ИПЯ к какому-то единому языку логически не обоснованы и практически не
оправданы. Ведь если предположить, что такой ИПЯ удалось построить, то, скорее
всего, он определенно лишился бы своих основных достоинств, сохранив и умножив
имеющиеся недостатки.
Проблема совместимости порождает многообразие и
многофункциональность ИПЯ. Взаимодействие различных ИПС в информационных сетях и
системах усиливает эту проблему.
Новая постановка проблемы совместимости вызвана приобретением
современными ИПС ряда свойств:
1. бурное развитие режима
диалога
2. одновременный поиск во
многих БД, в т.ч. в режиме сети, с использованием нескольких ИПЯ
3. интеграция информационных
систем с различными системами (САПР, библиотечные, издательские)
4. создание ИПС на основе СУБД
и ППП
ЛО АИС НТИ – способность одной АИС НТИ принимать и
использовать в автоматическом или человеко-машинном режиме результаты
алгоритмической или интеллектуальной деятельности других АИС НТИ по переводу
информации в данные.
Средства обеспечения совместимости:
1. рубрикаторы и классификаторы
информации
2. унифицированные
коммуникативные форматы представления информации
3. тезаурусы и другие
нормативные словари
4. конверторы (специальные
программные средства перевода с одного языка на другой)
5. единый командный язык для
САЦНТИ
6. нормативно-методические
документы, регламентирующие порядок создания, ведения и практического
использования средств ЛО
7. широкое использование
диалога при общении с базами данных для адаптации потребителя информации к
лингвистическим средствам определённой АИС НТИ.
Способы взаимодействия ИПЯ в рамках ИТ:
1. параллельное использование
нескольких ИПЯ
2. интеграция двух разнотипных
ИПЯ. Когда в основной ИПЯ включаются элементы другого ИПЯ за счет этого
увеличивается семантическая сила ИПЯ. Идея интеграции ИПЯ использовалась при
фасетизации УДК и ББК, в создании тезауруса фасета, в сочетании
классификационных и дескрипторных языков (Например, язык КЛАДЕС)
3. конверсия, т.е.
автоматически осуществляемое преобразование записи на одном языке в другой язык.
На практике реализуется при создании таблиц соответствия.
Основные методы достижения совместимости ЛО:
1.
концептуальная совместимость
Концепция – целостное видение, идеология чего-либо. Метод
предполагает разработку единых принципов создания и функционирования ЛО
отдельных АИС НТИ входящих в сеть. Применение концептуальных методов характерно
для больших ИС регионального, национального или международного уровня.
Обеспечение концептуальной совместимости достигается за счет внедрения
нормативных документов в которых определяется структура, состав ЛО участников
сети, основные требования к отдельным языковым средствам.
2.
стандартизация и унификация языковых средств и поддерживающих компонентов ЛО
Наиболее распространённый метод. Унификация – приведение к
единообразию.
Стандартизация является наиболее распространенным методом
обеспечения совместимости различных компонентов ЛО. Большинство международных и
национальных стандартов посвящено унификации алфавитов, их кодированию,
транслитерации (воплощение знаков), языку библиографических данных и его
отдельных элементов, структуре тезаурусов, терминологии.
3. создание
общесетевых языковых средств
Ориентирован на обеспечение различных форм взаимодействия АС.
В числе наиболее известных попыток создания общесетевых
языковых средств различного уровня следует назвать проект всесоюзной
информационной классификации, разработку рубрикатора МСНТИ/ГАСНТИ, создание
общесистемных словарей дескрипторного типа, макротезаурусов, представление
бибилиографических данных на основе коммуникативных форматов ГКФ, МЕКОФ.
4. обмен
языковыми средствами между участниками сети
5.
сопряжение языковых средств
При этом методе языки, различаясь по каким-либо параметрам (
по лексическому составу, глубине иерархии, грамматическим средствам) тем не
менее могут использоваться в других АИС НТИ либо непосредственно, либо путем
незначительных корректировок.
Этот метод является идеологической основой при разработке
принципов совместимости рубрикатора ГАСНТИ (ГРНТИ) с локальными рубрикаторами,
базисных тезаурусов с рабочими, коммуникативного формата с внутренними,
развитого алфавита с упрощенным.
6. методы
трансляции (перевода, конверсии)
Наиболее сложный. Этот метод обеспечения совместимости
несопряжённых ИПЯ при котором в ходе адаптации внешних баз данных производится
автоматический или автоматизированный перевод сообщений с одного ИПЯ на другой.
Проблема трансляции семантических языковых средств является одной из наиболее
сложных, поскольку связана с сущностными характеристиками различных ИПЯ,
особенностями их внутренней структуры.
7.
«сосуществование» разных языков в сети
Применительно к новой ИТ этот метод предполагает, что базы
данных, имеющие разные языковые средства не интегрируются и пользователь,
проведя поиск в разных базах данных должен каждый раз переходить на новый язык.
Совместимость в таком случае реализуется только на уровне
языка запросов.
Параллельное использование нескольких ИПЯ.
Неразработанность проблемы совместимости средств ЛО еще раз
подчеркивает необходимость решения задачи рационального использование всего
богатства набора различных ИПЯ и выбора из этого множества таких языков, которые
в наибольшей степени отвечают потребностям конкретной системы, предметной
области, профилю информационных потребностей обслуживаемых абонентов.