69. Объектно-признаковые ИПЯ
Объектно-признаковый ИПЯ – вид координатного ИПЯ,
предназначенный для представления фактографических данных.
Появление объектно-признаковых ИПЯ связано с задачами, которые
призваны решать фактографические информационно-поисковые системы. В состав
лингвистического обеспечения фактографического информационного поиска входят те
же ИПЯ, которые используются и при документальном информационном поиске:
классификационные и дескрипторные ИПЯ; никаких принципиально новых языковых
средств для обеспечения работы фактографических ИПС не создано. Однако
применение этих ИПЯ в рамках фактографических ИПС (ФИПС) имеет свои
особенности, обусловленные, прежде всего, характером фактографической
информации, подлежащей вводу, обработке, хранению и поиску. Для того чтобы
понять специфику ИПЯ, обслуживающих задачи ФИПС, следует обратиться к основным
понятиям фактографического поиска информации.
Базовыми понятиями теории фактографического информационного
поиска являются понятия «факт» и «фактографическая информация».
Факт (от латинского factum «сделанное, совершившееся») в
обычном смысле слова – синоним понятий «истина», «событие», «результат». Это
знание, достоверность которого доказана. Факт – это нечто реальное, в
противоположность вымышленному; конкретное, единичное, в отличие от
абстрактного и общего. Как форма эмпирического знания факт противопоставляется
теории или гипотезе.
Фактографическая информация — это информация о фактах.
Знакомство с реальной ситуацией в информационном обслуживании показывает, что
фактографическую информацию обычно сознательно или бессознательно трактуют
просто как конкретные сведения или данные независимо от того, являются ли они
фактическими или прогнозируемыми. Главное, что эти сведения сообщают о
какой-то предметной области, а не о документах, посвященных этой области.
Исходя из такого понимания, фактографическую информацию можно классифицировать
следующим образом:
1) фактическая и прогнозная (гипотетическая) информация;
2) количественная и качественная фактографическая информация;
3) хорошо структурированная фактографическая информация и
плохо структурированная фактографическая информация. К хорошо структурированным
сведениям относятся, прежде всего, сведения количественного характера, а также
качественные (словесно выраженные) сведения, имеющие хорошо регламентированную
форму: параметры оборудования и их значения (например, габариты механизмов
и аппаратов), наименования и
адреса организаций и учреждений и т. п. Обычно эти сведения бывают оформлены
(или легко могут быть оформлены) как анкеты, таблицы и т. п. Часто такую
информацию называют параметрической. К плохо структурированным относятся
сведения, представленные разнообразными нерегламентированными словесными
инструкциями, т. е. различные описания отдельных фактов, изложение концепций и
теорий, сделанных на естественном языке.
Как известно, в отличие от документальных ИПС, ФИПС призваны
выдавать в ответ на запрос не документы или сведения о них, а факты, т. е.
некоторые утверждения о том, что имеет, не имеет или, возможно, будет иметь
место (или желательно, чтобы имело место). Каждое такое утверждение, т. е. факт
или минимальная смысловая единица фактографического поиска, имеет характер
триады: объект – признак – значение. Таким образом, основной особенностью
ИПЯ ФИПС является то, что запись фактографической информации должна содержать
указание и на объект фактографического поиска, и на признак этого объекта, и
давать, кроме того, конкретное значение этого признака на данном объекте.
Из этой принципиальной особенности ИПЯ ФИПС вытекает
обязательное требование: составление перечня объектов фактографического поиска,
выбор их наиболее важных признаков и соответствующих им значений. Не случайно,
что целая группа ИПЯ, используемых в составе лингвистического обеспечения ФИПС,
получила название объектно-признаковых. Семантические и грамматические
особенности объектно-признаковых языков (ОПЯ) определяются необходимостью
фиксировать связь «объект - признак - значение». При таком подходе в качестве
алфавита ОПЯ выступает алфавит естественного языка, цифры, специальные символы,
а в качестве лексических единиц — слова и словосочетания.
В составе лексики ОПЯ можно выделить три основных
лексико-семантических класса названий: объектов, признаков и значений признаков.
Объектами являются основные единицы (изделия, материалы
технологические процессы и т. п.) фактографического поиска описываемые с помощью
совокупности пар «признак – значение». В каждой области знаний система объектов,
естественно, своя. Выделению, определению комплекса объектов ФИПС должно
предшествовать изучение потребностей специалистов в информации о фактах,
определение круга тех информационных задач, которые должна решать данная ФИПС.
Это изучение может осуществляться путем анализа специфики научной или
производственной деятельности организации, а также в ходе исследования запросов
потребителей информации на фактографическую информацию.
Все присущие объектам фактографического поиска признаки
делятся на количественные и качественные. Количественные признаки – это
именованные и неименованные числа.
Принято выделять следующие типы значений количественных
признаков.
1. Числовой номинальный признак, выражающийся числом,
указывающим номинальное значение признака, например: цена (признак) – 345 руб.
15 коп. (значение признака).
2. Числовой интервальный признак, выражающийся двумя числами,
указывающими минимальное значение, т. е. границы интервала признака.
Качественные признаки – это признаки, значение которых
выражается описательно, словесно.
Разновидностью качественных признаков являются признаки
наличия свойства и признаки степени свойства.
В качестве признаков наличия свойства выступают слова да и нет
и различные вариации: есть, не был, был, отсутствие, наличие.
В качестве признаков степени свойства выступают слова: слабый,
средний, сильный, интенсивный, малоинтенсивный и т. п.
Особенности лексики ОПЯ обусловлены как спецификой
фактографического поиска, триадностью фактографической информации, так и
источниками отбора лексических единиц: использование массивов вторичных
документов для отбора лексики является неприемлемым. В качестве источников для
отбора лексики в ОПЯ служат первичные документы, практически все виды научной,
технической и производственной литературы. Особое значение при этом отводится
техническим каталогам, прейскурантам, научно-технической
документации, адресным книгам, деловой переписке, отчетно-статистической
документации и другим источникам, содержащим хорошо структурированную
фактографическую информацию.
В состав лексики ОПЯ входят следующие типы лексических единиц:
1. Лексические единицы, выраженные терминами.
2. Номенклатурные знаки (номенклатура).
Отличие номенклатурного знака от термина заключается в том что
в основе терминов лежат общие понятия, а в основе номенклатуры — единичные
понятия, например понятия о конкретной промышленной продукции, о способах ее
изготовления. Номенклатуры — это своеобразные «этикетки» единичных объектов,
зачастую выраженные абстрактными символами.
3. Кванторные лексические единицы — это лексические единицы,
смысл которых совпадает с семантикой таких русских слов, как несколько, все,
некоторые из, больше половины и т. п. (латинское слово quantum переводится
как «сколько»).
4. Модальные лексические единицы — это
совокупность лексических единиц, смысл которых соответствует
семантике русских слов вероятно, достоверно, наверняка и т.
п. Причина введения этого класса лексических единиц в
ИПЯ ФИПС — необходимость сохранения авторской оценки достоверности записываемых
на ИПЯ сведений.
5. Лексические единицы, служащие для обозначения
названий публикаций и источников сведений, из которых извлекается
фактографическая информация, позволяющие «привязать» каждый факт к источнику,
из которого он взят.
Организационную структуру ОПЯ представляют
объектно-характеристические таблицы, используемые в большинстве
действующих ФИПС. Это такие таблицы, в которых названия
строк соответствуют объектам фактографического поиска, названия столбцов – их
признакам, а конкретные значения (числовые или словесные) записываются на
пересечении строк и столбцов.
Однако во многих случаях объектно-характеристическая таблица
оказывается слишком бедным языком, не позволяющим отразить всю необходимую
информацию, например отношения между разными признаками одного и того же объекта
или между значениями одного признака на разных объектах. Кроме того, она
непригодна в тех случаях, когда наборы признаков, описывающих разные объекты,
могут во многом не совпадать. В этом случае она была бы громоздкой (так как
должна была содержать в себе все признаки) и в то же время имела бы много
незаполненных клеток. В таких случаях используют более сложные ОПЯ,
реализованные с помощью специализированного
фактографического тезауруса.
По сравнению с традиционными информационно-поисковыми
тезаурусами, используемыми для обеспечения документального поиска, создание
фактографических тезаурусов является новым и весьма непростым делом. Их
разработка связана с деятельностью сектора фактографического информационного
поиска отдела ИПС ВИНИТИ.
Тезаурус фактографической ИПС служит трем основным целям:
для перевода текстов документов на объектно-признаковый язык; для использования
семантических связей между лексическими единицами ОПЯ в процессе поиска; для
выдачи информации, содержащейся непосредственно в тезаурусе в виде
энциклопедических сведений, представляющих самостоятельный интерес.
Специфика тезауруса для ФИПС определяется особенностями
фактографического поиска. По своей структуре он более сложен чем тезаурус для
документальной ИПС (ДИПС). При обработке документа, поступившего на вход
системы, ДИПС ориентируется на сжатие текста, на определение основного
смыслового содержания, в то время как в ФИПС могут оказаться нужными для
потребителя самые конкретные, самые детальные и, возможно, даже для данного
документа совершенно периферийные сведения.
Вместе с тем нельзя забывать, что ФИПС не имеет права на
«информационный шум», поскольку основным принципом, лежащим в ее основе,
является достоверность и надежность выдаваемой фактографической информации.
Нетрудно представить негативные последствия нарушения этого
принципа в системах, обеспечивающих потребителей медицинскими,
фармакологическими, экологическими и другими подобными данными. ФИПС должна
гарантировать надежность выдаваемых сведений, так как в отличие от ДИПС
потребитель использует эти данные непосредственно после выдачи,
без обращения к дополнительным документальным источникам для проверки их
истинности.
Отсюда следует, что в тезаурусе ФИПС каждая лексическая
единица должна получить четкое толкование во избежание «шума» при ответах на
запрос. В документальных же тезаурусах толкования даются только в редких случаях
для снятия омонимии Специфика фактографического тезауруса состоит также и в том,
что в отличие от дескрипторных ИПТ, располагающих одним классом лексических
единиц – дескрипторами, фактографический тезаурус содержит, как уже сказано, три
класса лексических единиц (названия объектов, признаков, значений признаков), а
чаще – четыре, учитывая введение класса «названия групп признаков».
Язык библиографического описания – это ИПЯ,
основными лексическими единицами которого являются элементы, позволяющие на их
основе производить информационный поиск. Такими элементами, приведенными в
библиографическом описании в строго определенном порядке и предназначенными для
идентификации и разыскания документа, являются, например: заголовок, (автор(ы)),
заглавие, год издания и другие данные.
Алфавит ЯБО совпадает с алфавитом естественного языка. Кроме
того, он включает в свой состав арабские и римские цифры, знаки пунктуации,
квадратные и круглые скобки, символы, знак плюс.
Основной лексической единицей ЯБО является слово. Таким
образом, это ИПЯ словарного типа, обладающий вторым уровнем интеграции, план
выражения и план содержания ЛЕ которого совпадают.
Однако использование лексики естественного языка в этом ИПЯ
носит регламентированный характер.
Парадигматические отношения в ЯБО, в отличие от других ИПЯ, не
носят разветвленный дифференцированный характер. Тем не менее можно с
уверенностью говорить, что в нем используется такая разновидность
парадигматических отношений, как отношение иерархии.
Синтагматические отношения в ЯБО реализуются в виде
позиционной грамматики и носят достаточно жесткий характер. Это объясняется тем,
что последовательность употребления лексических единиц (элементов)
библиографического описания строго регламентируется системой соответствующих
ГОСТов. В качестве операторов позиционной грамматики выступают знаки пунктуации
и специальные символы, с помощью которых задается последовательность элементов
библиографического описания.
Библиографическое описание часто сравнивают с паспортом
документа, по которому потребитель, не видя самого документа,
может составить о нем общее представление. Важнейшими функциями
библиографического описания являются:
1) информационная: информирование о наличии определенного
документа и сообщение различных сведений о документе;
2) идентификационная, состоящая в обеспечении тождественности
между библиографическим описанием и документом;
3) поисковая, состоящая в том, что не только библиографическое
описание в целом, но и его элементы являются средством поиска в любой ИПС.
Выйдя за пределы каталогизации, библиографическое описание
широко используется в библиографии, научно-информационной и издательской
деятельности, книжной торговле. Значительное расширение функций
библиографического описания произошло за счет применения ЭВМ в процессах
обработки, хранения и поиска информации, с переводом библиографического описания
из традиционной в машиночитаемую форму.