1

К оглавлению

   

66. Информационно-поисковые языки  в структуре лингвистического обеспечения АИС

Информационно-поисковый язык, ИПЯ – формализованный искусственный язык, предназначенный для  индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска.

Искусственный язык - язык, специально сконструированный людьми для специфических видов коммуникации, для решения определенных задач в области науки, техники, культуры. Различают универсальные (эсперанто, воляпюк, новиаль, идо и др.) и специализированные (язык математических, физических, химических формул; азбука Морзе, языки программирования, информационно-поисковые языки, язык музыкальной партитуры и др.) искусственные языки.

Формализация лексики и создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующих в нем синонимии и омонимии для реализации однозначности информационного поиска.

Различают языки описания (декларативные языки), которые в свою  очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также процедурные языки (языки  запросов и манипулирования данными).

Каждый тип языковых средств включает в себя: алфавит и  микросинтаксис (графические средства представления данных), нормированную лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов.

Алфавит ИПЯ - совокупность знаков и символов и правила их применения, используемые для представления лексических единиц и их взаимоотношений. В состав знаков и символов входят: совокупность букв алфавита какого-либо естественного языка (латинского, кириллического и др.); арабских и римских цифр; знаков пунктуации (точка, запятая, двоеточие, кавычки, дефис, круглые и квадратные скобки, апостроф и др.); знаков арифметических операций (плюс, минус, косая черта, знак процента и др.); знаков отношений (больше, меньше, равно); операторов булевой алгебры (знаки конъюнкции, дизъюнкции, отрицания); специальных знаков и символов (стрелки, двойное двоеточие, квадрат, знак конгруэнтности, астериск и др.).

Лексика ИПЯ - совокупность лексических единиц, которыми оперирует данный ИПЯ.

Способ задания лексических единиц

1) Контролируемые — языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные классификации (универсальная десятичная классификация, библиографическая классификация, классификация Дьюи).

1. Язык предметных рубрик. На основе иерархической классификации строят систематические каталоги. На основе языка предметных рубрик строят предметные каталоги. Алфавитные каталоги — ручной поиск.

2. Дескрипторные ИПЯ, а также язык ключевых слов — автоматический поиск.

2) Неконтролируемые — лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последнее время.

По области или по сфере применения ИПЯ можно выделить:

1. Коммуникативные (общесистемные) ИПЯ, предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в том числе распределенными по государственной, ведомственной или территориальной принадлежности);

2. Локальные (внутренние) ИПЯ, предназначенные для использования в рамках отдельной системы;

3. Внешние ИПЯ, используемые в других системах и предназначенные для взаимодействия только с ними.

Выделяют 2 вида отношений в ИПЯ:

1) Синтагматические отношения в ИПЯ - линейные отношения между лексическими единицами ИПЯ, устанавливаемые непосредственно при их использовании. Способом выражения синтагматических отношений являются грамматические средства, в качестве которых выступают: мешочная, позиционная грамматика, указатели роли, указатели связи, грамматика логических операторов. Формальным средством выражения синтагматических отношений являются опознавательные, разделительные знаки, а также знаки присоединения.

Мешочная грамматика - один из способов выражения синтагматических отношений в ИПЯ, заключающийся в простом перечислении лексических единиц, входящих в один поисковый образ или поисковое предписание. Порядок следования лексических единиц при этом значения не имеет. Мешочная грамматика используется в словарных ИПЯ.

Позиционная грамматика - один из способов выражения синтагматических отношений в ИПЯ, заключающийся установлении жесткого порядка следования лексических единиц, входящих в один поисковый образ. В классификационных ИПЯ проявляется в использовании классификационной формулы при систематизации и формулы предметных рубрик при предметизации, в ИПЯ координатного типа - в использовании метода стандартных фраз, аспектного метода представления информации.

Указатели роли - один из способов выражения синтагматических отношений в ИПЯ, характеризующий логические связи между лексическими единицами и уточняющий смысловую функцию (роль) каждой лексической единицы в поисковом образе. Указатели роли используются преимущественно в словарных ИПЯ и создаются применительно к конкретным отраслям знания. В классификационных ИПЯ функцию указателей роли выполняют, например, общие определители точки зрения в (УДК). Указатели роли позволяют уменьшать объем понятия, обозначаемого лексической единицей, что дает возможность обеспечить большую точность информационного поиска. Выражаются с помощью букв и цифр.

Указатели связи - один из способов выражения синтагматических отношений в ИПЯ, указывающий на наличие логической связи между лексическими единицами и устраняющий их ложное сочетание в поисковом образе. Указатели связи широко используются в словарных ИПЯ и выражаются с помощью символов, букв или цифр. В классификационных ИПЯ функцию указателей связи выполняет знак квадратные скобки. Указатели связи позволяют исключить информационный шум и обеспечить точность информационного поиска.

Грамматика логических операторов - один из способов выражения синтагматических отношений в ИПЯ, позволяющий осуществлять логическое умножение (оператор И – знак ), сложение (оператор ИЛИ – знак ) и вычитание (оператор НЕ – знак ) лексических единиц ИПЯ при построении поискового предписания. Грамматика логических операторов используется в словарных ИПЯ. Служит для уточнения объемов понятий, выражаемых лексическими единицами, с целью обеспечения большей точности информационного поиска.

2) Парадигматические отношения в ИПЯ - смысловые логические отношения между лексическими единицами ИПЯ, не зависящие от контекста, в котором употребляются. Различают сильные и слабые парадигматические отношения.

Виды парадигматических отношений:

1) Сильные

1.1) Отношения тождества (использование синонимов)

1.2) Отношения иерархии

1.2.1) Род-вид

1.2.2) Целое-часть

2) Слабые

2.1) Отношения пересечения понятий

2.2) Отношения ассоциации

2.3) Отношения причины - следствия

2.4) Отношения смежности

2.5) Отношения контраста

2.6) Отношения кратности

Некоторые дополнительные термины, связанные с видами ИПЯ

• Вербальный ИПЯ – ИПЯ, использующий для своих лексических единиц слова и выражения естественного языка в их орфографической форме. К вербальным языкам относятся дескрипторные языки, язык предметных рубрик, язык ключевых слов.

• Естественный язык – неформализованный язык пользователя информационно-поисковой системы, являющийся средством человеческого общения.

• Язык запросов – язык общения пользователей с информационной системой, являющийся средством описания запросов на поиск и вывод данных.

• Язык предметных заголовков – ИПЯ, основанный на использовании иерархических предметных рубрик с фиксированным числом уровней, в котором для обозначения рубрик или связанных с ними понятий не используются специальные классификационные индексы или коды.

• Синтагматический язык – семейство ИПЯ, использующих связанные в предложения лексические единицы – синтагмы.

• Тематический ИПЯ — язык ключевых слов без грамматики, основными лексическими единицами которого являются слова и словосочетания  естественного языка.

К оглавлению

Hosted by uCoz