1

К оглавлению

   

68. Дескрипторные ИПЯ

 (Пост)Координатные ИПЯ, ИПЯ дескрипторного типа, вербальные ИПЯ – ИПЯ, построенный на принципах посткоординации, лексическими единицами которого являются дескрипторы, содержащиеся в словарях, называемых тезаурусами и представляющими нормированную лексику, а также ключевые слова, представляющие ненормированные лексические единицы – ненормированная лексика. 

Посткоординация, координация – построение словарного состава ИПЯ, а также поисковых образов документов и запросов путем разделения сложных понятий, взятых из текущего потока обрабатываемых документов, на составные элементы и последующего объединения полученных лексических единиц данного ИПЯ с использованием логических операторов и других средств, представляющих его синтаксис.

Тезаурус (информационно-поисковый)

1. Словарь, который содержит разрешенные для использования при координатном индексировании лексические единицы ИПЯ, а также парадигматические отношения между этими лексическими единицами. Тезаурусы различают по принципу их организации (например, алфавитный, иерархический или фасетный), способу использования (например, машинный тезаурус, т.е. находящийся в памяти ЭВМ), тематике и полноте охвата его лексикой  определенной предметной области (например, базовый тезаурус, рабочий тезаурус, многоотраслевой тезаурус, узкотематический тезаурус и т. п.).

2. Словарь синонимов – в программном обеспечении: файл с синонимами, записанными на диске совместно с программой, использующей этот файл.

Дескриптор – лексическая единица дескрипторного ИПЯ, которая при индексировании выбирается не из обрабатываемого текстового или другого материала, а из специального словаря. Дескрипторы отличаются от  ключевых слов тем, что им придана смысловая однозначность.

Аскриптор, недискриптор – лексическая  единица информационно-поискового тезауруса, которая в поисковых образах документов и запросов подлежит замене на дескриптор при поиске или обработке информации.

Ключевое слово, КС 

1. Слово или словосочетание из текста документа или запроса, которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска. Длину словосочетаний рекомендуется ограничивать двумя-тремя словами.

2. Информативное слово, приведенное в стандартной лексикографической форме и используемое для координатного индексирования;

Ключевые слова (точнее было бы их назвать "ключевыми терминами")  составляются на основании специальных правил, которые обеспечивают однозначность их понимания и применения.

 

В основу построения дескрипторных языков положен принцип координатного индексирования, заключающийся в том, что главная тема документа описывается перечнем дескрипторов (от англ. describe - описывать) – слов, являющихся именами простых понятий. Такие слова выступают в качестве как бы координат документов в некотором умозрительном n-мерном предметно-тематическом пространстве.

Принцип координатного индексирования был разработан в 1950-х годах в процессе создания механизированных ИПС. Однако сам принцип описания содержания документов через перечисление «ключевых слов» существует издавна. Одной из первых дескрипторных ИПС была система УНИТЕРМ, разработанная в США М. Таубе. В ней в качестве индексов, описывающих содержание документов и запросов, использовались ключевые слова, выбранные из текста. Все такие слова (унитермы) имели одинаковый иерархический ранг. Словарный состав унитермных языков не разрабатывался предварительно, а формировался непосредственно в процессе индексирования. Координация, или логическое умножение понятий, в результате которой из простых лексических единиц строятся более сложные, выражающие более узкие понятия, осуществлялась как бы дважды: потенциально — при индексировании документа и реально - в процессе поиска: при сопоставлении поискового образа документа с терминами запроса (поискового предписания). Например, пересечением понятий БИБЛИОТЕКИ и АВТОМАТИЗАЦИЯ, заданных в поисковом предписании, порождается новое более узкое понятие АВТОМАТИЗАЦИЯ БИБЛИОТЕК.

Информационно-поисковые языки классификационного типа широко используются в автоматизированных ИПС промышленного назначения, применяемых, например, при поиске аналогов проектируемых деталей с целью заимствования технологического процесса для их обработки. Однако применение ИПЯ, основанных на той или иной классификации, в автоматизированных документальных ИПС ограничивается тем, что введение новых сложных многоаспектных понятий требует бесконечного расширения классификации, что, конечно, невозможно.

Поэтому в последнее время в автоматизированных ИПС предпочтение отдается так называемым ИПЯ дескрипторного типа. Дескрипторы – это термины естественного языка, выражающие определенные понятия. Словарь дескрипторов с указанными между ними смысловыми отношениями, охватывающий определенную область знания, называется информационно-поисковым тезаурусом (ИПТ). Идея применения ИПТ для информационного поиска документов состоит в описании содержания документов и запросов с помощью дескрипторов, входящих в его состав. На практике эта идея реализуется следующим образом. Текст документа, вводимого в ИПС, уменьшается до объема реферата, в котором выделяются слова, несущие основную смысловую нагрузку, так называемые ключевые слова. При помощи ключевых слов достаточно точно передается содержание документа. После этого каждое слово заменяется близким ему по смыслу дескриптором информационно-поискового тезауруса.

Совокупность терминов тезауруса-дескрипторов, заменивших ключевые слова, образует поисковый образ документа. Точно так же на язык дескрипторов переводится и запрос. Поиск документов после этого уже можно поручить машине. ЭВМ с присущей ей быстротой просматривает массивы ПОДов и сравнивает их с ПОЗом. Цель такого сравнения – выявить дескрипторы, принадлежащие одновременно ПОДу и ПОЗу, т.е. найти пересечение множеств дескрипторов ПОДа и ПОЗа. Чем больше зона пересечения, тем точнее соответствие документа запросу. Минимальная величина зоны пересечения оговаривается принятым критерием смыслового соответствия. Изменяя его, можно варьировать точность и полноту поиска в зависимости от нужд потребителей информации.

Таковы принципы работы ИПС с ИПЯ дескрипторного типа. Качество их работы во многом зависит от совершенства применяемого информационно-поискового тезауруса. Поэтому требования к ИПТ очень высоки. В нем не должно быть, например, терминов, выражающих одно и то же понятие, т.е. синонимов – это привело бы к потерям информации при поиске. Кроме этого, должны быть зафиксированы некоторые отношения между терминами (род – вид, часть – целое и другие), служащие целям повышения точности и полноты поиска.

Обычно информационно-поисковые тезаурусы оформляются в виде книг. Лексику тезаурусов составляют не только дескрипторы, но и их синонимы, которые не являются дескрипторами. Присутствие в тезаурусе синонимов имеет большое значение. Поясним это на примере.

Использование синонимичных терминов приводит к потерям информации. Чтобы предотвратить это, из нескольких синонимов в качестве дескриптора выбирают один – термин, – а другой снабжают отсылкой к первому (пометкой): см. Такая пометка означает, что вместо одного термина при составлении поисковых образов документов или запросов следует использовать другой, являющийся дескриптором. Именно так ликвидируется в тезаурусах синонимия.

Если из нескольких синонимов один выбран в качестве дескриптора, то остальные при этом получают название ключевых слов. Наличие в тезаурусе ключевых слов с отсылками к соответствующим дескрипторам облегчает индексирование документов, обеспечивает быстрый поиск нужного термина, способствует повышению качества функционирования ИПС.

Тезаурус является необходимым лингвистическим пособием любой механизированной или автоматизированной информационно-поисковой системы, использующей ИПЯ дескрипторного типа.

Первые тезаурусы, удовлетворяющие специфическим задачам информационного поиска, были разработаны в начале 60-х годов нашего века.

Структура, состав и форма представления тезауруса

В состав ИПТ входит вводная часть, основная часть (лексико-семантический указатель) и дополнительные части (систематический, пермутационный, иерархический и др. указатели и списки специальных категорий ЛЕ).

Обязательными составными частями являются вводная часть и лексико-семантический указатель.

Допускается в состав ИПТ вводить приложения, содержащие дополнительные сведения о разработке и использовании ИПТ. Вводная часть включает титульный лист и введение.

В рамках дескрипторной статьи термины располагаются в следующем порядке:

1) заглавный дескриптор выделен при помощи шрифта. Например заглавными буквами;

2) дополнительные данные;

3) лексическое примечание (краткое объяснение уточнение значения дескриптора);

4) аскрипторы или дескрипторы синонимы (которые следуют за индексом «С»);

5) вышестоящие дескрипторы следующие за индексом «в»;

6) нижестоящие дескрипторы следующие за индексом «а»;

7) дескрипторы связанные другими видами отношений.

Вышестоящий дескриптор, широкий дескриптор- это дескриптор обозначающий либо родовое понятие, либо целое по отношению к данному дескриптору обозначающий часть этого целого.

Нижестоящий дескриптор или узкий дескриптор - дескриптор обозначающий либо видовое понятие, либо часть представляющую вышестоящий дескриптор.

Ассоциативный дескриптор – дескриптор связанный с другими семантической связью характер которой не указан.

Неоднозначность ЛЕ устраняется релятором или лексическим примечанием в зависимости от характера неоднозначности и способа использования ИПТ.  Релятор является частью ЛЕ и поясняет ее значение, относя ее к определенно понятийной категории или предметно-тематической области. Допускается релятор представлять сокращением, например: стабилизатор (электротехн.)

Основными типами связи является: причина-следствие, процесс-объект, функциональное сходство, антонимия.

В соответствии с тематическим профилем различают многоотраслевые, отраслевые и узкотематические тезаурусы.

 

К оглавлению

Hosted by uCoz