1

К оглавлению

   

70. Индексирование как способ реализации ИПЯ

Индекс

1. Условный знак (в т.ч. слово, словосочетание, цифра, буквенный или буквенно-цифровой код и т.п.), обозначающий определенное понятие и используемый для записи результатов классифицирования а также идентификации объектов поиска в информационно-поисковых массивах;

2. Указатель адреса;

3. Таблица в электронном каталоге, определяющая местоположение набора данных;

4. Совокупность указателей, при помощи которых можно найти запись в файле данных;

5. Уровень в иерархической структуре системы многоуровневого индекса (см. ниже).

Виды индексирования

Индексирование — это процесс перевода содержания докумен­тов и запросов с естественного на информационно-поисковый язык, в результате чего создаются поисковые образы документов (ПОД) и поисковые предписания (ПП). Индексирование, наряду с составлением библиографического описания, реферированием, аннотированием, составлением обзоров, является разновидностью аналитико-синтетической обработки или свертывания информа­ции.

В зависимости от типа ИПЯ (иерархическая классификация, алфавитно-предметная классификация, дескрипторный ИПЯ) ин­дексирование может воплощаться в следующих процессах:

1) предметизация, т. е. индексирование на основе языка пред­метных рубрик, алфавитно-предметной классификации;

2) систематизация литературы, осуществляемая на базе клас­сификационных иерархических ИПЯ;

3) координатное индексирование, реализуемое на основе дескрипторного ИПЯ или языка ключевых слов.

Соответственно, в зависимости от используемого ИПЯ, резуль­татом индексирования, т. е. ПОДом или ПП, могут быть либо предметная рубрика, либо индекс классификации, либо перечень дескрипторов или ключевых слов.

Индексирование является основным средством раскрытия содержания как отдельного документа, так и всего документально­го фонда библиотечно-информационного учреждения. Следователь­но, качество индексирования решающим образом определяет эффективность использования накопленных в библиотеках и службах информации документальных фондов. Поэтому важней­шими требованиями, которые предъявляются к процессу индекси­рования, являются:

1) объективность отражения содержания документов и запро­сов;

2) полнота и точность раскрытия содержания индексируемого документа или запроса. Нарушение этого требования ведет к потере информации при поиске;

3) компактность создаваемых поисковых образов, что обусловлено природой процесса индексирования, являющегося разновидностью свертывания информации;

4) единообразие (воспроизводимость) индексирования аналогичных по содержанию документов и запросов в целях полноты выдачи информации при поиске.

Независимо от того, какой конкретно ИПЯ используется и определяет процедуру индексирования – предметизацию, класси­фицирование или координатное индексирование — в ней принято выделять два основных этапа:

1. Анализ содержания и формы индексируемого источника (документа, запроса).

2. Перевод результатов анализа текста документа или запроса естественного языка на ИПЯ, составление ПОД или ПП.

Стремление снизить субъективизм, неизбежный при индексировании, породило различные способы формализации анализа текста. К числу наиболее известных методов формализа­ции анализа текста можно отнести следующие:

I. Анкетный, или аспектный, метод анализа текста, при кото­ром индексатор производит отбор ключевых слов по унифициро­ванной схеме (анкете). Согласно принятой схеме выявление содержащейся в документе информации может осуществляться, например, по таким смысловым аспектам:

1.  Предмет или тема исследования

2.           Область применения или использования предмета

3.           Вид исследования свойств предмета

4.           Конкретный метод исследования

5.           Условия, в которых проведено исследование

6.           Полученные результаты

Данный перечень аспектов может видоизменяться в зависимо­сти от отрасли знания.

II.       Позиционный метод анализа, базирующийся на предполо­жении, что значимость ключевых слов, отражающих основное смысловое содержание документа, находится в определенной зави­симости от их позиций в тексте. Причем предполагается, что наиболее существенная информация заключена в заглавиях документов, заголовках отдельных частей текста, в определенных разделах документов (заключении, введении, выводах и т. п.), первом и последнем абзацах документа, первом и последнем пред­ложениях каждого абзаца и т. д.

III.     Статистический метод, в основе которого лежит идея о возможности использования числовых параметров для оценки степени информативности (значимости) различных фрагментов текста (слов, словосочетаний), определяемой частотой встречае­мости слова в индексируемом тексте.

Второй этап индексирования представляет собой операцию замены основных понятий, отражающих смысловое содержание документа или запроса, лексическими единицами ИПЯ. Эта замена может носить как тождественный, так и нетождественный характер.

Тождественная замена означает, что понятие (лексическая единица), выделенное в тексте индексируемого документа или запроса, заменяется (переводится) адекватным ему понятием (лексической единицей) ИПЯ. Тождественными считаются и такие случаи замены, когда содержание понятий совпадает, но различается форма лексических единиц, т. е. план выражения. Прежде всего такой вариант тождественной замены обеспечивают синонимы. Важнейшим условием тождественной замены является совпадение объемов понятий, закрепленных за лексиче­скими единицами индексируемого текста и лексическими единица­ми ИПЯ. Тождественная замена при индексировании позволяет обеспечивать высокие показатели точности информационного поиска.

Нетождественная замена происходит в тех случаях, когда в используемом ИПЯ отсутствуют лексические единицы, адекватно передающие смысл индексируемых понятий, и исходные лексиче­ские единицы, выделенные из текста документа или запроса, заменяются близкими по смыслу, но не адекватными лексическими единицами. Нетождественная замена, как правило, сводится к замене исходного понятия родовыми, более широкими, либо ассоциативными понятиями, в сумме дающими примерное наполнение исходного. Совершенно очевидно, что нетождественная замена при индексировании влечет за собой такое негативное последствие, как снижение показателей точности информационного поиска, препятствует точному и полному раскры­тию содержания документов и запросов.

В зависимости от типа используемых ИПЯ принято различать два основных вида индексирования: предкоординатное и посткоординатное.

Предкоординатным называется индексирование, осу­ществляемое, как правило, на базе классификационных ИПЯ. Оно воплощается в процедурах классификации и систематизации документов и запросов. Его отличительная особенность заключает­ся в том, что лексические единицы индексируемого сообщения образуют линейную запись. Порядок их следования является жестким, и он устанавливается индексатором в ходе индексиро­вания документов до поступления запроса (отсюда – «предкоординация», т. е. предварительность индексирования). Это обуслов­ливает использование элементов позиционной грамматики, обеспе­чивающей строгое чередование элементов поискового образа.

Посткоординатным, или координатным, индексиро­ванием называется индексирование текста документа или запроса путем перечисления ключевых слов, или дескрипторов, логическое произведение которых выражает основной смысл содержания данного текста, образуя его поисковый образ. Посткоординатное индексирование осуществляется на базе ИПЯ посткоординатного типа, чаще всего на базе дескрипторных ИПЯ. Лексические едини­цы поискового образа при таком индексировании задаются списком, перечнем и сочетаются друг с другом после поступления запроса (отсюда – «посткоординация», т. е. последующая коорди­нация).

Различают восходящее и нисходящее избыточное индексирование. Восходящее избыточное индексирование сво­дится к дополнению исходного поискового образа вышестоящими лексическими единицами ИПЯ, что позволяет значительно расши­рить область информационного поиска.

Восходящее избыточное индексирование принято использовать в основном при составлении ПОД, т.е. при обработке документов, в отличие от нисходящего избыточного индексирования, применяющегося при составлении ПП, т. е. при обработке запросов.

Нисходящее избыточное индексирование заключается в исполнении исходного поискового образа соответственно нижестоя­щими лексическими единицами ИПЯ.

Нисходящее избыточное индексирование позволяет конкретизировать запрос, уточнить, сузить область информационного поиска обеспечивая таким образом необходимую точность выдачи информации в ответ на запрос.

Аппарат, обеспечивающий как восходящее, так и нисходящее избыточное индексирование, зависит от плана выражения ИПЯ. В ИПЯ предкоординатного типа, представляющих собой класси­фикации со структурированными кодами, избыточное индексиро­вание обеспечивается автоматически при составлении исходного поискового образа, проявляясь в структуре кода.

В том случае, если лексика ИПЯ носит не кодированный, а словарный характер, избыточное индексирование ведется путем приписывания вышестоящих или нижестоящих понятий относи­тельно исходных лексических единиц. Эта процедура характерна для координатного индексирования на базе дескрипторных ИПЯ.

В соответствии с основными видами индексирования – предкоординатным и посткоординатным – рассмотрим две основные технологические схемы индексирования: на базе классификацион­ных и дескрипторных ИПЯ.

К числу основных процедур, выполняемых в ходе индексирова­ния на базе классификационных ИПЯ, могут быть отнесены сле­дующие:

1.        Анализ содержания и формы индексируемого документа, включающий следующие операции:

•            отбор понятий, отражающих основное смысловое содержа­ние документа;

•            определение отрасли знания, к которой относятся эти поня­тия;

•            определение признаков, характеризующих форму данного документа: тип, вид документа, язык, территориальный, географи­ческий аспекты и т. п.

2.       Поиск выделенных на предыдущем этапе понятий в алфавитно-предметном указателе таблиц классификации (рубрикато­ра, классификатора). На этом этапе возможны следующие ва­рианты:

а) подлежащее переводу на ИПЯ понятие, выделенное из текста документа, полностью совпадает с предметной рубрикой АПУ, т. е. имеет место тождественная замена.

б) подлежащее переводу на ИПЯ понятие выражено словосочетанием и в таком виде отсутствует в АПУ. В этом случае следует произвести поиск не только в прямом, но и в инвертирован­ии виде, используя в качестве поискового каждый элемент словосочетания.

в) подлежащее переводу на ИПЯ понятие выражено словосочетанием и отсутствует в АПУ как в прямой, так и в инвертированной форме. В этом случае следует разложить его на составные части и таким образом – каждое слово отдельно – искать в АПУ.

г) подлежащее переводу на ИПЯ понятие выражено одним словом и отсутствует в АПУ. С помощью терминологических справочников, словарей, информационно-поисковых тезаурусов следует попытаться подобрать синоним к данному слову или близкое по значению слово и отыскать его в АПУ.

д) если рекомендации а) – г) не срабатывают, и исходное понятие не удается отыскать в АПУ, следует перевести его на ИПЯ более широким, вышестоящим понятием.

3. Выбор индекса в АПУ. При интересующей нас рубрике АПУ может быть записано несколько индексов классификации.

При выборе классификационного индекса необходимо учиты­вать специфику документа, аспект, точку зрения, с которое рассматривается индексируемое понятие. Следует помнить также что часть предметных рубрик в АПУ может обозначаться как основным индексом, так и индексом из вспомогательных таблиц в этом случае предпочтение всегда отдается индексу основных таблиц.

4.           Поиск индексов в таблицах классификации. При переходе от индексов, найденных в АПУ, к индексам основных таблиц необ­ходимо внимательно прочесть и выполнить все методические указания, которые напечатаны при индексе.

5.           Принятие окончательного решения и запись индекса, т. е. составление ПОД. При этом следует придерживаться следующих правил:

•        на первое место в ПОД всегда ставится индекс, взятый из основных таблиц и отражающий основную тему или предмет рассмотрения, и только затем к нему в определенной последова­тельности присоединяются индексы вспомогательных таблиц, отражающие точку зрения, форму, язык, время, место и другие признаки;

•        если для многоаспектного отражения содержания докумен­та требуется использовать несколько индексов, взятых из основ­ных таблиц, то для комбинации могут использоваться либо знак соединения – плюс, либо знак отношения – двоеточие. Знак «плюс» формально соединяет несколько индексов, отражающих понятия, объединенные в одном документе. Он как бы расширяет границы поиска информации. В отличие от него знак «двоеточие» конкретизирует область информационного поиска, так как при его использовании происходит объединение двух или более понятий, взаимосвязанных по существу.

Координатное индексирование, выполняемое на основе тезау­руса, включает реализацию следующих операций:

1. Анализ содержания и формы индексируемого документа, включающий:

•        выделение ключевых слов, характеризующих основное смысловое содержание документа;

•        выделение ключевых слов, характеризующих форму данного документа: тип, вид, язык, территориальный, географический аспекты и т. п.

2. Поиск выделенных из текста документа ключевых слов в лексико-семантическом указателе информационно-поискового тезауруса. На этом этапе возможны следующие варианты:

а) ключевое слово, выделенное из текста документа, полностью совпадает с дескриптором лексико-семантического указателя, т. е. имеет место тождественная замена. Тождественной заменой считается и тот случай, когда ключевое слово и дескриптор раз­даются лишь формой числа – единственное или множественное.

В случае тождественной замены в ПОД выписывается не только сам дескриптор-аналог, но и производится операция избыточного индексирования, т.е. осуществляется приписывание дескрипторов, связанных с данным по смыслу. При индексировании документов характерно    проведение операции восходящего избыточного индексирования, т. е. включение в ПОД вышестоя­щих по отношению к данному дескрипторов, а при индексировании запросов – включение в ПОЗ нижестоящих по отношению к данному дескрипторов, т. е. проведение операции нисходящего избыточного индексирования;

б) ключевое слово, выделенное из индексируемого текста, совпадает с имеющимся в лексико-семантическом указателе аскриптором (недескриптором), сопровождаемом пометой см – смотри. В этом случае в поисковый образ выписывается дескриптор, к которому отсылает помета см. Замена считается тождественной и производится операция избыточного индексирования;

в) ключевое слово, выделенное из индексируемого текста, отсутствует в лексико-семантическом указателе ИПТ. Для того чтобы осуществить перевод ключевого слова на дескрипторный ИПЯ, следует проверить возможности имеющихся вариантов:

•        подлежащее переводу ключевое слово представлено слово­сочетанием и в таком виде отсутствует в лексико-семантическом указателе тезауруса. Необходимо проведение поиска не только в прямом, но и в инвертированном виде с использованием в качестве поискового каждого элемента словосочетания. Если словосочетание найдено, замена считается тождественной и производится избыточное индексирование;

•        подлежащее переводу на дескрипторный язык словосочетание отсутствует в лексико-семантическом указателе как в прямой так и в инвертированной форме. Необходимо произвести поиск каждого слова, входящего в состав словосочетания и попытаться осуществить перевод. Замена также считается тождественной и производится избыточное индексирование;

•        сложные слова, отсутствующие в лексико-семантическом указателе, допускается разбивать на составные части и переводить каждый из терминоэлементов отдельно.

г) если все перечисленные рекомендации не срабатывают, искомое понятие отсутствует в лексико-семантическом указателе, то необходимо осуществить нетождественную замену, переводя ключевое слово либо набором подходящих по смыслу дескрипто­ров, либо вышестоящим по отношению  к данному понятием. В случае нетождественной замены операция избы­точного индексирования не производится.

Несмотря на то, что индексирование по ИПТ носит достаточно формализованный характер, следует помнить, что создаваемый ПОД не должен искажать смысловое содержание индексируемого текста. Поэтому при работе с ИПТ не исключается интеллектуаль­ный характер работы индексатора, который должен помнить о контексте документа или запроса, не допуская формализма, так как буквальное совпадение ключевого слова не всегда гарантирует смысловую адекватность.

Показатели качества индексирования

Индексирование является тем процессом, в ходе которого происходит реализация всех возможностей, заложенных в лингви­стических средствах. Результаты индексирования самым сущест­венным образом связаны с качеством поиска в любой информационно-библиотечной системе и в значительной мере определяют перечень и качество предлагаемых системой услуг. Поэтому повышение эффективности индексирования было и остается первосте­пенной задачей каждой библиотеки. Важнейшими показателями, позволяющими оценить качество индексирования, является глубина и полнота индексирования.

Глубина индексирования отражает степень детальности ха­рактеристик, с помощью которых описываются средствами ИПЯ выделенные в тексте индексируемых документов объекты. В случае использования классификационных ИПЯ глубина индексиро­вания будет тем больше, чем большим количеством знаков будет располагать присвоенный документу классификационный индекс. Следовательно, глубина индексирования неразрывно связана с таким показателем работы системы в целом, как точность информационного поиска.

В случае использования ИПЯ координатного типа показатель глубины индексирования будет связан с количеством ключевых слов или дескрипторов, описывающих все значимые аспекты ин­дексируемого текста.

Полнота индексирования отражает широту тематического содержания индексируемого документа; она связана с количест­вом характеристик, выделенных в ходе анализа документа и отраженных средствами ИПЯ. Для предкоординатного индексиро­вания, основанного на использовании классификационных ИПЯ, полнота индексирования воплощается в числе индексов, присвоен­ных документу.

Полнота индексирования применительно к ИПЯ координатного типа будет воплощаться в количестве дескрипторов или ключевых слов, по которым возможно проведение поиска.

Как для предкоординатных ИПЯ, так и для ИПЯ посткоорди­натного типа полнота индексирования неразрывно связана с обеспечением полноты информационного поиска.

Глубина и полнота индексирования являются производными величинами от семантической силы     ИПЯ – его способности описать содержание документа в характеристиках, присущих предмету рассмотрения индексируемых документов или запросов.

 

К оглавлению

Hosted by uCoz