65. Лингвистическое обеспечение АИС: состав,
требования
В процессе развития средств автоматизации информационных
процессов излагались различные взгляды на содержание лингвистического
обеспечения АИС:
• комплекс информационно-поисковых языков, прежде всего
классификационных и вербальных (деекрипторных);
• комплекс средств, предназначенных для автоматической
обработки текстов на естественном языке (включая обработку запросов и поиск),
т.е. прежде всего языковых процессоров;
• по отношению к электронным библиотекам: комплекс языковых
средств и процессоров, предназначенных для обработки, представления и поиска
письменных текстов на естественном языке, в основном на семантическом уровне и
др.
Структура языков как системы знаков.
В любом языке выделяются знаковые единицы трех уровней:
•
Алфавит – т.е. множество допустимых символов.
•
Лексика – множество семантически интерпретированных знаков.
•
Тексты (дискурс) – семантически интерпретированные знаковые единицы речи.
В любом языке также выделяются два класса правил (грамматики):
•
Морфология – правила образования и изменения лексических единиц;
•
Синтаксис – правила образования текстов.
• алфавит и микросинтаксис графические средства представления
данных;
• язык библиографических данных, ЯБД – ИПЯ, предназначенный
для представления библиографической информации;
• классификационные языки – ИПЯ, предназначенные для
индексирования документов (частей документов) и информационных запросов
посредством понятий и кодов какой-либо классификационной системы;
• деекрипторные и другие посткоординатные языки – ИПЯ,
предназначенные для координатного и
более детального, чем на классификационном уровне
представления информации;
• объектно-признаковые языки – ИПЯ, предназначенные для
фактографического уровня представления информации;
• языки запросов и манипулирования данными – языки общения
пользователей с АИС, представляющие собой средства описания запросов на поиск и
вывод информации. Относятся к средствам операционного уровня.
ЛО АИС включает следующие языковые средства:
1. Информационно-поисковые языки
1.1. Системы метаданных
1.2. Классификационные языки
1.3. Вербальные языки
1.4. Фактографические (объектно-признаковые) языки
2. Лингвистические процессоры
2.1. Системы автоматической обработки текста
2.2. Лингвистические банки данных
Средства поддержки ЛО:
• лингвистические процессоры – алгоритмы и программы
автоматической обработки текстовой информации, а также создания и ведения
языковых средств;
• лингвистический банк данных – содержит базы данных машинных
словарей и авторитетных записей, а также программно-аппаратные средства
управления ими;
• нормативная, конструкторская и технологическая документация,
регламентирующая процессы создания, ведения и использования языковых средств, а
также средств поддержки;
• служба ведения (поддержки) языковых средств как
организационно оформленный компонент системы.
Каждый тип языковых средств включает:
• словари, т.е. лексику и парадигматику;
• синтаксис, в частности, представленный в виде набора
форматов. Особенность ЛО сети по сравнению с автономно работающими системами
заключается в том, что ЛО сети делится еще по одному основанию – области
применения;
• графические средства представления данных – средства
естественного языка (план выражения письменного текста) включают в себя алфавиты
и микросинтаксис;
• алфавит – упорядоченный набор букв, цифр (арабских, римских
и др.), специальные знаки (препинания, математические символы и др.) и
средства представления текстовых особенностей. Алфавиты, используемые в АИС,
включают в себя ограниченные наборы символов, представленные в таблицах двоичных
кодов (например ASCII, KOI8-R, UNICODE, Win 1251, ISO8859-5 и др.);
• микросинтаксис – средства представления расширенного
кириллического, латинского, греческого или других алфавитов, представляющие
собой дополнительные таблицы, содержащие соответствующие символы.
По области применения выделяют.
• общесистемные языковые средства, применяемые всеми звеньями
системы (типовые ПО) либо используемые для взаимодействия между звеньями в
качестве языка-посредника, входящего в состав "обменных средств ЛО";
• локальные языковые средства, применяемые только в рамках
отдельно взятого звена;
• внешние языковые средства, не применяемые для решения задачи
внутри системы и используемые только при взаимодействии с внешними по отношению
к АИС системами;
• коммуникативные (обменные) ИПЯ, предназначенные для
обеспечения взаимодействия между различными (информационными, библиотечными и
др.) системами (в том числе распределенными по государственной, ведомственной
или территориальной принадлежности).
Состав средств лингвистического обеспечения:
1. Языки индексирования (ЯИ).
Языки индексирования классификационного типа:
– ЯИ Государственного Рубрикатора научно-технической
информации (ГРНТИ),
– ЯИ Универсальной десятичной классификации (УДК),
– ЯИ Десятичной классификации Дьюи (ДДК),
– ЯИ Библиотечно-библиографической классификации (ББК).
Языки индексирования вербального типа:
– ЯИ ключевых терминов,
– ЯИ предметных рубрик (в том числе ЯИ предметных рубрик
библиотеки Конгресса).
Информационно-поисковые языки (ИПЯ):
– ИПЯ ГРНТИ и ИПЯ ДДК, обеспечивающие поиск по запросам
отраслевого характера,
– ИПЯ ключевых терминов, обеспечивающий поиск по запросам
предметного характера.