В зависимости от используемых компонентов ИПЯ бывают разных видов.

К числу первоначально использовавшихся видов ИПЯ Ч. Мидоу относит виды, представленные на рис. 6.6:

Рис. 6.6.

Иерархические классификации. Например, получившая широкое применение Десятичная классификация Дьюи , классификация библиотеки Конгресса США, Универсальная Десятичная классификация (УДК) , которая представляет собой модификацию системы Дьюи.

Иерархические классификации обеспечивают возможность расширения "вниз", т.е. уточнения описания документа, но они отличаются жесткостью, их достаточно трудно изменять.

Язык предметных заголовков.

Подобно иерархической классификации использует фиксированное число предметных классов (часто располагаемых по алфавиту), но для его терминов обычно не используется определенный код. Язык позволяет любому документу приписывать более чем один термин, почти не имеет структуры и средств для выражения взаимоотношений между терминами. Предметные заголовки используются, например, в журналах (рубрики), классификаторах специальностей вузов и Высшей аттестационной комиссии (ВАК) при Минобрнауки России. Этот язык можно считать языком иерархической классификации, но с ослабленной структурой, что облегчает его разработку, но затрудняет изучение и применение.

Рассмотренные языки иногда называют предкоордииированнъши (pre-coordinate ) системами, поскольку семантические комбинации терминов не определены в словарном составе ИПЯ, а составляются его разработчиками. Такие языки неизбежно имеют пробелы, в них трудно отражать новые предметные области (что легко видеть на примере системы УДК).

Поэтому для более совершенного описания содержания документа стало применяться индексирование ключевыми словами – координатное индексирование.

Система ключевых слов с фиксированным словарем.

Такие языки могут применяться для узкоспециализированных ИПС с достаточно формализованной (унифицированной) терминологией (например, система "Унитерм", разработанная М. Таубе ). Эта система подобна системе предметных заголовков, но в отличие от нее, во-первых, ключевые слова короче предметных заголовков (обычно это единичные слова, иногда – короткие словосочетания) и, во-вторых, объем полного словарного состава существенно больше. Словарный состав здесь, как правило, фиксирован, и отсутствуют средства установления связей между словами (синтаксис), но включение набора слов в ПОД или ПОЗ позволяет пользователю как бы угадывать эти связи, что помогает более полно описать исходный документ или запрос.

Система ключевых слов со свободным словарем.

Такие языки позволяют пользователю выбирать для описания документа любые слова (за исключением союзов и предлогов), руководствуясь их ролью в отображении содержания документа. Это позволяет точнее отобразить содержание документа, но может снизить релевантность поиска, поскольку составители ПОЗ не могут предусмотреть точки зрения составителей ПОД.

Языки с синтаксисом (грамматикой).

В качестве простейшего из ИПЯ этого вида Ч. Мидоу выделяет язык помеченных дескрипторов (tagged descriptors), с помощью которого отображение смысла в ПОД и ПОЗ осуществляется путем присоединения к основному дескриптору (или ключевому слову) уточняющих дескрипторов (ключевых слов), роль которых состоит в том, чтобы либо классифицировать основной дескриптор как имя собственное, характерный признак или действие, либо объединить в одну группу дескрипторы, относящиеся к одному и тому же предмету документа. В современных поисковых системах Интернет применяются операции AND, OR, отображающие логические операции дизъюнкции и конъюнкции, в простейшем варианте – слова заключают в кавычки.

В дальнейшем были разработаны ИПЯ с грамматикой, содержащей более сложные правила.

Язык фасетного индексирования.

В более развитых в синтаксическом отношении вариантах такого языка различные дескрипторы могут изменять значения друг друга. Простейшим примером такого синтаксиса является запись команды ЭВМ, состоящей из собственно оператора и адреса хранения информации. В качестве примера можно также привести уточненное описание товара, включая фасон, цвет, цену и тому подобные характеристики товара. Такой синтаксис основан на известном в теории множеств положении: в результате помещения рядом элементов разных множеств возникает эффект появления нового смысла. Языки такого вида позволяют частично устранять омонимию с учетом контекста.

Различные роли, которые играют дескрипторы в таких языках, называют фасетами . Для фасет могут быть использованы дескрипторы из одного и того же словаря. Располагаются фасеты в порядке значимости дескрипторов для отображения содержания индексируемого документа. В отличие от иерархических классификаций фасеты можно располагать в произвольном порядке.

Язык фраз.

В качестве ПОД используются индексирующие фразы. В этом случае контекст ключевых слов позволяет частично снять проблемы семантической неоднозначности.

Трудность здесь состоит в выборе фраз, включаемых в язык. Кроме того, отсутствует возможность расширения ПОД.

Язык пермутационного индексирования.

Пермутационный указатель включает контекст каждого слова, содержащегося в фразе и называется указателем ключевых слов, взятых в контексте, или указателем типа KWIC .

Идею такого указателя легче пояснить примером:

Системы индексирования документов

Системы индексирования документов

Системы индексирования документов

При этом ПОД образует колонка ключевых слов в центре, расположенных в порядке алфавита. Можно считать этот ПОД фразой, но он эффективнее предыдущего с точки зрения смысловыражающих возможностей. Однако пермутационное индексирование трудоемко и неэффективно экономически.

Естественный язык.

Наиболее точно может отразить семантику текста, однако помимо трудоемкости и экономической неэффективности возникают проблемы синонимии, омонимии и другой неоднозначности естественного языка, затрудняющие алгоритмизацию поиска.

Уменьшить неоднозначности языка помогает словарь.

В истории развития информационного поиска разрабатывались и применялись разнообразные словари: словарь синонимичных пар; словарь с многократными связями (например, двуязычный словарь); классификационная таблица; словарь с определениями на естественном языке; отрицательный словарь (содержащий запрещенные словосочетания); словарь-тезаурус ("Тезаурус ASTIA" и др.).

Таким образом, существуют ИПЯ, использующие ключевые слова; дескрипторные ИПЯ без грамматики и с грамматикой, ИПЯ с отрицательным словарем, ИПЯ с тезаурусом и т.д.

Существуют и иные классификации ИПЯ.

Так, в предлагается следующее разделение ИПЯ (рис. 6.7):

1. Предкоординированные ИПЯ.
1.1. Перечислительные классификации: иерархические, алфавитно-предметные (по Мидоу – язык предметных заголовков).
1.2. Фасетные классификации.
2. Посткоординированные (координатные по Мидоу) ИПЯ.
2.1. Дескрипторные языки (с координацией посредством использования операции логического умножения или пересечения Ç).

Рис. 6.7.

2.2. Семантические коды, задающие парадигматические отношения структурами лексических единиц (код Перри – Кента , RX-коды языка "Бит" ).
2.3. Синтагматические языки с развитой системой средств отображения синтагматических отношений (см., например, язык СИНТОЛ ).
3. Языки библиографических ссылок.

Предлагались классификации ИПЯ по типу их словарного состава (см. ссылки в ), типам языковых единиц, степени их сложности, характеру отношений между этими единицами (виду грамматики), системам индексирования и т.п.

При этом следует иметь в виду, что на практике конкретный ИПЯ нельзя строго отнести к тому или иному классу, поскольку: во-первых, некоторые ИПС могут работать и в режиме без грамматики, и в режиме с грамматикой (например, системы СИНТОЛ , СМАРТ ); а во-вторых, ИПС развиваются, и основой является развитие ИПЯ. Поэтому обычно ИПС и ИПЯ описывают рядом характеристик с тем, чтобы пользователь мог выбрать желаемые.

При выборе ИПЯ необходимо оценивать их эффективность. При опенке эффективности ИПЯ используют различные критерии. Проблема оценки ИПЯ, в свою очередь, является составной частью более общей проблемы – оценки качества информационного поиска (см. 6.9).

4. Определение понятия информации с точки зрения информационного взаимодействия.

6. Модель процесса генерации знания в рамках общей теории систем.

7.Соотношение понятий «данные», «информация», «знания».

8. Модель процесса информирования. Типовые схемы информирования.

9. Потребители, приемники информации, информационная потребность. Понятие формальной и истинной релевантности документа.

10. Определение ис. Организационно-функциональная структура аис

11. Назначение и классификация информационных систем. Конкретная и абстрактная ипс. Отличия документальных и фактографических ипс.

12. Структурная схема процессов в абстрактной аипс. Режимы ретроспективного поиска и ири.

13. Состав, назначение, требования к ипя. Классификация дескрипторных ипя.

14. Парадигматические и синтагматические отношения между лексическими единицами ипя. Меры близости лексических единиц.

15. Предкоординированные и посткоординированные информационно-поисковые языки.

16. Индексирование и кодирование информации. Особенности представления информации в документальной и фактографической ис.

17. Обобщенная схема воспроизводства информации. Характеристика информационных компонент.

18. Типология информационных потребностей (когнитивная модель)

19.Типология неопределенностей информационного поиска. Уровневая модель представления информации и информационных потребностей.

20. Типология задач информационного поиска. Характер неопределенности объекта поиска и требования к поисковому процессу для разных типов поисковых задач.

21. Понятие стратегии и технологии поиска. Связь стратегии и типа поисковой задачи.

22. Логика поиска. Критерий смыслового соответствия. Теоретико-множественное представление.

23. Информация в системе воспроизводства знаний (системный подход). Информационные компоненты в системах управления.

24. Уровневая модель информационного взаимодействия "Пользователь - аипс". Основные этапы (общая схема) поиска информации.

25. Типология простых (фактографических) запросов и организация поисковых массивов для различных типов запросов.

26. Расширенное логическое выражение запроса (обобщенная форма). Основные виды операторов и операндов.

27. Назначение и организация инвертированной формы представления документальной информации. Примерная организация поисковых массивов документальной ипс дескрипторного типа.

28. Типы обратной связи в технологии информационного поиска.

29. Линейная модель механизма поиска по совпадению терминов.

30. Линейная модель механизма поиска по логическому выражению.

31. Линейная модель механизма поиска документов-аналогов.

42. Коэффициент линейной корреляции множества выданных и истинно релевантных документов.

43. Назначение, состав и структура лингвистического обеспечения ис.

44. Основные методы идентификации объектов.

45. Классификация. Определение и формально–логические правила построения.

46. Типы классификаций. Иерархические классификации. Примеры.

47. Типы классификаций. Фасетные классификации. Примеры.

48. Сравнительная характеристика иерархических и фасетных классификаций.

49. Кодирование объектов. Системы кодирования. Примеры.

50. Назначение, структура и использование информационно-поисковых тезаурусов.

51. Обобщенная технологическая схема и компоненты информационного поиска.

52. Типовые реализации интерфейсов подготовки поисковых выражений, их особенности.

13. Состав, назначение, требования к ипя. Классификация дескрипторных ипя.

Информационно-поисковый язык - искусственный язык, созданный в целях лучшей реализации основной функции языка коммуникативной, т. е. функции передачи информации. В информационном языке за счет однозначности записи информации устраняется вариантность обозначения понятий: исключается синонимия и омонимия; действует более простой, чем в естественном языке аппарат грамматики.

Внутренняя структура языка характеризуется следующими составляющими - лексикой, грамматикой и словообразованием.

Лексика (или словарный состав) - это вся совокупность слов, входящих в состав языка.

Грамматика - это система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из морфологии и синтаксиса.

Морфология -- это совокупность действующих в языке способов и средств построения слов.

Синтаксис - это совокупность действующих в языке способов и средств построения предложений.

Словообразование определяется как совокупность способов и средств образования слов на базе уже существующих.

Парадигмами называются лексико-семантические группы слов

ИПЯ - это искусственный язык, специально сконструированный для удобного (человеку) выражения основного смыслового содержания документов и запросов с целью последующего их сопоставления (системой).

Языки дескрипторного типа поддерживают процесс индекси рования, который заключается в формировании описания содержания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий либо из текста документа и обозначающих основные понятия этого документа.

Типы дескрипторных ИПЯ

Дескрипторы - это предназначенные для координатного индексирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного естественного языка и у которых искусственно устранены синонимия, полисемия и омонимия.

Дескрипторным языком называется специальный ИПЯ, словарный состав которого состоит из дескрипторов, а грамматика, по крайней мере, из способа построения ПОД и поисковых предписаний путем координации соответствующих дескрипторов^

Существуют ИПЯ, в которых словосочетания и фразы, выражающие сложные понятия двух и более простых заданы в словаре наряду со словами, выражающими простые понятия - предкоординиро ванные . для обозначения основного смыслового содержания документов можно использовать только отдельные слова, словосочетания и фразы, взятые из словарного состава данного языка. предкоординированным языкам органически присуща недостаточность словарного состава, а следовательно, и небольшая семантическая сила.

Другой тип, в которых лексические единицы (термины, слова) объединяются в «предложения» (поисковые образы) лишь во время индексирования документов ил даже в процессе их поиска называются посткоорди нируемыми. До индексирования лексические единицы посткоординируемых языков не связаны никакими синтагматическими отношениями.

типология ИПЯ с точки зрения их семантической силы.

Еще раз отметим, что главная особенность классификаций состоит в том, что их словарный состав задается в виде фиксированного списка терминов - шифров, слов, словосочетаний и фраз.

-- [ Страница 1 ] --

Н.И. ГЕНДИНА

ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ

АВТОМАТИЗИРОВАННЫХ БИБЛИОТЕЧНЫХ

В настоящее

время стало очевидным, что традиционная технология обработки

документального потока, поступающего в библиотеки и службы информации, ручной

поиск, ручные процедуры производства библиотечно-библиографических продуктов и

выполнения услуг делают слишком долгим путь информации к читателю, не обеспечивают

необходимых условий для плодотворной работы ученых и специалистов, обращающихся в библиотеки. Потенциал ручной технологии практически исчерпан и не позволяет выйти на качественно иной уровень информационно-библиографического и библиотечного обслуживания потребителей информации.

Оптимальным способом решения проблемы является внедрение принципиально новых технологических процессов, базирующихся на применении ЭВМ. Внедрение вычислительной техники связано как с разработкой программного обеспечения, так и с созданием, ведением и эксплуатацией баз данных, содержащих различные виды информации, записанной на машиночитаемом носителе. Для того чтобы пополнять и корректировать такие базы данных, необходимо использование информационно поисковых языков (ИПЯ), существующих в виде многочисленных классификационных схем, рубрикаторов, классификаторов, дескрипторных словарей, списков предметных рубрик и других лингвистических средств. Эта необходимость и послужила одной из причин подготовки данной книги, цель которой - оказать реальную помощь библиотечным и информационным работникам в овладении основами лингвистического обеспечения автоматизированных библиотечных систем.

В отличие от традиционной постановки вопроса, в рамках которой функционирование ИПЯ в библиотеках принято связывать лишь с систематизацией, предметизацией произведений печати и организацией библиотечных каталогов при ограниченности состава используемых языков (УДК, ББК, алфавитно-предметная классификация), здесь сделана попытка реализовать иной подход. Его особенность заключается в том, что ИПЯ рассматриваются с точки зрения их применения во всех сферах библиотечно информационной технологии, поскольку эффективность функционирования библиотечно информационных систем всецело зависит от качества, лингвистического обеспечения, т. е.

от комплекса используемых в системе ИПЯ.

Книга явилась результатом не только теоретического обобщения представленных в литературе сведений, но и экспериментальной проверки данных, реализованной в ходе многолетних научных исследований, проводимых на кафедре автоматизированных биб лиотечных систем и вычислительной техники Кемеровского государственного института культуры.

Материал книги рассчитан не столько на специалистов, получивших профессиональную подготовку в области информатики, средств автоматизации и программирования, сколько на лиц, имеющих гуманитарное образование и занятых в сфере библиотечно-информационной деятельности. Основываясь на результатах научных разработок и более чем десятилетнем опыте преподавания курса «Лингвистическое обеспечение автоматизированных библиотечных систем», автор адресует свою книгу библиотечным и информационным работникам - тем, от кого в первую очередь зависит качество комплектования документальных фондов, научной обработки литературы, эффективность справочно-библиографического и информационного обслуживания, обоснованность управленческих решений по оптимальной организации библиотечно информационной технологии.

Г л а в а 1. СТРУКТУРА И НАЗНАЧЕНИЕ ИНФОРМАЦИОННО-ПОИСКОВОГО ЯЗЫКА (ИПЯ) 1.1. ИПЯ КАК РАЗНОВИДНОСТЬ ИСКУССТВЕННЫХ ЯЗЫКОВ Языки, которые когда-либо использовались как средство общения в повседневной жизни человеческого общества, называются «естественными языками». Естественные - в том смысле, что они являются объективной реальностью, подобно биологическим видам или физическим компонентам материи. Можно изучать, описывать, анализировать естественные языки, но нельзя изменить их по своему произволу: естественные языки изменяются так же, как меняются биологические виды - путем эволюции.

Естественный язык - это звуковой язык, созданный тем или иным народом в ходе многовековой общественной практики, являющийся средством общения, обмена мыслями и взаимного понимания в человеческом обществе. Важнейшими функциями естественного языка, таким образом, являются: 1) средство человеческого мышления;

2) средство коммуникации.

Помимо естественных языков существуют искусственные языки, сконструированные, специально изобретенные людьми для специфических видов коммуникации, для решения определенных задач в области науки, техники, культуры. Например, музыкальная партитура - это искусственный язык, с помощью которого композитор или аранжировщик доводит свое сочинение до музыкантов;

исчисление предикатов - один из многих искусственных языков, изобретенных для использования в специальных разделах математики.

От обычного, естественного языка, возникшего стихийно и представляющего собой систему звуков и букв, такие искусственные языки отличаются тем, что они представляют собой систему знаков, все операции с которыми совершаются по формальным правилам.

Среди искусственных языков различают универсальные и специализированные Универсальные языки - это суррогаты (заменители) естественных языков, созданные для международного общения. К таким языкам относятся эсперанто, волапюк, идо, интерлингва, новиаль и некоторые другие. Наибольшую известность из них получил язык эсперанто, разработанный польским гуманистом доктором Л. Заменгофом, предложившим в 1887 г. свой проект международного языка. Сейчас на эсперанто выходит художественная и научная литература, издается свыше ста журналов, вещает восемнадцать радиостанций, в том числе и радио Москвы.

Специализированные искусственные языки - это особые знаковые системы для записи необходимой информации из определенных областей науки, техники, культуры. Среди них можно выделить такие языки, как азбука Морзе, язык музыкальной партитуры, средства стенографического письма, машинные языки, или языки программирования.

Последние представляют собой формальные языки, предназначенные для описания данных (информации) и алгоритмов (программ) их обработки на ЭВМ. Наибольшую известность из языков программирования получили ФОРТРАН, АЛГОЛ, КОБОЛ, БЭИСИК и целый ряд других.

К числу искусственных специализированных языков относятся информационно поисковые языки, созданные для поиска информации.

Информационно-поисковый язык (ИПЯ)-это искусственный язык, предназначенный для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Таким образом, основное назначение любого ИПЯ - обеспечить поиск информации, документальной или фактографической.

ИПЯ является важнейшим элементом информационно-поисковых систем (ИПС) и зачастую используются в качестве главной характеристики системы, так как именно от качества ИПЯ зависит достижение наилучших показателей поиска, таких, как полнота и точность. Однако и документы, и факты, и запросы, поступающие в информационно поисковую систему, представлены с помощью естественного языка. Возникает вопрос:

какова необходимость использования в ИПС искусственного языка - ИПЯ? Почему нельзя воспользоваться для поиска информации естественным языком? Оказывается, что с точки зрения информационного поиска естественный язык обладает рядом недостатков, препятствующих отбору релевантных запросу сообщений (документов или фактов). К их числу относятся следующие:

1. Наличие в естественном языке слов, которые имеют небольшую смысловую нагрузку (союзы, предлоги, междометия), а также слов, которыми можно пренебречь при передаче содержания текста документа или запроса. Иными словами, речь идет об избыточности естественного языка, позволяющей сокращать объем какого-либо текста без значительного ущерба для его содержания.

Например, в сообщении Проблема повышения качества библиотечно-библиографического обслуживания является весьма актуальной, и решить ее можно только при широком использовании современных технических средств наиболее информативными, значимыми будут слова библиотечно-библиографическое обслуживание, качество, технические средства. Все мы учитываем это свойство естественного языка (избыточность), когда составляем текст телеграммы.

2. Наличие в естественном языке синонимов. С их помощью человек как бы расцвечивает свою речь, делает ее более выразительной, гибкой, достигает точности выражения мыслей, ее тончайших нюансов. Однако при проведении информационного поиска наличие синонимов снижает полноту выдачи информации по запросу. Так, вряд ли может быть достигнута приемлемая полнота выдачи, если человек, осуществляющий разыскание (библиотекарь-библиограф, информационный работник), не знает, что лазер и оптический квантовый генератор, шафран и крокус, авадекс и диаллат - это слова синонимы. Точно так же при неустраненной синонимии будет страдать качество выданной информации и в автоматизированной информационно-поисковой системе.

При обеспечении качественного информационного поиска особое значение имеет устранение лексической, логической и синтаксической синонимии.

Лексические синонимы - это, как правило, слова и словосочетания, выступающие в роли взаимозаменяемых элементов высказывания: динамо машины - электрогенераторы постоянного тока, перегной - гумус, токсины - яды. К. лексическим синонимам относятся также полное наименование предмета, процесса, свойства и его аббревиатура (сокращенное наименование): избирательное распространение информации - ИРИ, ракеты средней дальности - PCД.

Логические синонимы возникают при логическом определении понятий: Мнемозина - богиня памяти в греческой мифологии, мать девяти муз;

Ассюре - типографическая линейка, дающая оттиск в виде нескольких параллельных линий;

Семиотика - наука о знаках и знаковых системах.

Синтаксические синонимы представляют собой синонимичные синтаксические конструкции, отражающие возможность естественного языка выразить одну и ту же мысль различными речевыми оборотами, т. е. перефразировать: плавание под водой - подводное плавание, план на квартал - квартальный план, бумага для письма - писчая бумага С точки зрения создания ИПЯ, обеспечивающего высокое качество информационного поиска, важное значение имеет объединение слов-синонимов или синонимичных конструкций в синонимические ряды (классы условной эквивалентности).

3. Наличие в естественном языке полисемичных (многозначных) слов. Так, слово адрес может означать: а) местожительство определенного лица или местонахождение учреждения, предприятия и т. п.;

б) обозначение местожительства или местонахождения получателя на почтовом отправлении;

в) письменное приветствие, поздравление какому-либо лицу, учреждению по случаю юбилея;

г) код, определяющий местоположение информации в ЭВМ.

4. Наличие в естественном языке слов-омонимов, т. е. слов, которые звучат и пишутся одинаково, но по смыслу не имеют ничего общего, например: линь (вид рыбы) и линь (вид каната), бум (шумиха, искусственное оживление вокруг чего-либо) и бум (спортивный снаряд), рысь (млекопитающее рода кошек) и рысь (вид поступательного движения лошади).

Полисемичные слова отличаются от омонимов тем, что сохраняют некоторую общность значений у разных по смыслу слов, омонимы же такой общности значений не имеют. И если в естественном языке полисемия и омонимия - суть проявления его богатства и выразительной мощи, то при проведении информационного поиска они являются существенным тормозом. Неустраненные омонимия и полисемия не только затрудняют поиск информации, но и приводят к снижению качества выдаваемой информации, к так называемому «информационному шуму». Например, лишенные контекста слова гусеница, сыворотка, соединение, операция, заговор и т. п. трудно отнести к какой-либо тематической области поиска и, значит, гарантировать точность выдаваемой информации.

Таким образом, для проведения качественного отбора релевантных документов (фактов) в ответ на запрос были созданы специальные искусственные языки - ИПЯ, отвечающие специфическим требованиям, предъявляемым к ним информационно-поисковыми системами.

Перечислим их.

1. Однозначность: каждая запись на ИПЯ должна иметь только один смысл;

и, наоборот, любой смысл должен получать единообразное представление на ИПЯ.

Следовательно, ИПЯ должен устранять такие явления естественного языка, как полисемия, омонимия, синонимия.

2. Эксплицитное (явное) выражение полезных для поиска смысловых отношений между словами (логических отношений и психологических ассоциаций). Реализация этого требования делает ИПЯ своего рода справочником, схемой-путеводителем, позволяющим библиотекарю легко ориентироваться в конкретной отрасли знаний, устанавливать виды связей и взаимодействия между отдельными (отраслях) понятиями.

3. Возможность корректировки и пополнения ИПЯ, его «гостеприимство». Иначе говоря, ИПЯ должен быть гибким, обладать способностью включать новые понятия без коренной ломки принятой структуры.

4. Удобство пользования, предполагающее мнемоничность - удобство для запоминания записей на ИПЯ, а также компактность.

5. Семантическая сила ИПЯ (выразительность, селективная мощность), т. е. способность языка идентифицировать предмет, различать его мелкие особенности, а также описывать его с разной степенью детализации. Семантическая сила ИПЯ тем больше, чем богаче его словарный состав и шире его словообразовательные возможности, чем более четко дифференцированы смысловые отношения между его словами, чем более развита система синтаксических отношений между словами этого языка.

1.2. АЛФАВИТ И ЛЕКСИКА ИПЯ Основными структурными составляющими любого ИПЯ являются алфавит, лексика, грамматика, парадигматические и синтагматические отношения.

Алфавит ИПЯ может включать в свой состав буквы алфавита какого-либо естественного языка (латинского, кириллического и др.), арабские и римские цифры, знаки пунктуации (точка, запятая, двоеточие, кавычки, дефис, круглые и квадратные скобки, апостроф), знаки арифметических операций (плюс, минус, косая черта, знак процента), знаки отношений (больше, меньше, равно), операторы булевой алгебры (знаки конъюнкции, дизъюнкции, отрицания), специальные знаки и символы, например: стрелки, двойное двоеточие, квадрат, знак конгруэнтности и т. д.

Алфавит ИПЯ может быть представлен только цифрами, например УДК, Рубрикатор ГАСНТИ, или только буквами, базируясь на алфавите какого-либо естественного языка, например, язык предметных рубрик, дескрипторный язык, язык библиографических описаний и некоторые другие ИПЯ. Кроме того, алфавит ИПЯ может быть смешанным, буквенно-цифровым. На буквенно-цифровом алфавите основаны фасетная классификация, язык RX-кодов, СИНТОЛ, семантический код Перри - Кента и др.

Лексика, или словарный состав, ИПЯ - это совокупность всех лексических единиц, которыми он оперирует. Лексическая единица - это последовательность букв, цифр, специальных символов, принятая для обозначения какого-либо понятия. Таким образом, лексическая единица ИПЯ представляет собой единство плана содержания и плана выражения. В ней органически слиты две стороны - форма и значение.

Лексические единицы в каждом ИПЯ имеют разные названия: в дескрипторном языке - дескрипторы, в языке предметных рубрик (алфавитно-предметной классификации)- предметные рубрики, в фасетной классификации - изолаты, в УДК, ББК, рубрикаторах - индексы и соответствующие им словесные формулировки.

В таких ИПЯ, как язык унитерм, язык ключевых слов, язык предметных рубрик, дескрипторный ИПЯ, план выражения и план содержания лексической единицы будут совпадать, так как эти ИПЯ базируются на алфавите и лексике естественных языков. В ИПЯ классификационного типа, например УДК, ББК, Международной классификации изобретений и т. п., план выражения и план содержания не будут совпадать. Например, в УДК:

План выражения План содержания Земляника лесная 634. Анализ лексики любого ИПЯ можно осуществлять, используя три параметра: способ задания лексики, уровень интеграции лексики и способ построения лексических единиц.

В зависимости от способа задания различают ИПЯ с контролируемой и неконтролируемой лексикой. В ИПЯ с контролируемой лексикой все лексические единицы учитываются в специальном словаре. В качестве таких словарей выступают, например, таблицы классификации УДК и ББК, рубрикаторы, дескрипторные словари и тезаурусы, словари предметных рубрик и тому подобные пособия. В ИПЯ с неконтролируемой лексикой таких пособий нет. В них используется естественный язык, применение которого ограничено (формализовано) введением специальных правил.

Примером использования ИПЯ с неконтролируемой лексикой служат информационно поисковые системы, основанные на так называемом «бестезаурусном» вводе информации, например ИПЯ системы «Кристалл».

В отличие от естественного языка, в качестве лексической единицы ИПЯ может выступать не только отдельное слово, но и устойчивое словосочетание, а также фраза, предложение. В соответствии с этим различают уровни интеграции.

К первому уровню интеграции относятся ИПЯ, лексическими единицами которых являются преимущественно единичные слова и устойчивые словосочетания, например:

бетон, индикаторы, квантовая механика, каменный уголь. К числу ИПЯ, характеризующихся лексикой первого уровня интеграции, относятся языки типа «Унитерм», дескрипторные ИПЯ, фасетные классификации.

Вторым уровнем интеграции лексики характеризуются те ИПЯ, лексическими единицами в которых выступают не только отдельные слова и словосочетания, но и фразы, имеющие сложную синтаксическую структуру. На этом уровне находится лексика ИПЯ иерархических классификаций, таких, как УДК, ББК, Рубрикатор ГАСНТИ, Международная классификация изобретений (МКИ), и некоторых других. Например:

641.4 Консервирование продуктов в домашних условиях (УДК);

А 44 С 27/00 Изготовление ювелирных изделий (МК.И).

Появление лексических единиц второго уровня интеграции в иерархических классификациях обусловлено тем, что выражение «узких» понятий, стоящих на нижних ступенях иерархии, требует сложных синтаксических конструкций естественного языка. К аналогичным случаям приводит практика использования «узкой рубрики» при предметизации.

Построение лексических единиц ИПЯ может осуществляться двумя способами:

1) использованием в качестве лексических единиц специальных кодов, например в УДК, ББК, Рубрикаторе ГАСНТИ и др.;

2) использованием в качестве лексических единиц слов и словосочетаний естественного языка, например: язык типа «Унитерм», дескрипторные ИПЯ, язык библиографического описания, язык предметных рубрик.

В соответствии с этим различают словарные и кодированные ИПЯ. Словарные ИПЯ - это языки, в которых план содержания совпадает с планом выражения естественного языка. Поэтому для лексических единиц этого типа ИПЯ не требуется перевод на естественный язык. Таковы язык предметных рубрик и дескрипторный язык.

Кодированные ИПЯ - это языки, в которых план выражения не совпадает с планом содержания. В этих случаях создаются специальные двуязычные словари, позволяющие коды ИПЯ переводить на естественный язык и обратно. Примером таких языков служат ББК, УДК и другие классификации, рубрикаторы.

Термины - основа лексики ИПЯ. Независимо от способа контроля лексики, уровня ее интеграции и способа построения лексических единиц в основе лексики любого ИПЯ лежат термины, так как они являются основными носителями научно-технической информации в текстах документов и запросов. Термины представляют собой наиболее существенный «строительный материал», при помощи которого создается ИПЯ. Поэтому без знания закономерностей образования терминологии, источников ее формирования, структурных особенностей терминов невозможно разработать ни словарь предметных рубрик, ни классификатор, ни информационно-поисковый тезаурус, ни любой другой ИПЯ.

Знание механизмов появления и функционирования терминов в научно-технических текстах позволяет качественно улучшить подготовку поисковых образов документов и поисковых предписаний, совершенствуя тем самым процедуру индексирования.

Поскольку единой системы классификации терминов в настоящее время нет, воспользуемся различными основаниями деления, для того чтобы дать многоаспектную характеристику терминологии как основы лексики любого ИПЯ. Основными признаками, позволяющими охарактеризовать термины, являются: структурные типы терминов, грамматическая структура терминов, деление терминов в зависимости от семантических процессов, сферы употребления, источников формирования.

С т р у к т у р н ы е т и п ы т е р м и н о в. Все термины в зависимости от языковых средств выражения можно разделить на две группы: языковые и неязыковые.

Языковые термины включают в свой состав термины-слова, термины-словосочетания и термины-предложения.

Термины-слова подразделяются на непроизводные: газ, лак, информация;

производные:

газовый, лаковый, информационный;

сложные: газоносный, лако-красочный, информационно поисковый;

аббревиатуры: ДНК, МБА, ЭВМ.

Термины-словосочетания включают свободные словосочетания, в которых каждый из компонентов - термин и может вступать в двустороннюю связь: квантовая химия, физическая химия, квантовая биология, библиотечная система, библиотечная статистика;

несвободные словосочетания, в которых компоненты, взятые изолированно, могут быть и не терминами, и лишь в сочетании друг с другом они образуют термин: библиотечный почерк, авторский лист, белый стих, читальный зал, черный ящик;

термины фразеологизмы, т. е. устойчивые, неделимые словосочетания: роза ветров, роза волнений, кошачьи лапки (морские термины);

кошачье золото, кошачье серебро (геологические термины);

кармашек книги, ключ к систематическому каталогу, источник информации, информационный шум (библиотечно-информационные термины).

Термины-предложения чаще всего представляют собой военные, морские, спортивные команды, например: Весла за борт!;

Вперед смотреть!;

На плечо! и т. п.

Неязыковые термины представлены специальными знаками, графическими символами.

Главная особенность неязыковых средств выражения терминов заключается в их абсолютной условности, искусственности, сознательной закрепленности за понятием.

Широкое применение в этих целях нашли символы, используемые в составе сложных, специальных наименований - комбинированные символослова: V-образные соединения, Х образные соединения. В качестве неязыковых средств часто используются буквы греческого алфавита, например в терминологии физики элементарных частиц: a-частица, a-распад, b радиоактивность и т. п.

Грамматическая с т р ук т ур а терминов. Экспериментальные исследования терминологии показывают, что наиболее типичными моделями образования терминов являются следующие: прилагательное+существительное (библиотечные каталоги, 1) жаропрочные сплавы);

2) существительное+существительное (комплектование фондов, катушки индуктивности);

прилага-тельное+прилагательное-1-существительное 3) (интегральные информационные системы, дуговые пламенные лампы). Активное исполь зование в качестве терминов таких частей речи, как существительное и прилагательное, "объясняется тем, что именно они способны назвать, выразить понятие, в отличие от лексических единиц, которые лишь указывают на предмет, но не дают ему индивидуального имени: над, он, тот, эта и т. п.

Д е л е н и е т е р м и н о в в з а в и с и мо с т и от сем ан т и ч е с к и х п ро ц е с со в. Анализ показывает, что терминологии присущи те же семантические явления, что и общелитературной лексике: полисемия, омонимия, синонимия, антонимия.

О полисемии (многозначности) мы говорим тогда, когда один термин имеет два и более значений. Например, термин давление применяется как для обозначения процесса, так и силы, действующей на поверхность. Существует несколько причин появления полисемии терминов: а) ограниченность словарного состава по сравнению с количеством понятий;

б) сосуществование понятий, относящихся к одному явлению, но отражающему различные взгляды, гипотезы;

в) неправильное заимствование терминов из иностранных языков и др.

Омонимия в терминологии представлена одной своей разновидностью - межнаучной терминологической омонимией, когда за одинаковыми терминами закреплены разные дефиниции (определения). Эти термины функционируют в разных терминологических системах. Например, употребление термина реакция свойственно таким отраслям, как химия, физика, политика, термин операция используется в медицине и военном деле.

Разграничить полисемию и омонимию бывает сложно, особенно в тех случаях, когда в качестве слов-терминов используются слова общелитературного языка в переносном значении. Например, сухарь в технике - это «простая вспомогательная промежуточная деталь в механизмах и узлах машин», мода (в математике) - «наиболее часто встречающееся значение в варьирующем ряду» и т. д.

Синонимия. В терминологии синонимы соотносятся с одним и тем же понятием и объектом, поэтому их иногда называют терминологическими дублетами. Причинами и источниками возникновения синонимов в терминологии являются: а) параллельное упо требление отечественных и международных или заимствованных наименований:

экслибрискнижный знак, = избирательность - се-лективность;

б) параллельное употребление полного и краткого наименования объекта: многотомное издание=многотомник, коэффициент полезного действия = кпд;

в) параллельное употребление так называемых фамильных терминов и их вариантов, созданных на основе классификационного признака понятия: Джонсон-эффект= тепловой эффект, булева алгебра = алгебра логики;

г) двойное обозначение понятия в физике, химии и некоторых других науках, словесное и символическое: Н2SО4= серная кислота, 1=температура;

д) использование разных наименований объекта в зависимости от рассматриваемой точки зрения, сферы его функционирования. Например, в зависимости от сферы употребления один и тот же объект может иметь торговое, техническое и химическое название:

лавсан= терепласт= полиэтилентерефталат.

Характерно, что синонимия особенно присуща ранним этапам формирования терминологической системы, когда еще не произошел отбор лучшего термина из нескольких предложенных.

Антонимия в терминологии проявляется в наличии противоположных научных понятий. Для их выражения широко используются словообразовательные средства:

чередование приставок (релевантный - нерелевантный, обратимый - необратимый), использование приставок полярного значения (макродокумент - микродокумент, предкоординатный - посткоординатный).

В зависимости от с ф е р ы у п о т р е б л е н и я термины могут подразделяться на научные, технические, военные, юридические и пр. При этом в пределах каждой предметной области могут быть выделены специальные (базисные) термины, характерные только для данной сферы;

общенаучные термины, отражающие методы, процедуры, средства познания любой предметной области;

«привлеченные» термины смежных областей знания, обозначающие необходимые для данной предметной области понятия из смежных отраслей науки и техники. Все эти совокупности терминов находятся во взаимосвязи и не имеют четких границ.

И с т о ч н и к и ф о р м и р о в а н и я т е р м и н о л о г и ч е с к о й л е к с и к и представляют собой разные виды заимствований.

1. Заимствование элементов классических языков (корней или морфем греческого или латинского языков). Принятые в качестве международных, эти термины наиболее целесообразны. Их легче оградить от полисемии, так как большинство таких терминов однозначно выражают определенные значения: микро-, макро-, -граф-, поли-, -логия, анти-, супер-, -трон, -дром и т. п. Они не вызывают ложных ассоциаций, так как не мотивируют терминологические наименования, а расшифровывают именуемые понятия посредством значений составляющих их терминоэлементов, например: микрофильм, экслибрис, монография, этнография, лимнология и т. п.

2. Заимствования из других языков. Они являются неизбежными не только для терминологии, но и для языков вообще, так как ни один естественный язык не может развиваться изолированно. Например, для музыкальной терминологии характерны заимствования из итальянского языка (кантата, дуэт, тенор);

военной - из французского (батальон, атака, десант);

в терминологии техники и спорта немало английских слов (экскаватор, рельс, туннель, блюминг, финиш, рекорд, ринг, нокаут) и т.

п. Значительное количество терминов информатики также заимствовано из английского языка (компьютер, файл, дескриптор, релевантность).

3. Заимствование из литературного языка. Например: усталость - состояние металла, находящегося под многократным воздействием нагрузок;

общение с ЭВМ;

информационный шум и т. п.

1.3. ПАРАДИГМАТИЧЕСКИЕ И СИНТАГМАТИЧЕСКИЕ ОТНОШЕНИЯ В ИПЯ Между лексическими единицами любого ИПЯ, как и между словами естественного языка, существуют определенные отношения, которые обусловлены наличием логических связей между предметами и явлениями, обозначенными этими словами. Такие отношения отражают смысловую связь между понятиями, показывают объективные предметно логические зависимости между явлениями внешнего мира. Они носят внетекстовой характер и поэтому не зависят от ситуаций, для описания которых используются слова.

Например, слова акварель, фреска, темпера связаны друг с другом отношением соподчинения или координации, так как они обозначают понятия, входящие в более широкий класс - живопись. Между словами живопись и акварель, азот, аммиак, водород и газы существует отношение «род-вид», слова платье и рукав, здание и крыша связывает отношение «целое-часть», а между словами загрязнение окружающей среды и нарушение экологического равновесия существуют отношения причинно-следственного характера. Все эти примеры иллюстрируют парадигматические (аналитические, базисные, имманентные) отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями. Парадигматические отношения отражают, таким образом, логические отношения и психологические ассоциации между значениями лексических единиц ИПЯ.

Важнейшими свойствами парадигматических отношений являются:

внетекстовой характер обусловленность), независимость от 1) (внетекстовая контекста, т. е. независимость от ситуации, в которой лексические единицы употребляются. Так, слово карась неизменно вызывает представление о рыбе, а лексические единицы яблоки, апельсины всегда ассоциируются с понятием «фрукты»;

2) многоступенчатость, нелинейность парадигматических отношений: одна и та же лексическая единица может входить в состав различных парадигм, т. е. в различные смысловые ряды, в которых она противопоставляется по различным смысловым признакам. Например:

Река - ручей - речка (размеры водоема) Река - пролив - озеро - море (форма водоема) Река - канал - пруд - водохранилище (характер происхождения водоема).

Свойство многоступенчатости, нелинейности парадигматических отношений особенно заметно проявляется при разработке ИПЯ на этапе систематизации, упорядочения лексики, при построении классификационных схем понятий, когда возникает необходимость отнесения той или иной лексической единицы к различным смысловым рядам (парадигмам).

Принято различать сильные и слабые парадигматические отношения, связывая эти понятия с той ролью, которую эти отношения выполняют для реализации информацион ного поиска.

Сильные парадигматические отношения включают в свой состав отношения тождества и отношения иерархии.

Отношения тождества (совпадения, адекватности) как разновидность сильных парадигматических отношений выражаются в использовании синонимов. Учет отношений тождества, синонимии при проведении информационного поиска имеет принципиально важное значение: неустраненная синонимия, как уже отмечалось, ведет к ощутимым потерям при поиске, снижает полноту выдачи информации по запросу. Например, вряд ли будет обеспечена полнота ответа на запрос, если человек, ведущий поиск, не знает, что альтернаторы - это то же самое, что и генераторы электрические, а карболиты и фенопласты, метаболизм и обмен веществ - есть равнозначные понятия.

Отношения иерархии как разновидность сильных парадигматических отношений соответствуют отношениям подчинения или отношениям типа «выше-ниже». В пределах иерархических отношений различают отношения типа «род-вид» и «целое- часть».

Отношение «род-вид» является одним из важнейших видов связей между понятиями.

При этом родовым (подчиняющим) называется понятие, выражающее существенные признаки класса предметов, являющихся видами этого рода. Соответственно видовым (подчиненным) называется понятие, которое отображает существенные признаки класса предметов, являющегося видом какого-либо рода.

Связь видового и родового понятия отображает ту реальную связь, которая существует между родом и видом в природе и обществе. Например, понятия лошадь, корова, овца - видовые понятия, в которых выражены существенные признаки отдельных, качественно особенных, но взаимосвязанных форм животных, входящих в одно родовое понятие домашние животные.

Одно и то же понятие может быть (за исключением единичных понятий и предельно общих категорий типа материя, движение, пространство и т. п.) как видовым, так и родовым одновременно в зависимости от того, по отношению к какому понятию оно рассматривается. Например, понятие аннотация является видовым по отношению к понятию вторичные документы и родовым по отношению к понятию справочная аннотация.

Основным условием для установления иерархических отношений типа «род-вид»

является соблюдение требования: «Все, что можно сказать о роде, можно сказать о виде».

Родовое понятие при этом нельзя рассматривать как сумму более узких видовых понятий.

Нельзя сказать, например, что стали - это сумма таких понятий, как сталь высокопрочная, сталь легированная, сталь углеродистая и т. д. Несоблюдение этого условия часто приводит к смешению двух типов сильных парадигматических отношений:

«род-вид» и «целое-часть»1.

Отношение «целое-часть» отражает реальный факт вхождения одного объекта (понятия) в состав другого. При этом подчиняющее понятие соотносится с подчиненными в результате разложения целого на части.

В отличие от родо-видовых отношений при установлении связей типа «целое-часть»

не действует закономерность: «Все, что можно сказать о подчиняющем понятии, можно сказать о подчиненном понятии». Кроме того, понятия, выражающие части целого, не находятся между собой в отношении соподчинения, что является характерным признаком видовых понятий.

Значение для информационного поиска сильных парадигматических отношений иерархического характера («род - вид» и «целое -часть») вполне очевидно. Родо видовые 1 По поводу отнесения связи типа «целое - часть» к сильным парадигматическим отношениям в специальной литературе не существует единства. Зачастую этот вид связи рассматривается в рамках слабых, ассоциативных парадигматических отношений.

отношения, эксплицитно представленные в ИПЯ, позволяют существенно корректировать стратегию поиска по запросам в зависимости от результатов выдачи. В случае «нулевой»

или недостаточной выдачи информации по запросу привлечение родовых, вышестоящих терминов позволит расширить область поиска, повысив при этом полноту выдачи. Если же по результатам поиска выдана избыточная информация, корректировку поискового предписания можно осуществить на основе введения видовых, нижестоящих понятий, что дает возможность значительно сузить область поиска и повысить точность выдаваемой информации.

Точно так же может происходить корректировка стратегии поиска и с учетом парадигматических отношений типа «целое - часть», так как вполне вероятно, что для потребителя информации, интересующегося системой, механизмом, аппаратом, процессом в целом, может оказаться полезной информация и об их составных частях, элементах, деталях, операциях.

Слабые (ассоциативные) парадигматические отношения учитывают логические отношения пересечения понятий и различные психологические ассоциации.

Психологические ассоциации возникают в сознании человека, когда представление об одном предмете (процессе или явлении) вызывает у него представление о предметах (процессах, явлениях), связанных с первым по какому-либо существенному признаку.

Ассоциативные отношения в лексике связаны с понятием мотивированности. Они всегда характеризуют совместное участие соответствующих объектов в типичной для данной области ситуации или участие объектов в аналогичных ситуациях.

К разряду слабых парадигматических отношений принято (ассоциативных) причислять отношения причины - следствия, смежности, контраста, кратности.

Отношения типа «причина-следствие» характеризует такую ситуацию, при которой одно явление, действие (причина) вызывает, определяет, изменяет или влечет за собой другое явление - следствие. Это отношение связывает лексические единицы, обозна чающие соответственно причину и следствие: авария-травма, нарушение технологии - брак, шум - звукоизоляция.

Отношение контраста является результатом (противоположности) противопоставления предметов, процессов не по критерию их общности, а по критерию различия. Оно выражается в лексике ИПЯ с помощью антонимов, противоположных по значению слов: экспорт-импорт, полнота-потери, блокирование-деблокирование, контактное реле - бесконтактное реле.

Помимо антонимов отношения противоположности, контраста в лексике могут быть реализованы с помощью омонимов: ассоциация (психологическая) и ассоциация (объединение), заговор (политика) и заговор (фольклор).

Отношение смежности является отражением в сознании ассоциативной связи между предметами или явлениями, которые воспринимаются в непосредственной близости друг другу в пространстве и во времени: болото-торф, ток электрический - напряжение, пастбища - травы многолетние.

Отношение кратности - особый вид связи, существующей в категориях единиц измерения величин. Так, нельзя сказать, что километр есть понятие более широкое, чем метр, а сантиметр - более узкое, чем метр. Одно из них является основным, а другое - производным, т. е. кратным.

Рассмотренные нами как сильные, так и слабые парадигматические отношения имеют принципиально важное значение для правильного выбора и точного употребления всех лексических единиц, которые требуются для передачи какого-либо сообщения, в том числе и для подготовки поискового образа документа и поискового предписания. Без учета парадигматических отношений: невозможно правильно провести информационный поиск по запросу, осуществить качественное индексирование, аннотирование или: реферирование документа, подготовить обзор литературы. Решаю щее значение установление парадигматических отношений между лексическими единицами имеет при разработке ИПЯ. Для этого необходимо знание основных способов выявления парадигматических отношений.

Существующие способы установления парадигматических отношений можно условно разделить на две группы: логико-интуитивные и формализованные.

Логико - интуитивный способ установления парадигматических отношений направлен на выявление существенных смысловых связей между понятиями.

Достижению этой цели обычно служат следующие пути.

1. Анализ реальных научно-технических текстов как первичных, так и вторичных документов. Он позволяет вскрыть реальные типы смысловых отношений, характерных для данных текстов, заранее устранить искусственное и надуманное их конструирование в отрыве от самих текстов. При таком подходе парадигматические отношения, введенные в ИПЯ, будут соответствовать смысловым отношениям, существующим в текстах документов соответствующей отрасли знания.

2. Установление парадигматических отношений через обращение к энциклопедиям, терминологическим словарям, обобщающим справочникам в данной области. Этот путь основывается на анализе логического описания и определения терминов. В словарных статьях справочных изданий обычно четко указываются все подвиды объекта, его назначение, сфера применения, местонахождение, основные количественные характеристики и параметры.

3. Обращение к специалистам в данной отрасли знания, предполагающее корректировку намеченных ранее парадигматических отношений.

На практике обычно используются одновременно все три способа выявления парадигматических отношений.

Формализованный способ базируется на следующих средствах «опознания»

(различения) парадигматических отношений в тексте: лексических (использование глаголов, причастий, вводных слов, предлогов и т. п.);

пунктуационных (использование двоеточия, тире, скобок и т. п.);

использование схем, чертежей;

использование различий в шрифтах (курсив, разрядка).

Так, целям распознавания сильных (родо-видовых) парадигматических отношений служат такие лексические единицы, как разновидность, подразделяются на, различают, делят на, в виде, относится к классу и т. п. Например: «В комплексе лингвистического обеспечения ИПС принято различать классификационные и дескрипторные ИПЯ»;

«Натуральный каучук относится к классу природных полимеров»;

«Разновидностью вторичных документов являются рефераты».

Распознаванию сильных парадигматических отношений способствуют предлоги из, среди, с и вводные слова типа в частности, как правило, в первую очередь: «Среди информационно-поисковых систем можно выделить документальные и фактографические»;

«Из числа изделий платьевых можно назвать платье-костюм, платье пальто, платье-сарафан»;

«В первую очередь из однолетних бобовых трав надо указать на вику, донник, люпин».

Немаловажное значение для установления сильных парадигматических отношений имеют знаки пунктуации - двоеточие, тире: «Непрерывные носители информации:

магнитные ленты, магнитные диски, магнитные барабаны»;

«Основные лесоматериалы - бревна, доски, фанера».

Установлению парадигматических отношений типа «целое- часть» способствуют схемы и чертежи, наглядно представляющие составные части предмета, объекта.

Лексическими распознавателями для этого вида отношений могут служить словосочетания типа: состоящий из, изготовленный из, в состав входят, являются частью. Например: «Рубрикатор ГАСНТИ является частью лингвистического обеспечения системы»;

«В состав препарата «Каметон» входят хлоробутанолгидрат, камфара, ментол».

Распознаванию слабых парадигматических отношений типа «предмет - назначение»

служат следующие лексические средства: используется для, предназначен для, служит для, в целях. Например: «ИПЯ служит для индексирования документов и запросов»;

«Термокопировальный аппарат предназначен для тиражирования листового материала».

Использование формализованного способа позволяет снизить субъективизм при установлении смысловых связей между лексическими единицами сложных, насыщенных отраслевой терминологией научно-технических текстов. Его использование целесообразно сочетать с логико-интуитивным методом.

Помимо парадигматических отношений, связывающих слова любого языка по смыслу, в нем имеются также и линейные отношения, устанавливаемые непосредственно при объединении слов и словосочетаний во фразы (предложения). Такие отношения получили название синтагматических. В специальной литературе их называют также синтаксическими, грамматическими, ситуативными, контекстуальными.

Для понимания природы и назначения синтагматических отношений в ИПЯ принципиально важно то, что они устанавливаются при использовании лексических единиц. В отличие от парадигматических, синтагматические отношения проявляются лишь при употреблении лексических единиц и целиком зависят от контекста.

Следовательно, они всегда характеризуют момент реального взаимодействия лексических единиц. Применительно к ИПЯ употребление лексических единиц происходит при индексировании - построении ПОД или ПП. Именно на этом этапе приводятся в движение лексические единицы ИПЯ и используется его словарный состав.

Синтагматические отношения - это всегда отношения между лексическими единицами в линейно-упорядоченных цепочках. Как только мы приводим в действие механизм синтагматических отношений, всегда образуется лексическая единица более высокого уровня интеграции: от слова - к словосочетанию, от простой предметной рубрики - к сложной, от простого индекса классификации - к составному и т. п.

Известно, что парадигматические отношения, характеризуя смысловые, семантические связи между понятиями, носят постоянный характер, например: Сосна - это разновидность хвойных деревьев;

Кроссовки - вид обуви и т. д. В то же время одни и те же лексические единицы могут образовывать различные выражения и передавать совершенно различные (а то и прямо противоположные) значения, например:

производство нефти и очистка бензина и производство бензина и очистка нефти;

политика силы и сила политики, перестройка пропаганды и пропаганда перестройки.

Таким образом, не имеющее ограничений словоупотребление, «вышедшая из под контроля» лексика может привести к появлению ложных словосочетаний и выражений с искаженным смыслом. В результате лексические единицы в ПОДе могут вступать в ложные словосочетания. При выдаче информации в ответ на запрос это оборачивается «информационным шумом», нерелевантными документами.

Для того чтобы избежать подобных негативных явлений и повысить точность информационного поиска, в ИПЯ предусмотрено использование специальных грамматических средств являющихся способом выражения (грамматики), синтагматических отношений.

Грамматика ИПЯ - это конкретный набор средств и правил построения поисковых образов на данном ИПЯ. В пределах грамматики одного ИПЯ могут быть использованы различные грамматические средства.

1. Мешочная грамматика. Это простое перечисление лексических единиц, входящих в один ПОД или ПП. В этом случае сам факт присутствия данного набора лексических единиц свидетельствует о существовании текстуальной связи между ними, и эта «связь может быть более или менее однозначно выявлена, исходя из значения перечисленных лексических единиц. Мешочная грамматика часто используется в отраслевых или узкотематических ИПС дескрипторного типа технической тематики. Языки, применяющие мешочную грамматику, иногда называют также «ИПЯ без грамматики», понимая под этим минимальность используемых грамматических средств. В иерархических библиотечно-библиографических классификациях используется знак «плюс» для соединения понятий, сошедшихся в одном тексте (документа или запроса).

Характер отношений при этом не фиксируется. Знак «плюс» фактически выполняет роль оператора мешочной грамматики, поскольку показывает совместное вхождение лексических единиц в один поисковый образ без указания их смысловых отношений друг к другу.

Примером ИПЯ, реализующих мешочную грамматику, являются языки типа «Унитерм», разрабатываемые для узкоотраслевых и тематических ИПС, обслуживающих небольшие специализированные массивы объемом до 30 тыс. документов.

Приведем пример реализации мешочной грамматики, когда простое перечисление слов, извлеченных из текста документа, дает представление о нем и образует его поисковый образ:

техника безопасности, травматизм, литейное производство.

Важно подчеркнуть, что порядок следования лексических единиц в ПОДе или ПП при использовании мешочной грамматики не имеет никакого значения и носит произвольный характер.

2. Позиционная грамматика. Это установление жесткого порядка следования лексических единиц, входящих в один поисковый образ. В ИПЯ классификационного типа (УДК, ББК) позиционная грамматика проявляется в правилах построения сложного индекса, согласно которому на первое место всегда ставится индекс, взятый из основных таблиц классификации, а затем индекс, содержащийся во вспомогательных таблицах.

К разновидностям позиционной грамматики следует отнести анкетный (аспектный, формулярный, матричный) способ составления поисковых образов и метод «стандартных фраз». Смысл первого способа можно охарактеризовать следующим образом. При создании ПОД или ПП вводится единая фиксированная схема (анкета, формуляр, матрица) упорядочения лексических единиц, определяющая порядок их записи. В этом случае перевод слов на ИПЯ, т. е. индексирование сводится к размещению в необходимые зоны соответствующих лексических единиц. Если какие-либо сведения в документе или запросе отсутствуют, то в соответствующей позиции ставится прочерк. Иными словами, индексирование на основе этого способа сводится к заполнению позиций анкеты, матрицы, формуляра и т. п.

Такой способ составления поисковых образов определяется однотипной структурой текстов, подлежащих индексированию. Например, для унификации и индексирования научно-технических текстов наиболее часто используется следующая схема анализа:

1. Предмет или тема исследования.

2. Область применения или использования предмета.

3. Метод исследования.

4. Условия, в которых протекало исследование.

5. Технические средства или оборудование, применявшиеся в ходе исследования.

6. Результаты исследования.

Преимуществами рассмотренного способа являются компактность записи, удобство сопоставления выражений на ИПЯ при Поиске, снижение субъективизма индексатора.

Однако при большом разнообразии информации, заключенной в текстах, данный способ теряет свои преимущества, так как многие позиции анкеты остаются незаполненными (они либо не имеют смысла для данного объекта, либо вообще отсутствуют). Данный способ может оказаться неудобным, если анкета будет слишком громоздкой.

Метод «стандартных фраз». «Стандартная фраза»- это многоместный предикат2, характеризующий определенную ситуацию. Обычно «стандартная фраза» представляет собой простое предложение с типовой структурой. Например, язык «стандартных фраз»

для поиска информации в области синтетической органической химии включает в свой состав фразу: Химическое вещество со структурой X находится в состоянии Y.

Схема или анкета (матрица, формуляр), «стандартная фраза», используемые при индексировании, позволяют унифицировать форму описания документа или запроса, обеспечивая единообразный подход различных.исполнителей к процессу составления поисковых образов, способствуют повышению качества и воспроизводимости 2 Предикат - это логическое сказуемое, то, что высказывается, утверждается или отрицается в суждении об объекте. Предикат отображает наличие или отсутствие того или иного признака у предмета (постоянства) индексирования.

3. Указатели связи. Это - символы, буквы или цифры, которые присоединяются к двум или более лексическим единицам ИПЯ с целью наглядного выражения существующей между ними логической связи.

Применение указателей связи наиболее характерно для дескрипторных ИПЯ, имеющих, как известно, лексику первого уровня интеграции, т. е. состоящую из отдельных слов и словосочетаний. Применение указателей связи вызвано тем обстоятельством, что отдельные слова и словосочетания (дескрипторы, унитермы, ключевые слова) могут образовывать не одно, а два или несколько осмысленных понятий, но при этом лишь одно из них будет соответствовать целям информационного поиска.

Например, в ИПС-70 на запрос Товарные знаки был выдан документ Внедрение прогрессивной технологии в производство мебели. Выдача нерелевантной информации произошла потому, что в тексте реферата документа содержалась фраза: «...улучшает их качество и товарный вид. Продукции присвоен знак качества». Совпадение лексических единиц запроса товарный и знак с аналогичными словами текста документа в условиях автоматизированной ИПС привело к «шумовой» выдаче. Для устранения таких ситуаций как раз и используются указатели связи. Возьмем в качестве указателей связи буквенные обозначения: а - для одной пары текстуально связанных лексических единиц и б - для другой пары. В этом случае можно получить в соответствии со смыслом и задачами информационного поиска попарно объединенные лексические единицы:

1) знак (а), товарный (а) 2) знак (б), качество (б) Указатели связи обычно применяют в ИПЯ, обладающем лексикой первого уровня интеграции, в двух случаях:

когда ложное логическое произведение образуют лексические единицы, 1) описывающие две разные темы или предметы одного документа;

когда ложное логическое произведение образуют лексические единицы, 2) описывающие одну тему или предмет документа.

4. Указатели роли. Это - символы, буквы или цифры, которые присоединяются к двум или более лексическим единицам и служат для обозначения логической роли (функции), выполняемой этой лексической единицей в поисковом образе.

Если указатели связи лишь фиксируют наличие связи между лексическими единицами ИПЯ, то указатели роли характеризуют эту связь. Указатели роли поясняют смысловую функцию лексической единицы в поисковом образе и задаются списком. Чаще всего эти списки представляют собой перечни логических категорий, которыми оперирует та или иная область знаний. Например, в дескрипторном ИПЯ отраслевой АСНТИ «Союзсельхозтехника» используются следующие указатели роли:

Р1 Основной объект рассмотрения Р2 Область, сфера, место применения РЗ Метод, способ, средство решения Р4 Отличительная часть, элемент, составляющая машины, сооружения, вещества и т. п.

Указатели роли используются для описания ситуаций, характерных для определенных тематических областей с ярко выраженной логической структурой. Следовательно, и число, и содержание их будут различными, определяясь особенностями отрасли знания, для которой создается данный ИПЯ.

Указатели роли уменьшают объем понятия, обозначаемого лексической единицей, что равносильно увеличению мощности массива смысловыражающих единиц ИПЯ, повышению избирательности языка и точности поиска. Хотя основной сферой применения указателей роли являются дескрипторные ИПЯ, тем не менее и в ИПЯ классификационного типа имеются аналогичные грамматические средства. Так, функцию указателей роли выполняют в УДК общие и специальные определители, в таблицах ББК - индексы территориальных типовых делений, общих типовых делений, специальных типовых делений. В алфавитно-предметной классификации целям уменьшения объема понятия, выражаемого предметной рубрикой, служат тематические (общие, типовые и специфические), географические, хронологические подзаголовки, а также подзаголовки назначения и формы.

В отношении указателей роли и связи следует подчеркнуть, что несмотря на то, что они предназначены для повышения точности информационного поиска, их применение может сопровождаться снижением полноты результатов поиска. Так, использование указателей связи позволяет повысить точность поиска информации до 10 %, а совместное использование указателей роли и указателей связи - на 15-17%, но при этом уменьшается полнота поиска. Это происходит из-за того, что индексаторы по-разному определяют функции лексических единиц в одном и том же тексте и соответственно могут присоединять к одинаковым лексическим единицам различные указатели роли.

ИПЯ, использующие указатели роли и связи, позволяют описывать тексты документов и запросов с большой точностью. Однако языки, обладающие этими грамматическими средствами, чрезвычайно сложны в эксплуатации, требуют утонченных процессов перевода и поиска, уступая по удобству и простоте использования более простым ИПЯ.

5. Грамматика логических операторов основана на использовании трех логических связок И, ИЛИ, НЕ, позволяющих осуществлять логическое умножение, сложение и вычитание лексических единиц, т. е. осуществлять операции алгебры логики (булевой алгебры). Оператор И означает операцию логического умножения - конъюнкцию;

оператор ИЛИ служит для обозначения логической суммы - дизъюнкции;

оператор НЕ позволяет осуществлять логическое вычитание (отрицание). Операторы имеют свои обозначения: И - /\, ИЛИ - \/, НЕ -. Они отражают логические связи между лексическими единицами в запросе, например: Антикоррозийная защита /\ Подземный газопровод. Наземный.

Логические операторы И, ИЛИ, НЕ служат для уточнения объемов понятий, выражаемых лексическими единицами. Они используются, как правило, только при составлении поисковых предписаний и определяют стратегию поиска. С формальной точки зрения логические операции И, ИЛИ, НЕ являются грамматическим средством, но фактически их функция близка функции, выполняемой критерием смыслового соответствия. Кроме того, логические связки И, ИЛИ, НЕ часто служат для образования новых понятий, выраженных сочетанием лексических единиц, что сближает их функционально с указателями роли и указателями связи.

1.4. СОЗДАНИЕ ЛЕКСИКО-СЕМАНТИЧЕСКОИ ОСНОВЫ ИПЯ Разработка любого ИПЯ, создание его лексико-семантической основы включает следующие основные этапы:

1. Отбор лексических единиц.

2. Нормализация лексики.

3. Систематизация и группировка лексических единиц.

4. Построение классификационных схем понятий.

5. Организационное оформление лексики ИПЯ.

Отбор лексических единиц - важнейший этап в создании любого ИПЯ, поскольку именно лексические единицы являются теми тем «атомами», «кирпичиками», «строительным материалом», из которого строится любой язык. Именно от качества выполнения этого этапа во многом зависят смыслоразличительные возможности ИПЯ, его семантическая сила. Этому этапу обязательно предшествует изучение структуры той отрасли науки или техники, искусства, по которой создается ИПЯ. Вот почему в состав разработчиков ИПЯ обычно входят не только информационные работники, библиотекари, библиографы, лингвисты, но и специалисты-отраслевики.

Занимаясь разработкой того или иного ИПЯ, его создатели отбирают в состав лексики не любые слова вообще, а «ключевые слова», т. е. слова, несущие в тексте наибольшую смысловую нагрузку. Поэтому при дальнейшей характеристике этого этапа работы будем считать условно синонимичными понятия «лексическая единица» и «ключевое слово».

Это допущение необходимо для уяснения сути технологических операций, выполняемых на данном этапе.

Ключевое слово - это полнозначное слово или словосочетание, являющееся носителем существенной в данном тексте (документе или запросе) информации с точки зрения информационного поиска.

К разряду ключевых слов следует отнести в первую очередь термины, важнейшими свойствами которых, как известно, является номинативность (способность называть предмет), однозначность, точность, отсутствие экспрессии.

Для каждой предметной области можно выделить три группы терминов:

1. Специальные термины, употребляемые только в данной отрасли знания, являющиеся как бы ее опознавательными знаками, символами. Например, по употреблению в речи или тексте такой группы терминов, как диагноз, гастрит, анестезия, переливание крови или залегание пласта, антрацит, угольный карьер, проходка, метаноопасность, мы всегда безошибочно укажем соответствующую отрасль знания.

2. Термины смежных отраслей знания, «привлеченные» термины, обозначающие необходимые для данной предметной области понятия из смежных отраслей науки и техники. Они отражают важнейшую закономерность развития современной науки: инте грацию, взаимопроникновение научных идей. Так, в медицинской терминологии обязательно используются биологические, химические термины;

терминология горного дела активно привлекает лексику геологии, кристаллографии.

5. Общенаучные термины, бытующие в любой отрасли знания, например: метод, анализ, оборудование, дефект, исследование, объект и т. п.

Разработчикам ИПЯ приходится всякий раз решать, к какой группе терминов относится то или иное слово, насколько целесообразно его включение в состав лексики ИПЯ, так как пропуск лексических единиц влечет за собой неизбежные потери информа ции при поиске, а излишнее расширение словарного состава делает его громоздким, неудобным, затрудняет поиск.

Очевидно, что в первую очередь в состав лексики разрабатываемого ИПЯ должны включаться термины первой группы. Именно они являются ключевыми. Отсутствие же формальных критериев значимости или незначимости терминов второй и третьей групп для конкретного ИПЯ существенно осложняет этап их отбора.

Связав понятие «лексическая единица» с понятиями «ключевое слово» и «термин», целесообразно указать категории неключевых слов, т. е. слов, которыми можно пренебречь в условиях создания лексико-семантической основы ИПЯ. К ним относятся служебные слова (частицы, предлоги, союзы, междометия);

часто употребляемые общенаучные термины типа проблема, актуальность, значение и т. п.;

термины, не относящиеся к понятийному аппарату того раздела науки или техники, для которого создается конкретный ИПЯ. Например, для ИПЯ по библиотековедению вряд ли имеет смысл включать в состав лексики термины электродвигатель, плазма и т. п.

Итак, отнесение конкретного термина к разряду ключевых слов зависит от прагматических соображений, определяемых тематическим охватом создаваемого ИПЯ, а также возможностями возникновения запроса, содержащего данное слово или словосочетание.

В качестве основных источников отбора лексических единиц можно назвать следующие: 1) уже существующие, т. е. ранее разработанные ИПЯ, располагающие фиксированным словарем: таблицы УДК, ББК, списки предметных рубрик, классификаторы, тезаурусы и т. п.;

2) терминологические словари, справочники, ГОСТы, словари толковые, энциклопедические и аналогичные нормативно-справочные издания;

3) массив документов по тематике создаваемого ИПЯ с хронологическим охватом в 5-б лет (именно за этот период происходит обновление терминологии), объемом 3-4 тыс. документов. Такой объем позволяет получить представительный массив лексики, достаточно полно характеризующий ту отрасль знания, по которой создается ИПЯ;

4) массив запросов, полученных от потребителей информации, содержащий, как правило, наиболее новые термины. Обычно при разработке ИПЯ все эти источники отбора лексики используются одновременно, в комплексе.

Отобранные в результате анализа лексические единицы образуют словник ключевых слов - исходный терминологический массив. Важнейшее требование к полученному словнику - полнота охвата лексических единиц, так как основное назначение лексиче ских единиц ИПЯ - служить средством образования ПОД или ПП и, в конечном итоге, средством поиска информации.

Нормализация лексики. После того, как лексические единицы (ключевые слова, термины) отобраны, возникает задача их единообразной записи, нормализации. Строго говоря, проблема нормализации решается одновременно с отбором лексических единиц, однако для удобства рассмотрения целесообразно нормализацию лексики охарактеризовать как самостоятельный этап создания лексико-семантической основы ИПЯ.

Нормализация лексики реализуется посредством двух операций: 1) представлением ключевых слов в единообразной грамматической форме (морфологический уровень нормализации лексики);

2) устранением синонимии и полисемии (семантический уровень).

Представление ключевых слов в единообразной грамматической форме, в свою очередь, складывается из следующих основных процедур:

Установление унифицированной формы записи лексических единиц (род, число, падеж). Как правило, исчисляемые существительные рекомендуется записывать в именительном падеже множественного числа, неисчисляемые - в именительном падеже единственного числа: датчики, радиодетали, документы, но информация, реле, резонанс.

Прилагательные и причастия записываются в именительном падеже множественного числа: лабораторные, информационные, предшествующие. Следует отметить, что эти правила вариативны и для различных ИПС могут быть изменены;

Решения вопроса о формулировке ключевого слова: запись в виде отдельного слова (унитерм) или словосочетания? В первом случае это будут отдельные слова:

автоматизированные, информационные, поисковые системы. Во втором - развернутые словосочетания: автоматизированные информационно-поисковые системы, травы однолетние злаковые.

Ориентация на отдельные слова (унитермы) позволяет достигать значительной глубины и детальности индексирования, дает возможность свободно манипулировать элементами поисковых образов. Однако при этом требуется разработка сложной системы грамматических средств для предотвращения информационного шума. Кроме того, механическое разделение многословных терминов, соответствующих определенным научно-техническим понятиям, неизбежно приводит к потерям при поиске информации, снижению точности выдачи.

На практике в качестве единой лексической единицы обычно используются устойчивые словосочетания, выражающие целостные (неделимые) понятия. Однако критериев, позволяющих четко и однозначно отделять устойчивые словосочетания от неустойчивых, в настоящее время не существует, а имеющиеся рекомендации носят неформализованный характер. Чаще всего решение о сохранении словосочетания как отдельной лексической единицы принимается на основании статистических данных (наблюдений о частоте встречаемости словосочетания в анализируемом массиве текстов) либо при условии, что в данном ИПЯ очень мала вероятность использования компонентов словосочетания по отдельности.

В том случае, если в разрабатываемом ИПЯ решено использовать в качестве лексических единиц не только отдельные слова, но и словосочетания, возникает необходимость определения порядка записи слов в словосочетании. Применительно к словосочетаниям, состоящим из прилагательного(ных) и существительного(ных) возникает дилемма: прямой (библиотечные фонды, оптические фильтры) или инвертированный (фонды библиотечные, фильтры оптические) порядок записи следует использовать. На этот счет также отсутствуют убедительные и достаточно формализованные критерии, носящие универсальный характер. Решение по этому вопросу принимается индивидуально в каждом конкретном случае разработчиками ИПЯ.

Для обеспечения экономичности и единообразия формулировок лексических единиц существуют рекомендации о целесообразности инвертированной формы записи, обеспечивающей выдвижение на первое место в словосочетании существительного (каталоги алфавитные, реакции химические). Однако абсолютизировать принцип инверсии нельзя, так как зачастую его использование влечет за собой образование лексических единиц, первое слово которых не выполняет эвристической функции, либо разрушает общепринятый термин.

Устранение полисемии и омонимии на этапе нормализации лексики достигается двумя способами. Первый, наиболее простой способ заключается в развертывании многозначного слова до словосочетания. Например, сети: сети рыбацкие, сети библиотечные;

лист: лист бумажный, лист растения.

Второй способ, именуемый лексикографическим, связан с использованием специальных ограничительных или пояснительных помет. Для устранения полисемии и омонимии могут использоваться следующие типы пояснений, помещаемых в скобках рядом с многозначным словом:

пояснение с помощью синонима: прямой ветвь - (непосредственный), (ответвление);

Отнесение слова к соответствующей отрасли знания: ребро (геометрия), ребро (авиация), ребро (анатомия);

Отнесение слова к соответствующей категории: емкость (предмет), емкость (характеристика), смазка (процесс), смазка (материал);

Указание на соответствующее слову родовое понятие: танк (резервуар), танк (вооружение);

Указание на соответствующие объекты действия: обработка (пищевых продуктов), обработка (информации).

Систематизация лексики. На этом этапе необходимо все отобранные и записанные в стандартной форме лексические единицы систематизировать, упорядочить, установить между ними смысловые связи, образовать классы близких по значению слов. В силу избыточности естественного языка в составе полученного словника ключевых слов неизбежно будут иметь место слова, находящиеся в отношениях эквивалентности, смысловой близости. Поэтому важнейшей задачей этапа систематизации лексики является установление парадигматических отношений между отобранными лексическими единицами и построение классов условной эквивалентности.

Класс условной эквивалентности - это совокупность лексических единиц, которые считаются условно синонимичными в данной области знания и используются в данном ИПЯ как равнозначные с точки зрения поиска информации. Между лексическими едини цами, входящими в один класс условной эквивалентности, могут существовать следующие отношения: 1) равнозначности, тождества, выражаемые синонимами;

2) пересечения - частичного совпадения объемов понятий, т. е. отношения, связывающего слова, между которыми существует ассоциативная связь, семантическое родство;

3) подчинения, т. е. отношения типа «род-вид», «целое- часть», «выше-ниже».

Построение классификационных схем понятий. Классификационная схема понятия - это графическое средство фиксирования парадигматических связей между понятиями. Ее основное назначение - обозначение границы того или иного понятия, определение объема, содержания и структуры понятия, установление его связей с другими понятиями. Разработка классификационной схемы включает: выделение наиболее существенных признаков понятия в качестве основания деления;

построение частных схем, отражающих взаимосвязь понятий и использующих выделенные признаки. В соответствии с правилами формальной логики деление объема понятий, осуществляемое при построении классификационной схемы, должно быть обоснованным, взаимоисключающим, адекватным по объему, непрерывным.

Классификационные схемы понятий позволяют учитывать действительные связи, существующие между понятиями, получать строго упорядоченную систему понятий, наглядно представлять смысловые отношения, объединяющие лексические единицы ИПЯ.

Организационное оформление лексики ИПЯ. Организационное оформление лексики - это ее графическое, знаковое воплощение, которое целиком зависит от типа разрабатываемого ИПЯ. В зависимости от типа создаваемого ИПЯ, его функционального назначения, нормализованные и систематизированные лексические единицы будут преобразованы либо в предметные рубрики, либо в дескрипторы, либо в индексы классификации и т. д. Например, лексико-семантическая основа ИПЯ может быть организационно представлена в виде таблиц классификации (УДК, ББК, МКИ, Единая схема классификации литературы для книгоиздания в СССР и др.), рубрикаторов (Рубрикатор ГАСНТИ, Рубрикатор МСНТИ), классификаторов (Общесоюзный классификатор профессий рабочих и должностей служащих, Общесоюзный классификатор отраслей народного хозяйства), словарей предметных рубрик, информационно-поисковых тезаурусов и ряда других пособий, образующих комплекс лингвистических средств ИПС.

Итак, в составе любого ИПЯ можно выделить логико-лингвистические универсалии, к которым относятся алфавит, лексика, парадигматические и синтагматические отношения. В совокупности все эти элементы составляют своего рода универсальную модель ИПЯ, с помощью которой можно проводить анализ как уже существующих языков, так и языков, специально конструируемых для той или иной библиотечно информационной системы.

Знание структуры ИПЯ позволяет рационально организовать технологию разработки новых языков, проводить сопоставительный анализ семантической силы уже существующих ИПЯ, осуществлять обоснованный выбор ИПЯ для решения определенного круга задач в соответствии с выполняемыми ИПЯ функциями.

Глава 2. ОСНОВНЫЕ ТИПЫ ИПЯ Принадлежность ИПЯ к той или иной группе или типу языков составляет одну из его важнейших характеристик. Типология - это научный метод, основа которого - расчленение системы объектов и их группировка с помощью обобщенной модели или типа. Она используется в целях сравнительного изучения существенных признаков, связей, функций, отношений, уровней организации объектов. Следовательно, отнесение того или иного ИПЯ к определенному типу позволит определить его наиболее существенные свойства, вскрыть преимущества и ограничения в сфере употребления.

Наряду с систематикой и таксономией к числу основных логических форм типологии относится классификация.

В настоящее время в специальной литературе нет единой классификации ИПЯ.

Представление о сложившихся подходах к выделению различных типов ИПЯ можно получить, обратившись к публикациям , содержащим попытки их упорядочения, типизации по различным признакам. Именно множество признаков, которыми обладает ИПЯ, породило многообразие классификаций.

Для того чтобы дать характеристику основных типов ИПЯ, примем в качестве обязательного утверждение, что требование отнесения какого-либо языка к тому или иному типу не должно выполняться целиком для всех без исключения явлений данного языка, т. е. «нет правил без исключения». Таким образом, в дальнейшем рассмотрении будем ориентироваться не на то, каков язык весь, а на то, что для него наиболее характерно.

Известным способом типизации ИПЯ является разделение их на посткоординированные и предкоординированные, причем сразу следует подчеркнуть, что в чистом виде эти два типа языков практически не существуют, и речь может идти лишь о преобладании характерных черт в том или ином информационно-поисковом языке.

В том случае, если словарный состав ИПЯ состоит преимущественно из изолированных слов и словосочетаний, которые объединяются между собой (координируются) только в процессе индексирования, то такой ИПЯ следует отнести к типу посткоординатных, или координатных, языков. Для уяснения сути этого типа языков принципиально важным является понимание метода координатного индексирования как способа описания смысла документа с помощью выявленных в его тексте наиболее значимых, или ключевых, слов. Типичным примером языков посткоординатного типа являются язык системы «Унитерм», дескрипторный ИПЯ.

Отличительная особенность языков предкоординатного типа заключается в том, что в их словарь входят не только отдельные слова и словосочетания, но и, преимущественно, развернутые словосочетания и целые фразы. В таких словосочетаниях и фразах слова оказываются связанными (координированными) между собой еще до индексирования, т.

е. координированными предварительно Такими ИПЯ (предкоординированными).

являются, например, УДК, ББК. В основе предкоординатного индексирования лежит принцип выявления тематики всего документа (запроса, факта) в целом и сравнения этой выявленной тематики с заранее заготовленным (предкоординированным) списком лексических единиц ИПЯ, из которых надо выбрать наиболее подходящие по смыслу.

Предкоординированные ИПЯ обслуживают целый комплекс поисковых задач. При любой поисковой задаче, когда из данной совокупности объектов нужно выбрать объекты с определенными свойствами, возникает вопрос: как ускорить процедуру поиска, как сократить перебор? Одно из самых простых решений, которым человечество пользуется с незапамятных времен,- разбить все объекты из данной совокупности на группы таким образом, чтобы в одной группе оказались объекты с одинаковыми свойствами. Иными словами, речь идет о классификации.

Классификация - это распределение предметов какого-либо рода на взаимосвязанные классы согласно наиболее существенным признакам, присущим предметам данного рода и отличающим их от предметов других родов, при этом каждый класс занимает в получившейся системе определенное постоянное место и, в свою очередь, делится на подклассы. Класс - это совокупность объектов, имеющих один или несколько общих характеристических признаков. Отличительный, характерный признак, по которому.производится деление предметов на классы, называется основанием деления.

Одним из древнейших предкоординированных ИПЯ, используемых в библиотечно библиографической практике, являются классификационные языки, или библиотечно библиографические классификации. Наиболее широкое применение среди них получили иерархические классификации.

2.1. ИЕРАРХИЧЕСКИЕ КЛАССИФИКАЦИИ КАК ИПЯ: ПРИНЦИПЫ ПОСТРОЕНИЯ, СТРУКТУРА Иерархические классификации - это классификации, между подразделениями которых существуют только два отношения: иерархии и соподчинения. Иерархия - это отношение, при котором один класс является подклассом другого, более широкого класса. Соподчинение - это отношение, которое связывает классы, являющиеся подклассами одного более широкого класса, т. е. отношения между подклассами одного и того же класса.

Иерархическая классификационная система строится по следующему принципу:

исходное множество объектов классификации делится в соответствии с выбранным основанием деления на крупные группировки - классы. Затем каждый класс разбивается на ряд последующих группировок - подклассов, которые, в свою очередь, распадаются на более мелкие, постепенно конкретизируя объект или его свойства.

В результате классификационные группировки образуют многоуровневую ветвящуюся систему, обычно изображаемую в виде древовидного графа, блока-схемы или таблицы. Вершины этого соответствуют классификационным «дерева»

группировкам, а на «ветвях» расположены классификационные деления, находящиеся в иерархическом подчинении - так называемая классификационная ветвь.

Основными характеристиками иерархических классификаций как ИПЯ являются количество ступеней классификации (уровней), глубина и емкость.

Количество ступеней (уровней) определяет глубину системы классификации, которая устанавливается в зависимости от необходимого для решения задач числа признаков, применяемых при классификационном делении и характеризующих свойства классифицируемых объектов, а также от необходимой степени конкретизации группировок.

В различных ИПЯ глубина иерархии измеряется по-разному. В УДК она равна десяти, в Рубрикаторе ГАСНТИ - трем уровням классификационного деления. Емкость иерархической классификации - это также один из важнейших показателей семантической силы ИПЯ, характеризующий мощность его словарного состава: в УДК, например, общее число индексов, т. е. лексических единиц, достигает 250 тыс., не считая определителей, а в Рубрикаторе ГАСНТИ тот же параметр измеряется 6118 индексами, т.

е. емкость этого ИПЯ весьма незначительна.

Алфавит иерархических классификаций по своему составу может быть либо цифровым, либо смешанным, включающим как цифры, так и буквы. В обоих случаях в состав алфавита могут входить знаки пунктуации (точка, дефис, апостроф, двоеточие, запятая, косая черта, скобки), специальные знаки и символы (знак стрелки, квадрата). В группу ИПЯ с цифровым алфавитом входят УДК, рубрикаторы, классификаторы.

К ИПЯ со смешанным алфавитом, включающим буквы и цифры, относятся ББК (за исключением варианта таблиц для массовых, а также детских и школьных библиотек) и Международная классификация изобретений (МКИ). В таблицах ББК для научных библиотек используются заглавные и строчные буквы кириллического (русского) алфавита, арабские цифры, знаки пунктуации, специальные символы. Кроме того, для обозначения специальных индексов лингвистических, хронологических, - территориальных и других - используются буквы латинского алфавита и римские цифры.

2 часа

Создание лексико-семантической основы ИПЯ.

Часть 3. Организационное оформление лексики

Цель работы: Познакомиться с видами организационного оформления лексики.

Задачи работы: 1. Овладеть правилами систематизации лексических единиц;

2. Приобрести навыки представления лексики в виде

Иерархической классификации, классификаторов,

Информационно-поисковых тезаурусов.

Обеспечивающие средства: массив карточек с лексическими единицами; информационно-поисковые языки (УДК, ББК, ГРНТИ).

Задание 1: Организационно представить лексику в виде иерархической классификации.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента иерархической классификации:

Языки информационно-поисковые

11. Языки информационно-поисковые классификационные

Системы классификации иерархические
1. Системы классификации комбинационные

11.111 Библиотечно-библиографическая классификация

11.112 Универсальная десятичная классификация

Системы классификации перечислительные

11.121 Международная классификация изобретений

………………………….

Технология работы:

На основе классификационной схемы понятий, созданной в ходе выполнения лабораторной работы 5, присвоить цифровые обозначения представленным в ней лексическим единицам. При построении индекса необходимо отразить в его структуре подчинение понятий, т.е. обеспечить в структуре индекса наглядное выражение парадигматических отношений.
Упорядочить заиндексированные лексические единицы.
Оформить результаты в виде фрагмента иерархической классификации.

Задание 2 : Составить алфавитно-предметный указатель к иерархической классификации.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента алфавитно-предметного указателя к иерархической классификации:

Алфавитно-предметный указатель

ББК см. Библиотечно-библиографическая классификация

Библиотечно-библиографическая классификация 11.111

ИПЯ см. Языки информационно-поисковые

Международная классификация изобретений

МКИ см. Международная классификация изобретений 11.121

Системы классификации иерархические 11.1

Системы классификации комбинационные 11.11

Системы классификации перечислительные 11.12

УДК см. Универсальная десятичная классификация

Универсальная десятичная классификация 11.112

Языки информационно-поисковые 1

Языки информационно-поисковые классификационные 11

Технология работы:

На основе созданного в ходе выполнения задания 1 фрагмента иерархической классификации составить предметные рубрики для алфавитно-предметного указателя.
Отразить в АПУ с помощью ссылки см. синонимы, выделенные в ходе выполнения лабораторной работы 5.
Упорядочить построенные предметные рубрики в алфавитном порядке.
Оформить результаты в виде фрагмента АПУ к иерархической классификации.

Задание 3: Организационно представить лексику в виде классификатора.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента классификатора:

Фрагмент классификатора, созданного на основе порядкового метода кодирования

00001 Библиотечно-библиографическая классификация

00002 Международная классификация изобретений

00003 Системы классификации иерархические

00004 Системы классификации комбинационные

00005 Системы классификации перечислительные

00006 Универсальная десятичная классификация

00007 Языки информационно-поисковые классификационные

………………………

Фрагмент классификатора, созданного на основе последовательного метода кодирования

11000 Языки информационно-поисковые классификационные

11200 Системы классификации иерархические

11210 Системы классификации комбинационные

11211 Библиотечно-библиографическая классификация

11212 Универсальная десятичная классификация

11220 Системы классификации перечислительные

11221 Международная классификация изобретений

…………………..

Технология работы:

На основе классификационной схемы понятий, созданной в ходе выполнения лабораторной работы 5, присвоить цифровые обозначения представленным в ней лексическим единицам.
При построении кода необходимо использовать различные методы кодирования: порядковый, серийно-порядковый, последовательный и параллельный.
Упорядочить закодированные лексические единицы.
Оформить результаты в виде фрагментов классификатора.

Задание 4 : Организационно представить лексику в виде информационно-поискового тезауруса.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента лексико-семантического указателя информационно-поискового тезауруса:

Формула дескрипторной статьи Пример:

Дескриптор СИСТЕМЫ КЛАССИФИКАЦИИ

синонимы КОМБИНАЦИОННЫЕ

вышестоящие понятия в Системы классификации иерархические

нижестоящие понятия н Библиотечно-библиографическая

ассоциативные понятия классификация

Универсальная десятичная

Классификация

А Системы классификации

Перечислительные

Технология работы:

Используя формулу дескрипторной статьи, упорядочить выделенные и представленные в классификационной схеме понятий лексические единицы (см. лабораторную работу 5).
Представить в алфавитном порядке дескрипторные и аскрипторные статьи.
Оформить результаты в виде фрагмента лексико-семантического указателя информационно-поискового тезауруса.

Контрольные вопросы

Перечислите основные способы организационного оформления лексики ИПЯ.
В чем состоит сходство и различие систем классификации, классификаторов, информационно-поисковых тезаурусов?

Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. Алма-Ата: Гылым, 1991. С. 64-77.
Гендина Н.И., Скипор И.Л. Лингвистические основы информатики: Гипертекстовый учебный терминологический словарь-справочник. Кемерово: Кузбассвузиздат, 2002.-124 с.

Типы и виды ИПЯ

Способ задания лексических единиц

Контролируемые - языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные системы классификации (УДК, ББК, классификация Дьюи).

Дескрипторные ИПЯ, а также язык ключевых слов - автоматический поиск.

Неконтролируемые - лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последнее время.

Порядок записи лексических единиц[править | править вики-текст]

Некоординируемые языки - не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).

Координируемые ИПЯ - языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.

Предкоординируемые - связи между лексическими единицами устанавливаются перед поиском.

Посткоординируемые - когда связи между лексическими единицами устанавливаются только при поиске.

43. Правовой тезаурус.

правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.

Информационно-поисковый язык. Правовой тезаурус.

Одной из важных задач правовой информатики является лингвистическое обеспечение правотворческого процесса. Право не существует вне языка.

Ст.2 Закона об информации относит к средствам обеспечения автоматизированных информационных систем также и лингвистические средства.

В системе лингвистических средств обеспечения АИПС первое место занимает информационно-поисковый язык (ИПЯ).

В широком смысле язык – это знаковая система, используемая для сбора, хранения, обработки и передачи информации.

ИПЯ – это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью их последующего хранения и поиска.

ИПЯ по законодательству должен обеспечивать:

Эффективную формализацию правовых норм и нормативных актов

Высокую скорость поиска на компьютере информации

Оптимальный перевод нормативного текста с юридического языка на язык, доступный ЭВМ

Минимальный «шум», т.е. сведение к минимуму выдачу компьютером излишней информации

Полноту информационного поиска, т.е. получение всей необходимой информации для решения конкретных задач правотворчества

Любая информация для того, чтобы быть переделанной, должна соответствующим образом кодироваться, т.е. переводиться на язык специальных символов или сигналов.

Теория информационного поиска различает следующие типы ИПЯ:

Языки предметного типа – это алфавитно-предметные указатели к сборникам и отдельным нормативным актам и широко распространенные алфавитно-предметные рубрикаторы.

При использовании этого языка основная тема документа выражается одним или несколькими типовыми словами – рубриками. Например, существуют предметно-алфавитные указатели к Конституции РФ, к ГК РФ.

Язык классификационного типа – представляет собой классификатор отраслей законодательства.

Язык дескрипторного типа – обладает большой «семантической силой», т.е. способен полностью передавать смысл нормативных актов, выразить комбинацией дескрипторов (ключевое слово – объединяющее группу ключевых слов) любое понятие, характеризуются высокой степенью отражения смысла документов, наличием ключевых слов.

Дескрипторные ИПЯ делятся на:

языки, в которых не различаются логико-смысловые отношения между понятиями

языки, которые содержат в своем составе логико-смысловые отношения.

(особо) правовой тезаурус – это логико-семантическое собрание ключевых слов и дескрипторов, применяемых в качестве лингвистического обеспечения и использования АИПС правовой информации.

Задача – упорядочить и привести в систему лексические средства, используемые в правотворческом процессе.

В информатике тезаурус выполняет следующие функции:

используется для организации информационного поиска (информационно-поисковый тезаурус)

используется как лингвистическое средство в процессе решения правотворческих задач (полный словарь терминов, определения юридических понятий, комментарии, данные о количестве дескрипторов)

используется как средство, измеряющее смысл сообщения (тезаурус пользователя – совокупность сведений, которыми располагает пользователь)

выступает в качестве важнейшего средства поиска латентной информации

Существуют тезаурусы различных типов:

общеправовой (102 тысячи слов и словосочетаний). Сейчас не применяется.

Тезаурус, специализированный по отраслям права. (например, Eurovoc).

Подготовка правовой информации к машинной обработке:

метризация; кодирование; индексирование и рубрицирование.

В широком смысле под метризацией понимается описание определенной совокупностью числовых характеристик. В зависимости от того, что используется в качестве характеристик выделяют два типа метризации: а) подсчет; б) измерение.

При измерении и подсчете в качестве средства выражения используются натуральные числа. При измерении используются единицы меры.

Объектами измерения могут выступать любые предметы материального мира, обладающие любыми свойствами, которые могут быть измерены или характеризуются количественными данными.

Под метризацией правовой информации следует понимать такую процедуру ее обработки в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.

Характеристики, полученные в результате измерения, могут выражаться как в абсолютных величинах, так и в относительных.

Кодирование правовой информации – это такая операция, при которой определенные данные заменяются сокращенными условными обозначениями (цифры, числа). Обратная операция называется декодированием.

Комбинацию символов называют кодом, а количество символов, входящих в кодовую операцию называют длина кода.

Для кодирования правовой информации используется несколько способов: точечный, контурный, точечно-зональный.

Одним из видов формализации правовой информации является индексирование – это процесс отбора из текста терминов (ключевых слов), которые, по мнению специалиста – юриста, отражают основное содержание темы. Далее такие термины преобразовывают в форму информационно-поискового языка.

Рубрицирование – это процедура присвоения определенной теме нормативного акта или запроса соответствующего индекса из рубрикатора, в котором за каждой темой закреплен свой индекс.

45. Метризация и кодирование.

Метризация. В широком плане под метризацией обычно понимается описание какого-либо объекта определенной совокупностью числовых характеристик. Непосредственным объектом метризации, в частности измерения, всегда является та или иная физическая величина, обычно именуемая параметром объекта познания. Вот почему данные, получаемые в результате этой процедуры, правомерно называть параметрической или измерительной информацией.

С учетом этого под метризацией правовой информации следует понимать такую процедуру её обработки, в результате которой субъект юридической деятельности получает количественные характеристики тех или иных параметров объекта познания.

В зависимости от того, что избирается в качестве такой характеристики и что ею желают выразить, различают два вида метризации:

Подсчет. При подсчете в качестве средства выражения интересующих нас данных используют натуральные числа (например, указывают, что в данном регионе за названный период было выявлено 20 случаев нарушения законности при рассмотрении гражданских дел в судах).

Измерения. При измерениях в качестве средства выражения полученных данных наряду с натуральным числом используются принятые для данного вида измерений соответствующие единицы меры.

Метризация осуществляется с помощью измерительных приборов.

Кодирование. В широком смысле под кодированием понимаются операции замены каких-либо данных (например, текстовых) сокращенными условными обозначениями, как правило, цифровыми или символами . Обратная операция называется декодированием. Обычно эти операции используются как средство представления информации, характеризующей индивидуальные особенности объекта или исследуемого события, в виде последовательно расположенных символов абстрактного алфавита. Комбинацию таких символов называют кодом, а их количество, входящее в определенную кодовую комбинацию, - её длиной. Кодовые символы могут иметь различную форму. Чаще всего это цифры, буквы какого-либо алфавита, а также различного рода условные знаки и их сочетания (точка и тире, математические символы и т. п.).

Виды ипя. Организационная структура предприятия: виды и схемы. Основа построения дескрипторных информационно-поисковых языков

13. Состав, назначение, требования к ипя. Классификация дескрипторных ипя.

Алфавитно-предметный указатель

Контрольные вопросы