Главная страница

общение

Перейти на форум

Написать автору

события

Расписание

Приветствия

Пленарные заседания

"Круглые столы"

Мастерские

Участники конференции

Экспоненты выставки

Фотогалерея

секции

Оглавление

I.1, I.2, I.3

II.1, II.2, II.3, II.4

III.1, III.2

- IV -

- V -

- VI -

Непрошедшие экспертизу

Алфавитный список авторов

статистика
Рейтинг@Mail.ru Rambler's Top100 AllBest.Ru Яндекс цитирования

Вид доклада: [только публикация]

ИТО-2001/Секция IV

СОЗДАНИЕ ПРЕДМЕТНЫХ ИНДЕКСОВ ДЛЯ КОЛЛЕКЦИЙ ДОКУМЕНТОВ В ЭЛЕКТРОННЫХ БИБЛИОТЕКАХ

Иванов Дмитрий Фёдорович

Отдел информатизации Правительства Республики Марий Эл, г.Йошкар-Ола

Рассмотрена проблема быстрого и качественного доступа к знаниям. В качестве решения представлен метод автоматического построения предметного индекса коллекции документов, реализующий семантическое сжатие информации. При использовании метода получена 84-хпроцентная релевантность терминов индекса коллекции. В заключении указаны области расширенного применения метода.

При увеличившихся объёмах и темпах обновления знаний в образовательной сфере, все более актуальными становятся вопросы эффективного хранения и представления знаний, в том числе проблема быстрого и качественного доступа к знаниям, представленным в коллекциях документов электронной библиотеки. Разработано немало подходов к этой проблеме, основанных на формализации знаний при минимальных затратах вычислительных и временных ресурсов: информационно-поисковые механизмы, предназначенные для быстрого и эффективного извлечения информации из коллекций документов, классификаторы и каталогизаторы информации, позволяющие реализовать иерархический и в какой-то мере семантический доступ к информации. Следует отметить, что внимание исследователей смещается в направлении смысловой обработки информации [1].

В данной статье описывается метод семантического сжатия информации, реализующий идею построения предметного индекса на однородной коллекции документов. Использование подобного механизма делает возможным представление любой тематической коллекции документов в виде индекса терминов, набор которых отражает смысловое содержание всей коллекции. Полученное в результате применения метода формализованное множество, по существу, является как позиционным индексом, так и, что не менее важно, смысловым образом коллекции. Оригинальной основой механизма реализации предлагаемого метода является использование статистических характеристик терминов документов коллекций — для первого этапа — и статистических характеристик пар терминов на всём объёме коллекции — для второго заключительного этапа. Кроме того, в отличие от использованного в работе [2] «окна» (последовательность 2n+1 слов текста с ключевым словом в центре), для определения контекстных связей терминов, в настоящей работе используются абзацы текстов документов.

Первый этап состоит в последовательном применении нескольких известных методов семантического сжатия индекса слов коллекции, полученного после стандартной операции индексирования. Целью данного этапа является получение словаря терминов коллекции документов с минимизированным числом релевантных терминов. К широко распространённым методам семантического сжатия, реализуемым алгоритмом, следует отнести:

  1. усечение по списку стоп-слов,
  2. реализацию следствий из законов Зипфа, отражающих статистические закономерности текстов,
  3. морфологическую коррекцию терминов и коррекцию по частям речи, например, удаление из текущего текста глаголов,
  4. определение словосочетаний в полученном наборе терминов.

Структуры данных, используемые алгоритмом, допускают подключение и таких критериев оценки терминов, как позиционное взвешивание и взвешивание по инверсной частоте. Суть первого заключается в использовании гипотезы о тяготении релевантных терминов документов к началу текстов, а второго – в применении следствия из закона Зипфа для множества документов.

Второй этап состоит в вычислении соотношений терминов в виде статистических данных, в дальнейшем определении семантических связей между ними и последующем заключительном усечении словаря терминов. Критерием усечения является малое число связей термина с другими терминами. Результатом второго этапа является минимизированный словарь связанных терминов, по существу представляющий предметный индекс коллекции документов.

Программная реализация метода была испытана на коллекции отчётов археологических экспедиций в виде 36 полнотекстовых файлов. После обработки получено 107 терминов — из них 90 релевантных рассматриваемой предметной области. Таким образом, полученные результаты — ~84% релевантных терминов при полностью автоматической обработке — свидетельствует о достаточно высоком качестве обработки.

В заключение следует отметить, что область применения подобного предметного индекса коллекции не ограничивается определением. Возможно использование предметного индекса при классификации вновь поступивших в коллекцию документов, а также при предметном поиске информации.

Литература

  1. Carl Gutwin , Gordon Paynter , Ian Witten , Craig Nevill-Manning , Eibe Frank Improving Browsing in Digital Libraries with Keyphrase Indexes, Decision Support Systems, 1999, 27(1-2):81-104.
  2. A corpus analysis approach for automatic query expansion; Susan Gauch and Jianying Wang; Proceedings of the sixth international conference on Information and knowledge management, 1997, Pages 278 — 284
написать автору
Сервер поддерживается фирмой НПП "БИТ про"
Лучшие программы для образовательного процесса