Главная страница

общение

Перейти на форум

Написать автору

события

Расписание

Приветствия

Пленарные заседания

"Круглые столы"

Мастерские

Участники конференции

Экспоненты выставки

Фотогалерея

секции

Оглавление

I.1, I.2, I.3

II.1, II.2, II.3, II.4

III.1, III.2

- IV -

- V -

- VI -

Непрошедшие экспертизу

Алфавитный список авторов

статистика
Рейтинг@Mail.ru Rambler's Top100 AllBest.Ru Яндекс цитирования

Вид доклада: [только публикация]

ИТО-2001/Секция IV

ОБЗОР МЕТОДОВ ЭФФЕКТИВНОГО ИЗВЛЕЧЕНИЯ ПОЛНОТЕКСТОВОЙ ИНФОРМАЦИИ

Иванов Дмитрий Фёдорович

Отдел информатизации Правительства Республики Марий Эл, г.Йошкар-Ола

В статье рассматриваются тенденции развития методов эффективного для пользователя извлечения информации. Отражены основные механизмы статистического, семантического и визуального подходов реализаций принципа. Указаны их достоинства и недостатки. Высказаны предположения о будущем развитии средств поиска в данном тематическом ракурсе.

В настоящее время, вследствие недостатка учебных материалов, качественно и полно отражающих раскрываемую предметную дисциплину, преподаватель нередко обращается к широкодоступным электронным материалам — всемирной сети Internet. Благодаря множеству реализаций поисковых механизмов, при определенных затратах, в ней можно найти практически любую требуемую информацию. В данной статье проводится анализ основных методов и тенденций развития поисковых механизмов и интерфейсов.

Определим основные тенденции в области эффективного доступа к информации как: повышение качества поиска информации при обработке запросов и максимальное упрощение действий, производимых пользователем в процессе поиска информации, с сокращением их количества.

Прежде всего означим группу широко известных и глубоко изученных методов, реализующих статистическую и синтаксическую корректировку запроса, к сожалению, уже достигших предела повышения эффективности поиска. Во-первых, это семейство так называемых методов поиска с положительной и отрицательной обратной связью по релевантности [1,4] с вариациями, например, “найти похожий”, стратегия последовательного уточнения запроса и т.д. Во-вторых, алгоритмы форсирования запроса, сутью которых является расширение запроса поисковой системой некоторым множеством связанных терминов за счёт собственного словаря синонимов системы, в лучшем случае тезауруса.

Второй, более прогрессивный подход представляет семантические методы улучшения запроса. Их появление стало возможным благодаря нечеткому поиску и ранжированию результатов поиска. Большинство методик данного подхода ориентировано на использование ИПС и реализуются как вторичные поисковые средства. Одним из самых простых, эффективных, потому и самых популярных методов реализации данных теорий является алгоритм расширения запроса с использованием тезаурусов предметных областей. Стоит отметить, что полностью автоматизированного процесса составления тезауруса без ущемления его некоторых важных особенностей, таких как корректность определения вершин, морфологическая чистота терминов, строгое определение синонимов и связей, в ближайшее время ждать не приходится, что определяется нечёткостью морфологических и семантических правил естественного языка, отсутствием отлаженных действенных алгоритмов и др. В пику этому появились методы выявления семантических связей и построения запросов, реализующие относительную семантичность за счёт анализа статистических распределений, присущих терминам текстовых документов. Благодаря подобным методам возможно полностью освободить пользователя от рутинного составления запроса.

Следующим подходом можно считать доступ к информационным хранилищам документов через визуальные интерфейсы. На данный момент широко известны два различных механизма. Оба построены с использованием нейронных сетей. Первая — это система "The brain", разработанная фирмой "НейрОК", предоставляющая доступ к хранилищу текстовой информации через визуальное отображение терминологического дерева семантической сети системы, используемого для навигации пользователя и нахождения документов, отражающего релевантную область сети. Реализация другого механизма визуализации — разработка фирмы "ГарантПарк" [2,3]. Здесь реализован принцип нейрообработки текстового хранилища с получением графической карты кластеров документов, соответствующих определённой предметной области.

Аппроксимируя процесс развития рассмотренных технологий, можно сказать, что поиск информации всё теснее и глубже интегрируется с семантической и нейрообработкой текстовой информации при более лёгких для человеческого восприятия поисковых интерфейсах. По намеченным тенденциям можно утверждать, что в ближайшее время будет реализован поиск по голосовым запросам.

Литература

  1. Солтон Дж., Динамические библиотечно-информационные системы Москва: Мир, 1979
  2. Плешко В.В., Визуализация массивов полнотекстовых документов в информационных системах
  3. ПлешкоВ.В., Визуальные средства поиска информации в документированных базах данных
  4. Сметанников А.А., Использование в информационно-поисковой системе обратной связи по релевантности для классификации документов
написать автору
Сервер поддерживается фирмой НПП "БИТ про"
Лучшие программы для образовательного процесса