Энциклопедия строителя, стр. 0

Главная

Форум

Статьи

Как обустроить мансарду?

Как создать искусственный водоем?

Как наладить теплоизоляцию?

Как сделать стяжку пола?

Как выбрать теплый пол?

Зачем нужны фасадные системы?

Что может получиться из балкона?

Главная страница » Энциклопедия строителя

содержание:
[стр.Введение] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5]

страница - 0

Начало данной публикации смотри в http://zhurnal.ape.relarn.ru/articles/2000/042.pdf Продолжение данной публикации смотри в http://zhurnal.ape.relarn.ru/articles/2000/044.pdf

ТЕХНОЛОГИИ РАБОТЫ В WEB-ПРОСТРАНСТВЕ ИНТЕРНЕТ Часть II. Поисковые машины и их языковые возможности

Адамович И.М., Заикин М.Ю. , Пешков А.Н. (peshkov@amsd.ru)

Институт проблем информатики РАН

Еще каких-нибудь десять лет назад у нас в стране только специалисты и отдельные энтузиасты практически сталкивались с Интернет, а сегодня уже никому не надо объяснять, какую огромную роль приобретает эта новая технология в любой отрасли нашего хозяйства.

Интернет представляет собой всемирную сеть передачи данных, абонентами которой являются пользователи компьютеров. Основными свойствами этой сети являются:

-доступность для потенциальных пользователей (практически каждый владелец компьютера имеет возможность подключиться к Интернет, и в настоящее время в мире насчитывается порядка 200 млн. пользователей Интернет);

-возможность каждого абонента сети сделать свою информацию доступной любому другому пользователю;

-децентрализованность (отсутствие единого центра управления и единой адресной базы данных). Первые два обстоятельства определяют огромную роль Интернет практически во всех сферах человеческой деятельности, третье - определяет потребность в достаточно эффективных средствах навигации в Интернет.

В настоящее время по разным оценкам в Интернете находится от 800 млн. до 1 млрд. страниц [1], а это означает, что любому пользователю ПЭВМ, подключившемуся к Интернет, практически мгновенно доступна информация на любую тему, которую посчитали необходимым предоставить всем желающим миллионы людей и тысячи организаций, разбросанных по всему миру. Но как ориентироваться в этом океане? Очевидно, что без эффективных средств поиска нужных данных этот огромный объем информации не имел бы практической ценности.

Существуют два основных способа поиска информации в Web-пространстве Интернет [2].

Первый - это поиск по ключевым словам с использованием поисковых машин (ПМ), а второй - с использованием иерархических классификаторов (директорий). Директории предоставляют пользователям Интернет иерархические тематические рубрикаторы (выбрав подходящую рубрику, пользова-

тель получает список страниц на заданную тему). Недостатком этого способа является большая трудоемкость наполнения директорий (производится экспертами вручную), в результате чего по количеству охваченных страниц способ создания директорий на два порядка отстает от ПМ.

При поиске по ключевым словам ПМ позволяют отыскать подходящие страницы по поисковому запросу, основу которого составляют ключевые слова, отражающие тему. Можно считать, что всей совокупностью существующих ПМ сегодня покрыто практически все Web-пространство, однако ни одна ПМ не охватывает его целиком. Сегодня известно около двух десятков основных универсальных ПМ (работающих по всему Web-пространству и независимо от тематики) и порядка двух тысяч специализированных: тематических, региональных, корпоративных и прочих ПМ.

Существующие ПМ, имея, в основном, общие принципы построения, значительно отличаются друг от друга как по охвату Web-пространства, так и по возможностям языка запроса.

Попытки исправить главный недостаток существующих ПМ - неполное покрытие Web-пространства - привели к созданию так называемых метапо-исковых средств (метапоисковых машин и метапоисковых утилит) [3]. Суть этих средств заключается в том, что они позволяют один запрос пользователя адресовать нескольким ПМ и получить обобщенный результат, вероятность содержания полезной информации в котором больше, чем при обращении к одной, даже самой мощной ПМ. Однако эти средства сохранили и во многих случаях усугубили другие недостатки ПМ, главными из которых являются:

-различия в синтаксисе и оснащенности языков запроса;

-невысокая точность результатов;

-неполная выдача списка результатов (ограничения по максимальной длине списков найденных страниц);

-погрешности в ранжировании результатов по релевантности;

-потери актуальности результатов (по наличию, по содержанию, по дате).

В данной статье делается попытка обобщить и систематизировать возможности, которые ПМ предоставляют пользователю для достижения главной цели - найти в Web-пространстве документы, которые его интересуют.

I. Общие принципы работы ПМ

Для облегчения понимания языков запроса кратко расскажем о принципах работы ПМ.

ПМ представляет собой, с одной стороны Web-сервер, главная страница которого обеспечивает пользователю возможность формирования запроса, а также доступ к опциям и руководству по использованию данной ПМ (помощи). С другой стороны, ПМ обеспечивает создание и ведение каталога Web-страниц, который позволяет выбрать адреса нужных страниц по данным, содержащимся в запросе. В англоязычной литературе БД каталогов со средствами поиска в них чаще всего называют Index, а средства поиска адресов но-

вых страниц и записи в каталог информации, необходимой для последующей подготовки ответа на запросы пользователей, называют Spider (реже Crawler, Robot).

Схема, поясняющая организацию работы типичной ПМ, представлена на рис. 1 .

Основу ПМ составляет БД - каталог Web-страниц (Индекс). Суть поиска заключается в отборе адресов необходимых Web-страниц из БД-каталога по

критериям, содержащимся в поисковом запросе. Поэтому в индексе хранится компактное отображение содержания страниц в такой форме, которая наиболее удобна для реализации алгоритма отбора.

Пополнение и обновление индекса

Пополнение индекса происходит за счет страниц, адреса которых специальная программа - кроулер получает из двух источников. Во-первых, это ссылки, которые содержатся в уже проиндексированных страницах, а во-вторых, это адреса, которые сообщают владельцы вновь созданных страниц. В связи с ограниченностью технических и временных ресурсов создатели некоторых ПМ выбирают стратегию т.н. поверхностного индексирования, т.е. ограничения выборки страниц для индексирования по "глубине" вплоть до индексирования только главных страниц.

Это позволяет, жертвуя возможностью индексировать страницы внутри сайта, шире охватить Web-пространство.

Обновление индекса также постоянно выполняемая процедура. Необходимость ее обусловлена тем, что достаточно часто страницы либо прекращают существование, либо изменяются их содержание или адрес. Период обновления индекса является важной его характеристикой и колеблется в пределах от 1 дня до двух недель и более. Некоторые ПМ варьируют период индексации в зависимости от частоты изменения содержания страницы.

Основу БД индекса составляет индексная структура, записями в которой являются наборы Интернет-адресов (URL) Web-страниц, а ключами - слова, встречающиеся в текстах проиндексированных страниц. В каждой записи содержатся адреса страниц, в которых встречается данное ключевое слово. В общем случае для каждого слова по каждой странице в индексной БД содержатся порядковые номера мест слова в тексте (в количестве слов) с учетом некоторых зон (элементов) страницы, определяемых HTML форматом. Кроме того, для каждой страницы могут содержаться следующие данные:

-информация о типах и форматах данных, содержащихся в Web-странице;

-язык, на котором написан основной текст страницы;

-дата создания или последнего изменения страницы;

-текст заголовка;

-краткое содержание;

-фрагмент содержания.

содержание:
[стр.Введение] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5]