Как обустроить мансарду?



Как создать искусственный водоем?



Как наладить теплоизоляцию?



Как сделать стяжку пола?



Как выбрать теплый пол?



Зачем нужны фасадные системы?



Что может получиться из балкона?


Главная страница » Энциклопедия строителя

содержание:
[стр.Введение] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5]

страница - 2

Критерии отбора страниц Критерии семантического отбора Поисковое выражение

Основным критерием семантического отбора является набор ключевых слов, связанных операторами булевой алгебры и модифицированными (задающими взаимное расположение ключевых слов) операторами булевой алгебры.

Ключевые слова и операторы составляют основу поискового выражения (в состав поискового выражения в существующих языках запроса могут входить еще и мета-слова, см. далее главу "Мета-слова"). Интерфейсы ПМ предоставляют следующие способы формирования поискового выражения и, соответственно, четыре типа синтаксиса языка поискового выражения.

1 -й тип. В поле для ввода поискового выражения вписываются только ключевые слова. При этом разные ПМ могут трактовать их связанными операторами булевой алгебры И или ИЛИ.

2-й тип. Ключевые слова вписываются в поле для ввода поискового выражения. При этом в большинстве ПМ могут использоваться символы "+" и "-" для выражения необходимости присутствия или отсутствия слова в тексте. Перед словом

помещается знак "+", если присутствие этого слова в текстах искомых документов обязательно. Перед словом помещается знак "-", если этого слова в текстах искомых документов не должно быть. Если перед словом нет ни "+", ни "-" это означает для ПМ, что присутствие этого слова желательно, т.е. в результатах будут присутствовать, как страницы, в текстах которых это слово присутствует, так и страницы без этого слова. Однако, при этом релевантность страниц, содержащих данное слово, будет оценена выше, чем страниц, в которых это слово не встречается. Т.е. страницы, содержащие данное слово, будут расположены ближе к началу списка, чем страницы, в которых это слово не встречается. В некоторых ПМ отсутствие знака равнозначно оператору И булевой алгебры.

Следут отметить, что среди операторов булевой алгебры прямого эквивалента оператора "отсутствие знака". Выражение, в котором присутствуют ключевые слова без знака, может быть записано в терминах булевой алгебры, но более сложной конструкцией. Например выражение +а b может быть записано в терминах булевой алгебры в виде (а И b) ИЛИ b.

3-й тип. Меню.

Предлагается поле для ввода группы ключевых слов, а также меню, из которого можно выбрать признак необходимости присутствия слов этой группы в тексте документа:

-обязательно (must contain) с признаком "все слова" или "хотя бы одно слово";

-исключить (must not contain).

Таких групп, содержащих поле ввода слов и меню, может быть несколько. Таким образом, запрос может содержать несколько групп слов, причем


слова одной группы могут быть связаны одним соотношением (например, И), а слова другой - другим (например, ИЛИ). Или другой вариант:

-обязательно (must contain);

-желательно (should contain);

-исключить (must not contain),

что, по существу, является аналогом синтаксиса типа 2.

Группы между собой связаны оператором И.

4-й тип. Запись поискового выражения с булевыми операторами.

В поле для ввода поискового выражения вписываются ключевые слова и операторы булевой алгебры И (AND), ИЛИ (OR), НЕ (AND NOT). Используются скобки для образования приоритетных групп. Кроме упомянутых операторов часто используются и другие, которые можно назвать модифицированными операторами И, т.к. по сути, они выполняют функцию операторов И с некоторыми дополнительными условиями. Все эти операторы определяют требуемое взаимное расположение слов в искомом тексте. К ним относятся следующие операторы:

-РЯДОМ (ADJ) - равносилен И, но слова в любом порядке должны следовать одно за другим;

-ПЕРЕД (BEFORE) - равносилен И, но слова должны располагаться в заданном порядке;

-НЕ ДАЛЬШЕ (NEAR) - равносилен И, но слова должны находиться друг от друга не дальше определенного расстояния; это расстояние (в словах или символах) фиксировано для данной ПМ или может задаваться пользователем;

-НЕ БЛИЖЕ (FAR) - аналогичен оператору НЕ ДАЛЬШЕ, но слова должны находиться друг от друга не ближе заданного расстояния;

Синтаксис языка ПМ Lycos поддерживает такие модификации операторов РЯДОМ, НЕ ДАЛЬШЕ и НЕ БЛИЖЕ, при которых последовательность ключевых слов (операндов) этих операторов в поисковом выражении предполагает аналогичную последовательность этих слов в тексте, как условие поиска.

Кроме отдельных слов, операндами поискового выражения могут выступать и целые словосочетания, т.н. фразы. В синтаксисе ПМ словосочетание, которое должно выступать как фраза, заключается в кавычки. В некоторых ПМ при поиске фразы в тексте учитывается точное соответствие символьной последовательности фразы с фрагментом анализируемого текста, в других - допускаются некоторые отклонения (например, две фразы, в которых у подлежащего в одной из них присутствует, а в другой отсутствует определение, могут считаться эквивалентными).

Следует заметить, что в известных нам ПМ + и - не могут использоваться совместно с операторами булевой алгебры.

Стоп-слова


Большинство ПМ не учитывают при поиске т.н. стоп-слова, т.е. слова, часто встречающиеся и обычно не несущие семантической нагрузки. Это, в первую очередь, артикли, предлоги, союзы и т. п. Этот принцип, обычно, не распространяется на фразы. Некоторые ПМ, тем не менее, позволяют пользователю включать стоп-слова в поиск путем помещения перед ними знака "+" в поисковом выражении.

Шаблон

Для тех случаев, когда неизвестно, как может быть написано ключевое слово в тексте страницы, или пользователя удовлетворяет любая форма ключевого слова (например, любой ее падеж), а также когда ПМ не поддерживает функцию "искать все формы слова", большинство ПМ предлагают возможность усечения слов (шаблон).

Известны три формы шаблонов, используемых для ключевых слов в ПМ:

-замена одной или нескольких букв - на месте специального символа (обычно это звездочка - *) может быть одна или несколько любых букв;

-замена одной буквы - на месте специального символа (обычно это ? или %) может быть одна любая буква;

-заменяющие буквы - в квадратных скобках приводятся буквы, которые могут быть на месте буквы предшествующей скобкам.

Все формы слов

Эта функция, для которой при индексировании выделяются грамматические основы слов, позволяет осуществлять поиск слов, встречающихся в документах, независимо от их грамматической формы (падежа, числа, спряжения и т. п.)

Ограничения по тематике

Некоторые ПМ предоставляют пользователю возможность пользоваться еще одним критерием семантического отбора. Это - ограничение результатов путем исключения из результатов документов определенной тематики, например, порнографии, или по признаку категорий пользователей (для детей).

Указатели элементов страниц

Многие ПМ позволяют производить поиск ключевых слов как во всем содержимом HTML-страницы, так и в отдельных ее структурных элементах, которые определяются форматом HTML. Чаще всего предлагаются следующие элементы, которыми можно ограничить область поиска внутри страницы:

-тег title - заголовок;

-метатег keywords - ключевые слова;

-метатег description - описание;

-параметр Alt - текст, заменяющий рисунок;

-название изображения;

-текст ссылки.

Некоторые ПМ позволяют вводить аналогичные ограничения с помощью мета-слов (см. далее главу "Мета-слова").




содержание:
[стр.Введение] [стр.1] [стр.2] [стр.3] [стр.4] [стр.5]

© ЗАО "ЛэндМэн"