Технологии поиска документальной информации в INTERNET

Страница: 8/9

Yandex. Yandex ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

Yandex не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны москвы и московской области»), и вы получите результат - список страниц, где встречаются эти слова.

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» - документы, содержащие слово «отозвали».

При этом поиск не ограничен лишь словами или фразами. Yandex отыщет по названию Web-страницу компании или файл с нужной картинкой.

Aport. Обычно запрос представляет из себя просто одно или несколько слов.

По такому запросу находятся документы, в которых встречаются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т.п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки.

Например, по запросу: яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег». Где в пределах документа расположены слова, в какой грамматической форме они находятся — не важно.

Стоит еще раз подчеркнуть важное и очень полезное свойство Апорта: независимо от того, в какой грамматической форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор «*».

Например, вы хотите найти все, касающееся деятельности президента России, в том числе и документы, содержащие слово «ельцинизм». Воспользуйтесь запросом: ельцин*. Он позволит вам найти то, что вы хотите (а также документы со словами Ельцинище, ельцинцы, ельциненок и т.п), поскольку звездочка заменяет собой любое число любых букв.

Вы можете искать документы не только по всему русскоязычному INTERNET, но и по его части. Самый простой случай — поиск по определенному серверу. Например: url=www.intel.ru собака

По данному запросу будут найдены все документы на сервере www.intel.ru, содержащие слово "собака". Возможно, вам интересно, а что будет, если написать просто: url=www.intel.ru

В этом случае вы получите список всех документов, расположенных на указанном вами сервере

Вы можете ограничивать поиск и сильнее — одним из каталогов сервера. Например: url=www.intel.ru/sobaki/сенбернар

По данному запросу документы, содержащие слово «сенбернар», будут искаться только в каталоге /sobaki (и его подкаталогах) московского сервера корпорации Intel.

List. На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логотипом каталога, поисковая форма. В правой колонке и нижней части страницы - блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает центральную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатиии на подкатегории раздела.

Щелкнув по любому из названий, Вы попадете в соответствующую рубрику и под логотипом List.ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уровень структуры доступен по отдельной ссылке. Поиск в каталоге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики.

Допускается использованием языка запросов Yandex. Расположенная рядом с поисковой формой ссылка «Структура каталога» открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок.

Помеченные символом “@” приведут в подкатегории, структурно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в какой рубрике содержатся нужные ресурсы, лучше перейти в нужную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке.

Реферат опубликован: 31/03/2010