| ||||||||||||||||||||||||
|
Основу информационно-поисковых систем составляют поисковые программы, на специализированных серверах Интернета (таблица 7). Эти программы позволяют задавать поисковый запрос, в результате которого возвращается список ссылок на Web-страницы, удовлетворяющие критериям поиска. Такой вариант поиска называют поиск по ключевым словам или фразам. Другой способ поиска - по категориям. Поиск по категориям осуществляется последовательным переходом по ссылкам на категории и подкатегории. Предположим, требуется найти Web-страницы, которые содержат информацию об Австралийских Играх по стрельбе 1998 года (Australian Shooting Games 1998) на сервере Yahoo. Для этого необходимо предпринять следующие шаги (на момент написания учебного пособия): 1. Открыть начальную страницу Yahoo по адресу: www.yahoo.com. 2. На начальной странице Yahoo щелкнуть мышкой по ссылке Recreation & Sports (отдых и спорт). Откроется Web-страница, связанная с этой ссылкой. 3. На открывшейся странице щелкнуть мышкой по ссылке Sports (спорт). Откроется Web-страница, связанная с этой ссылкой. 4. На открывшейся странице щелкнуть мышкой по ссылке Shooting (Стрельба, охота). Откроется Web-страница, связанная с этой ссылкой. 5. На открывшейся странице щелкнуть мышкой по ссылке Events (соревнования). Откроется Web-страница, связанная с этой ссылкой. 6. На открывшейся странице щелкнуть мышкой по ссылке Australian Shooting Games (Австралийские Игры по стрельбе). Откроется искомая Web-страница. Данный способ поиска эффективен, когда известен маршрут поиска. В противном случае поиск может затянуться. В подобной ситуации используется поиск по ключевым словам, или по фразам, состоящим из двух или более слов. Поиск по ключевым словам позволяет проводить большинство информационно-поисковых служб (таблица 7). Таблица 7 Наиболее распространенные информационно-поисковые системы
В качестве примера найдем информацию о Австралийских Играх по стрельбе по ключевым словам на сервере Yahoo. Выполняются следующие шаги (правила поиска по нескольким ключевым словам описаны ниже, но действуют они не всех поисковых системах): 1. Открыть начальную страницу Yahoo по адресу: www.yahoo.com. 2. Ввести ключевые слова в полосе запроса Search: "Australian+Shooting+Games". 3. Щелкнуть мышкой по кнопке Search. После чего, через несколько секунд появятся результаты запроса. При поиске по фразам сужает критерий поиска, причем ключевая фраза должна содержаться в том виде, в котором набрана. Введенное в поле Search выражение при этом заключается в кавычки (например, "heart rates during maximal running"). Если между словами ключевой фразы стоит знак "+", то все слова являются критерием поиска, но не обязательно в жестком сцеплении. При поиске информации могут использоваться логические операторы AND, OR и NOT. В первом случае извлекается документ, в котором должны присутствовать все указанные слова, во втором - хотя бы одно из указанных слов, в третьем случае - отсекаются указанные слова. В поле запроса логические операторы могут применяться в любом порядке, в зависимости от выбранного критерия, например, computer and analysis and biomechanics and high jump or long jump not triple jump. Общий схема функционирования информационно-поисковой машины следующая: Сканирование ----> индексирование ----> классификация ----> обслуживание. Сканирование. В процессе сканирования ресурсов сети принимают участие специальные программы, называемые «пауками». Работа таких программ обычно происходит в автоматическом режиме и состоит в последовательном обходе узлов сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей сети (чаще всего за определенную плату). В отношении сказанного важной характеристикой машины является число уже отсканированных узлов и скорость работы сканирующих программ. Индексирование предполагает формирование базы данных поисковой машины, организованной по определенным принципам с определением ссылок на просканированные ресурсы. В первую очередь, предметом сканирования являются текстовые документы. В результате такой операции для каждого документа формируется набор ключевых слов, по которым затем на стадии обслуживания поискового запроса пользователю выдаются адреса заиндексированных ресурсов. Информационные объекты нетекстового характера (графика, видео, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных. Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании метки о принадлежности данного информационного объекта к определенному типу (определенной предметной области). Обслуживание пользователя той или иной поисковой машиной строится на разработке информационно-поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода: 1) пользователю предоставляется возможность вести поиск интересующей его информации путем осмысленного на каждом шаге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой (поиск по категориям); 2) задание собственного поискового запроса в рамках поддерживаемого системой поискового языка (поиск по ключевым словам или фразам). О чем было сказано в начале раздела. Конечной точкой обоих путей является локализация и извлечение соответствующего информационного объекта. Среди информационно-поисковых систем следует отметить классификационные серверы, которые представляют ссылки на ресурсы Интернета, классифицированные не только по теме, но и по популярности. При каждом использовании ссылки срабатывает счетчик обращений, в результате чего новые посетители сервера видят, какие адреса используются чаще и могут выбрать для просмотра наиболее популярные ресурсы по интересующей их теме. Из зарубежных серверов наиболее известны 100 Hot (www.100hot.com), Web 100 (www.l00.com), Web Crawler (www.webcrawler.com), из отечественных - сервер Rambler (www.rambler.ru). К поисковым системам можно отнести службу поиска файлов. К таковой относится программа Archie. Система Archie состоит из двух частей. Первая - это компьютеры, на которых работает Archie. Эти компьютеры называются Archie-серверами. Их не так много, около сотни. Эти компьютеры поддерживают базы данных файлов для поиска, то есть они не содержат сами файлы, а лишь базы данных, в которых указано, где эти файлы расположены. Вторая часть системы Archie - это набор всех компьютеров с файлами, их более 1500. Archie-серверы периодически опрашивают эти компьютеры (являющиеся также серверами FTP), чтобы узнать, какие на них есть файлы и обновить свои базы данных. Для работы с системой Archie можно использовать броузер Microsoft Internet Explorer. Система поиска Gopher разработана в университете штата Миннесота (Gopher - уроженец штата Миннесота, штата сусликов; видимо отсюда название программы). Организует и представляет информацию и файлы, находящиеся в Интернет, как последовательность экранных меню. Пункты меню соединяют пользователя с различными ресурсами Интернета. Например, выбрав пункт меню, можно открыть для просмотра текстовый файл, просмотреть фотографию, начать сеанс Telnet, соединиться с FTP-сервером, выйти на другой Gopher-сервер. Служба также доступна через броузер Microsoft Internet Explorer, Netscape Navigaor. Система поиска WAIS (Wide Area Information Servers) - это распределенная информационно-поисковая система в Интернете. В основу положен принцип поиска информации с использованием логических запросов, основанных на применении ключевых слов. Разработчики системы WAIS выделяют три основные особенности информационно поискового языка: поиск по запросам на естественном языке, литеральный поиск и уточнение запросов по результатам проведенных ранее поисков (Relevance Feedback - положительная обратная связь по релевантности). Поиск по запросам на естественном языке в данном контексте подразумевает способность системы распознавать во фразах естественного языка слова из словаря системы и, объединяя их логической связкой AND, строить на их основе запросы. Литеральный поиск - это возможность учета порядка слов в документе при поиске. Литерал представляет из себя последовательность слов, заключенную в кавычки, например, "программное обеспечение". При поиске машина будет отбирать только те, где слово "программное" стоит перед словом "обеспечение". Уточнение запроса по результатам поиска заключается в том, что после выполнения запроса пользователю дается возможность добавить в него слова документов, которые наилучшим образом удовлетворяют его информационным потребностям. Считается, что такая процедура позволяет пользователю быстро сфокусировать внимание на той части базы данных, которая прежде всего отвечает его интересам. Учитывая тот факт, что многие документы являются гипертекстовыми и хранятся в формате HTML, дальнейший просмотр найденных документов может осуществляться по последовательности гипертекстовых ссылок. Наиболее известным проектом, где была реализована система поиска WAIS, является электронная версия энциклопедии "Британика".
| ||||||||||||||||||||||||
|