За пределами Web

Информационные ресурсы вне Web

FTP и Archie

Hytelnet

С 1994 года World Wide Web стала доминирующей информационной технологией Internet. Для многих современных пользователей сети Web и Internet - синонимы. Вся логика развития информационных технологий сети подводит к тому, что в конце концов каждый пользователь Internet будет смотреть на мир информационных ресурсов через окно того или иного навигатора. Однако почти 25 лет сеть развивалась без Web. За это время в ней были накоплены огромные информационные массивы и за 3-5 лет всю эту информацию в формат HTML не переведешь. Большинство книг об Internet, которые были опубликованы в эпоху "до Web", содержат огромное количество ссылок на различные ресурсы, доступные в сети для публичного использования. Достаточно взять книгу "Навигатор Интернет" Пола Гилстера, которая наполовину состоит из ссылок на FTP-архивы, информационные системы, доступные в режиме удаленного терминала, информационных систем Gopher и WAIS. К большому сожалению, многие из них безнадежно устарели, и с каждым годом использовать их все труднее и труднее. Какие-то ресурсы перестали быть доступными в силу появления Web-страниц того же содержания, что и первоначальный ресурс, другие просто не поддерживаются авторами. Но тем не менее ресурсы вне Web есть, и в ряде случаев только они способны удовлетворить потребности пользователя Internet, поэтому вопрос о доступе к ним по-прежнему остается актуальным.

Информационные ресурсы вне Web

Первый вопрос, который возникает при поиске ресурса вне Web, - как собственно найти этот ресурс. При обычной работе мы чаще всего обращаемся к одной из поисковых машин типа Altavista. Используя ключевые слова, формулируем свой запрос и получаем на него список ссылок на ресурсы сети, которые в той или иной степени отвечают этому запросу. К сожалению, большинство систем индексируют Web и телеконференции (Usenet) и не индексируют другие информационные ресурсы сети.

Практически нет ссылок на такие ресурсы, которые доступны в сети через telnet. Поэтому в таких случаях прибегают к помощи поисковых машин, которые в свое время были созданы для каждой из информационных технологий в отдельности.

FTP и Archie

Наиболее популярным ресурсом в сети вне Web являются FTP-архивы. А если судить по трафику, то это вообще самый популярный ресурс сети. Количество программного обеспечения, которое перемещается из FTP-архивов на рабочие станции пользователей Internet чрезвычайно велико. В силу технических особенностей обмен информацией по протоколу FTP по своей эффективности превосходит аналогичный обмен в рамках HTTP. Главным образом это справедливо при обмене большим число файлов за одну сессию. Собственно многие пользователи не замечают того, что навигатор перешел к работе по протоколу FTP, т. к. они просматривают архив, используя тот же интерфейс, что и при просмотре HTML-страниц.

У большинства есть свои любимые архивы, в которые они регулярно наведываются и списывают новые версии программных продуктов или другие файлы. Любители продуктов Netscape регулярно (каждые три месяца, а иногда и чаще) посещают архив этой компании. Столь же часто приверженцы Windows NT списывают очередные "заплатки" для своей любимой операционной системы из архива Microsoft. Любители свободно распространяемых Unix-систем вообще устанавливают их из удаленных архивов по протоколу FTP. Во FreeBSD многие программные продукты можно компилировать, используя специальный механизм портирования кода, который позволяет собирать программу из кусочков кода, расположенных в разных местах Internet.

Однако обращение к первоисточникам не всегда может удовлетворить искателя ресурса. Поскольку архив, как правило, сосредоточен в одном месте и число анонимных сессий ограничено, то при обращении к нему можно запросто получить отказ на обслуживание. При этом обычно выдается список "зеркал", где можно найти информацию, дублирующую данный архив. Но кто из наших пользователей читает то, что пишет на экране монитора система. Многие упорно стремятся пробиться к ресурсу любой ценой.

Во многих случаях этого не стоит делать. Во-первых, при большом числе пользователей сама система перегружена и обслуживает клиентов медленно, во-вторых, каналы доступа к системе также могут быть перегружены, а это приводит к очень медленной передаче данных, а иногда и к потере соединения. В результате можно вообще не получить данных, что в наших условиях случается довольно часто.

Лучшее, что можно сделать в этом случае, - поискать архив, который поближе и доступ к которому посвободней. Как правило, в ссылках на "зеркала" отечественные архивы не встречаются. Поэтому при выборе зеркала следует учитывать возможности отечественного провайдера по доступу за пределы России. Например, для пользователей "Релком" хорошо подойдут финские и шведские или австрийские "зеркала".

Однако наиболее предпочтительным способом поиска ресурса в архивах следует признать серверы Archie. Они позволяют искать файлы в FTP-архивах по имени или по части имени файла. В отличие от поисковых машин Web-серверы Archie не индексируют все встречающиеся в сети архивы. Индексированию подлежат только те, на которые укажет администратор Archie-сервера. Часто пользователи задаются вопросом, а почему собственно в Web можно построить индекс над всеми информационными ресурсами, а в FTP нельзя. Дело в архитектуре Web.

Собственно и в World Wide Web нельзя заиндексировать все ресурсы автоматически. "Паучки" просматривают только те ресурсы, которые связаны между собой гипертекстовыми ссылками, если на ресурс нет ссылок из других Web-узлов, то "паучек" на этот ресурс никогда не попадет. Поэтому и существуют на страницах поисковых машин поля ручной регистрации Web-узла.

В FTP-архивах гипертекстовых ссылок нет. Это значит, что их адреса необходимо указывать вручную, что собственно администратор Web-узла и делает. Как правило, каждый сервер Archie описывает ближайшие серверы FTP региона, поэтому не стоит надеятся, что при поиске в Финляндии вы получите адреса программ из FTP-архивов в Австралии.

Большинство Archie-серверов работают в режиме удаленного терминала. Поэтому при обращении к ним необходимо использовать программу telnet. В качестве идентификатора пользователя указывается слово "archie". После этого пользователь попадает в интерфейс командной строки, в котором может вводить команды archie. Наиболее полезной из них является команда prog(в новых версиях - find), содержащая в качестве аргумента имя файла, который необходимо найти.

При поиске информации в FTP-архивах надо учитывать несколько особенностей. Во-первых, archie индексирует только публичные архивы, т. е. архивы, к которым разрешен анонимный доступ. Бессмысленно искать через archie какой-нибудь Photoshop или MS Word. Коммерческое программное обеспечение в публичных архивах не хранят. Другое дело, если организация для своих нужд создала такой сервис, но ко всей сети это не относится. Во-вторых, сразу в рамках той же сессии archie списать программу или файл нельзя. Archie - это только справочник. Для получения файла следует использовать FTP-клиент. В-третьих, нужно знать, что ищешь. Запросы типа "пойди туда - не знаю куда, найди то - не знаю что" здесь не проходят. Собственно всегда, даже при обращении к поисковым машинам Web нужно хорошо знать лексику той предметной области, в которой осуществляется поиск. При всем уважении к создателям Яndex нельзя не сказать, что ни одна система нормализации лексики не даст таких результатов, которые обеспечивает профессионал в области поиска. Не случайно во всем мире серьезную информацию ищут не сами пользователи, а специалисты, которых для этого нанимают. Автор этих строк не раз при использовании Яndex для Altavista получал сообщение об ошибках из-за слишком длинных запросов. Система просто захлебывалась от обилия словоформ, которые Яndex передавал поисковой машине в качестве запроса.

На самом деле переход от интерфейса командной строки telnet к Web-странице во многих системах Archie уже произошел. Действительно, что может быть проще CGI-скрипта, который выполняет все те же операции, что и в командной строке shell. При этом можно и схему доступа к ресурсу (URL) вставить сразу по месту в отчет, и получать файл простым выбором гипертекстовой ссылки. Но все-таки это не Web в чистом виде, точнее, не HTTP-обмен. Хотя, вопрос о том, что такое Web, все еще открыт.

Вообще говоря, когда Тим Бернерс Ли в 1989 году предложил руководству Международного Европейского Центра ядерных исследований (CERN, Швейцария) проект "Гипертекст для CERN", то имелся в виду универсальный интерфейс доступа к различным ресурсам этой научной организации, большая часть из которых могла быть использована исключительно в режиме удаленного терминала. Это были в первую очередь архивы препринтов CERN и информационно-поисковая система Alice. Таким образом, первоначально Web, по крайней мере в этом документе, рассматривался как навигационное средство, а не собственно информационный ресурс. Еще один важный момент, который подтверждает эту точку зрения, заключается в том, что первоначально поисковые возможности сервера ограничивались локальными ресурсами и основной навигационной страницей был каталог виртуальной библиотеки.

К настоящему времени ситуация кардинально изменилась. Web рассматривается как самостоятельная информационная технология, и ее навигационные свойства используются в путешествиях, главным образом, по Web-узлам. Однако есть ресурсы, требующие универсального инструмента, который позволял бы из одного места получать доступ ко множеству сервисов на машинах, включенных в Internet и предоставляющих публичный доступ в режиме удаленного терминала. Такой системой является программа и база данных Hytelnet.

Hytelnet

Hytelnet представляет собой большой иерархический каталог ресурсов, доступ к которым осуществляется через telnet в режиме удаленного терминала. Все ресурсы в этом каталоге делятся на информационные системы библиотек университетов и других государственных и общественных организаций, список серверов Archie, каталоги баз данных и библиографии, электронные книги и прочие информационные ресурсы.

В свою очередь к библиотекам можно попасть либо через название организации, к которой принадлежит библиотека, либо через тип программного обеспечения, который поддерживается ее каталогом. При поиске информации в этих базах данных следует принимать в расчет, что поиск осуществляется в базах данных каталогов библиотек. Это значит, что получить полный текст документа пользователю не удастся. Максимум на что можно рассчитывать, это на реферат. Причем список отобранных рефератов обычно отсылается пользователю по электронной почте. Работая с этими каталогами, следует быть готовым к тому, что, во-первых, не все системы позволяют отправить по почте отобранные каталожные карточки, а во-вторых, многие каталоги созданы на национальных языках, и если в латинице что-то еще можно разобрать, то с азиатскими каталогами все гораздо сложнее.

Список серверов Archie хотя и невелик, но охватывает практически все регионы мира. Однако всегда можно подобрать такой сервер, который расположен поближе или побыстрее отвечает на запросы. Кроме серверов Archie с интерфейсом удаленного терминала там есть и Web-страницы для запуска скриптов Archie через форму, определенную средствами HTML.

В каталогах библиотек и библиографии есть не только публичные ресурсы, но и системы, которые при доступе требуют наличия у пользователя account. Примером может быть система Medlars (литература по медицинской тематике) или база данных STN (реферативные базы данных по различным отраслям науки и техники).

Электронные книги представлены архивом Gopher, к которому можно обратиться и без telnet. Кроме этого, в проектах "Гутенберг" и "Ранненберг" можно получить и полные копии книг на английском и скандинавских языках соответственно.

Другой тип сервисов, которые доступны из Hytelnet, являются справочные книги X.500 и Whois. При работе с данным ресурсом следует иметь в виду, что это хранилища адресов не всех пользователей Internet, а только тех, кто в этих книгах зарегистрирован. Наш каталог whois.ripn.net в этом смысле не исключение. Искать можно только тех, кто регистрировался в каталоге.

В последнюю категорию ресурсов входят все прочие информационные ресурсы. Чтобы получить представление об этих ресурсах, достаточно посмотреть на некоторые из них, например на Банк данных федеральной службы занятости США. Он содержит информацию о наличии вакансий в том или ином регионе страны, которая стекается сюда из 2000 офисов организации. Причем составляется отдельный список вакансий для американцев и неамериканцев. Свободные рабочие места предоставляются в основном в частном секторе. Государственный сектор составляет не более 5%. При этом сообщается требуемая специальность, стаж работы, образование и размер зарплаты.

В эту же группу входят информационная система Национального научного фонда США, информационная система ЕС и национальные информационные ресурсы ряда стран.

Итак, в Сети еще есть информационные ресурсы, которых не коснулась Web-мания, но их становится все меньше и меньше. Тем не менее вряд ли в ближайшее время в Web будут переведены все каталоги университетских библиотек. А если учесть, что это один из наиболее интересных научных информационных ресурсов, то интерфейсу доступа в режиме удаленного терминала уготована долгая жизнь. Существуют, правда, две возможности, позволяющие инкорпорировать эти ресурсы в Web. Первая из них - применение скриптов, а вторая - использование апплетов Java для работы с этими ресурсами. Обе из них активно разрабатываются и могут быть использованы уже сейчас.

Павел Храмцов - руководитель группы РНЦ "Курчатовский институт". С ним можно связаться по электронной почте по адресу: paul@kiae.su.