Файлы регистрации на сервере всегда были основным источником информации о проходящем через Web-узел трафике и поведении пользователей. Подавляющее большинство средств контроля и анализа работы Web-узлов основаны на использовании этих файлов. Такие параметры, как объем получаемого узлом трафика, адреса посетителей, способы их выхода на узел и реакция на содержимое узла, оцениваются на основе сведений об обращениях к данному узлу. Однако все больше растет потребность в получении более глубокой, чем базовая, подробной и надежной информации о Web-узлах. Многие Web-мастера и онлайновые коммерсанты обращаются за помощью к новым технологиям.
На проводе
Один из самых новаторских и широко обсуждаемых методов анализа работы Web-узла - поиск/анализ данных в сети. При использовании этого метода управления Web, иногда называемого "на проводе", данные собираются непосредственно в сети - практически без обращения к файлам регистрации. Система доказывает свое преимущество перед аналогичными продуктами, использующими регистрационные файлы, давая более полное представление о работе Web-узла и поведении пользователей.
Полезная информация, которую можно реально извлечь из регистрационных файлов (они содержат набор сведений о каждом зарегистрированном обращении, известный как формат Common Log Format, CLF), довольно ограничена. Каждое обращение определяется как однократный запрос информации клиентом и запись о нем делается в момент отправки запрошенных данных. Благодаря такому механизму в регистрационных файлах могут собираться только сведения об источнике, объеме запрошенной информации и времени запроса. Однако при этом нельзя выявить все аспекты реальной доставки информации. Кроме того, полученная информация неточна. Например, поскольку обращение фиксируется в момент отсылки данных, то не записывается, поступили ли они по назначению. Даже если конечный пользователь запрашивает данные, а затем отменяет загрузку, считается, что передача прошла успешно.
При использовании метода "на проводе" сбор информации осуществляется между сетевым интерфейсом и нижним уровнем сетевого кода хоста - в самой подходящей для перехвата трафика HTTP точке. Здесь нефильтрованный поток данных несет полную информацию о связи между клиентами и хост-сервером. В этой точке система сбора информации может просматривать HTTP-трафик на всех Web-серверах в данной сети. Таким образом, одна машина способна одновременно собирать статистику по многим другим машинам, что снижает расходы на ручное администрирование регистрационных файлов на каждом из Web-серверов.
В нужном месте, но не вовремя
Интересно отметить, что традиционный анализатор протоколов - основной компонент при перехвате сетевых данных - обычно не подходит для измерения характеристик, даже несмотря на то, что он может "видеть" каждый пакет до мельчайших подробностей. Это объясняется тем, что анализаторы протоколов используются, главным образом, для отладки работы протоколов и тестирования сети. Другими словами, они собирают слишком много нужной информации и затем представляют всю ее в формате, который больше подходит для анализа качества, чем для онлайнового маркетинга.
Вот почему должны пригодиться переработанные анализаторы протоколов (типа разрабатываемого компанией Accrue Software), которые специально настроены на трафик HTTP. Анализаторы, использующие метод "на проводе", не выдают все детали каждого пакета; вместо этого они суммируют подробные факты о транзакциях.
Новый метод позволяет фиксировать (как и формат CLF, расширенный формат CLF, регистраторы Server API) факты запросов страниц (кем, когда, через какой браузер и т.д.), а также факты их успешной доставки. Кроме того, могут быть зарегистрированы уникальные сетевые характеристики транзакции. Например, администраторы смогут определить, когда сервер ответил на запрос об информации.
Превосходные данные
По сравнению с методом, в котором используются регистрационные файлы, эта технология может обеспечить гораздо больший объем необходимых данных и ответить на множество вопросов, ранее остававшихся без ответа. Например, какое среднее число страниц просмотрит путешественник по сети Web, если время отклика сервера изменится с 2 до 10 с? Какие изображения при этом будут чаще всего отбрасываться? Какова эффективная скорость линии пользователя? Нужно ли настроить какую-то CGI-программу, потому что она исполняется слишком медленно? Точностная и обильная информация становится надежной основой для создания средства анализа работы Web-узла.
Боб Пейдж (Bob Page) - главный технолог компании Accrue Software.