Концепция Semantic Web, о которой вот уже несколько лет говорят как о принципиальном расширении Web, ведущем к упрощению и повышению интеллектуальности поиска, систематизации и «понимания» размещенной в Сети информации, получила новый толчок к развитию со стороны консорциума World Wide Web Consortium (W3C).
W3C планирует опубликовать технологию запросов SPARQL, компонент Semantic Web, который даст возможность пользователям сосредоточиться лишь на том, что им нужно знать, а не вникать в тонкости технологий СУБД или в особенности форматов данных, применяемых для хранения информации.
Потенциал Semantic Web нельзя недооценивать. Как заметил один из аналитиков, возможность сканировать Web в интересах пользователей может затронуть даже бизнес-модель Google, в основе которой лежит распространение Internet-рекламы.
Запросы SPARQL описывают понятия высокого уровня, и их намного проще распространить на непредвиденные источники данных. Эта технология, согласно заявлениям W3C, позволит преодолеть ограничения, накладываемые локальным поиском и применением единых форматов.
«SPARQL — это язык запросов и протокол для Semantic Web», — подчеркнул Ли Фидженбаум, глава рабочей группы W3C Data Access Working Group.
SPARQL, имеющий уже 14 вариантов реализаций, ориентирован на применение в масштабах всей Сети и применяется для создания запросов к распределенным источникам данных, вне зависимости от формата. Он также может использоваться для работы с данными Web 2.0.
В Semantic Web, по мнению специалистов W3C, необходимо обеспечить обмен, слияние и повторное использование данных по всему миру.
«Цель Semantic Web состоит в том, чтобы применить к информации идею, лежащую в основе Web, то есть иметь возможность эффективно связывать наборы документов, находящихся в разных точках земного шара», — пояснил Фидженбаум.
«Можно, например, представлять себе Semantic Web в виде одной огромной базы данных», — заметил представитель W3C Ян Джекобс. База данных, по его словам, позволяет формировать запросы и работать с данными. Он уверен, что будет появляться все больше сайтов, похожих на базы данных.
Если же сопоставлять Semantic Web с поисковыми механизмами, такими как Google, то последний поддерживает поиск в тексте документа, а Semantic Web позволяет автоматизировать и объединять данные.
Несмотря на то что концепцию Semantic Web обсуждают вот уже несколько лет, Фидженбаум считает, что постепенно формируются условия для ее распространения. В качестве примера сайта, базирующегося на идеях Semantic Web, он привел систему DBpedia, которая извлекает структурированную информацию из Wikipedia.
Джонас Лемис, исполнительный директор компании SciVestor, полагает, что способность Semantic Web работать только с той информацией, которая нужна пользователю, может заставить компании, предлагающие рекламу при поиске в Web, в том числе и Google, пересмотреть принципы своей работы.
«Возможно, им придется пересмотреть свою бизнес-модель, ведь если у меня есть агент, который действует от моего имени и находит то, что меня интересует, нет никакой необходимости для этого читать рекламные объявления Google», — подчеркнул Лемис.
По сути, Semantic Web — это гигантский набор баз данных, информация из которых может быть связана воедино. По словам Джекобса, Semantic Web имеет неплохие перспективы в области здравоохранения и наук о жизни. Разработчики лекарственных препаратов и фармакологи могут использовать ее для получения клинических результатов и анализа данных.
В фармацевтической компании Eli Lilly технологии Semantic Web применяются в исследовательских подразделениях.
«Мы используем ее для инструментальных средств оценки, которые помогают нам получить максимум информации или найти множество данных о тех объектах, на которые влияют создаваемые лекарственные препараты», — пояснила Сюзи Стефенс, ведущий научный сотрудник Eli Lilly и глава рабочей группы W3C Semantic Web Education and Outreach Working Group. В данном случае речь идет о белках в теле человека, которые изменяются под воздействием конкретного лекарственного препарата.
«Технологии Semantic Web помогают нам связать разнообразную информацию об объектах, на которые влияют лекарственные препараты», — добавила она.
Спецификация SPARQL согласована с другими технологиями W3C Semantic Web. К их числу относятся RDF для представления данных; RDF Schema; Web Ontology Language (OWL) для создания словарей и Gleaning Resource Descriptions from Dialects of Languages (GRDDL) для автоматического извлечения данных Semantic Web из документов.
SPARQL также может использовать и другие стандарты W3C, такие как WSDL.
Рабочая группа W3C RDF Data Access Working Group разработала три рекомендации SPARQL, которые будут опубликованы: SPARQL Query Language for RDF; SPARQL Protocol for RDF; SPARQL Query Results for XML Format.