Историческая справка. До 1998 г. выпускаемые одним производителем процессоры не имели четкого позиционирования для того или иного ценового сегмента. Любой новый процессор представлялся как высокопроизводительное решение, после чего, по мере устаревания, перемещался сначала в средний, а затем и в «бюджетный» сегмент рынка. С ростом производительности процессоров выяснилось, что для большинства сущест-вующих приложений вполне достаточно любого, даже довольно старого и маломощного процессора, что не способствовало популярности изделий среднего ценового диапазона. Тогда в апреле 1998 г. был представлен Intel Celeron, предназначенный для нижнего сегмента рынка, что позволило разделить рынки нижнего и среднего ценового диапазонов, заставляя значительную часть пользователей отдавать предпочтение «полноценному» Pentium II (а позднее Pentium III и Pentium 4) перед непрестижным Celeron.
23 ноября 2003 г. Intel выделила в отдельную категорию и процессоры верхнего уровня, снабдив их эпитетом сначала Extreme Edition, а затем и просто Extreme. Упор, очевидно, также был сделан на престиж, только если на первом этапе разделения ценовых сегментов смысл сводился к тому, чтобы побудить покупателей делать выбор «не хуже, чем у людей», то на втором – для закрепления статуса «самого крутого» решения. Подобно тому как марка Pentium была защищена от деградации до «бюджетного» уровня, так и Extreme был гарантирован статус Hi-End.
Однако в июле 2006 г. Intel представила новое семейство Core 2, в результате чего марка Pentium все-таки постепенно опустилась до нижнего ценового диапазона. Первоначально линейка состояла из четырех двухъядерных моделей, представлявших собой интегрированное решение и обладающих общей для обоих ядер 4-Мбайт кэш-памятью второго уровня. Старшая из моделей, работающая на частоте 2,93 ГГц, была объявлена как Core 2 Extreme. Однако буквально через несколько месяцев, еще до конца года, появился новый Core Extreme, на этот раз Quad — четырехъядерный, объединивший в одном корпусе два ядра Core 2 Duo E6700 с частотой 2,66ГГц, т. е. второй по производительности в линейке двухъядерных процессоров Intel. С этого момента модели Intel Extreme стали четырехъядерными.
Первые Core 2 Duo изготавливались по 65-нм технологическим нормам, содержали 4-Мбайт кэш-память и работали с частотой передачи внешней шины 1066 МГц. И относились все, естественно, к верхнему ценовому сегменту. Чуть позже появились модели со сниженной до 800 МГц частотой шины и урезанным вдвое объемом кэш-памяти. Таким образом, в линейке Core 2 возник средний ценовой сегмент. А по мере внедрения DDR3 появились и модификации с частотой передачи данных 1333 МГц.
Технологические подробности. Очередной шаг в «утончении» полупроводниковых технологий, переход на 45-нм нормы, потребовал от Intel расширения спектра применяемых материалов. Вместо привычной связки диэлектрика и проводника, в роли которых выступали диоксид кремния и соответственно кремний, для затвора транзисторов нового поколения Intel использовала High-K/metal-gate, т.е. диэлектрик с высокой диэлектрической проницаемостью и металлический затвор. Подробности их химического состава не уточняются (известно лишь, что используются соединения гафния). Уже одно это, по заверениям компании, позволило сократить токи утечки примерно на порядок.
С переходом на более тонкий технологический процесс увеличился объем и кэш-памяти второго уровня. Так как технологическая «ступенька» соответствует примерно двукратному уменьшению площади каждого элемента, можно было ожидать двукратного, с 4 до 8 Мбайт, увеличения объема L2 на пару ядер. Однако пропорциональное увеличение объема динамической памяти не позволяет повышать частоту ее работы, поэтому Intel избрала компромисс: часть выигрыша от перехода на новую технологию была отдана на увеличение объема кэш-памяти, а часть — на ускорение ее работы. В результате объем L2 на пару ядер составил 6 Мбайт — впервые в истории x86-совместимых процессоров это число не является степенью двойки. Таким образом, полный объем кэш-памяти второго уровня четырехъядерного процессора составил 12 Мбайт.
Новые технологические нормы породили и нового лидера в категории Extreme — QX9650, четыре ядра которого работают на частоте 3 ГГц. Был обозначен и еще один знаковый рубеж — выпуск четырехъядерного процессора Q9300 с уменьшенным вдвое (до 3 Мбайт на пару ядер) объемом кэш-памяти L2, что означает начало освоения четырехъядерными процессорами среднего ценового сегмента рынка микропроцессоров.
Еще одно нововведение в архитектуру х86, появившееся в 45-нм процессорах, — это расширение набора команд SSE4. Здесь, однако, необходимо упомянуть о возможности некоторой путаницы. Дело в том, что после SSE, SSE2 и SSE3 в первом поколении Core 2 Duo было введено расширение SSSE3, в некоторых тестовых утилитах обозначаемое как SSE4. Набор SSSE3 содержит 16 новых команд, а первая редакция SSE4 — 47.
Таким образом, новая 45-нм технология принесла немало свойств, которые не только прячутся внутри кристалла, но и вполне детектируются программ-ными средствами.
Почти полтора года к нам в редакцию не поступало моделей верхнего уровня процессоров Intel. Да и с 45-нм образцом мы пока не сталкивались. Поэтому тем более интересно было получить на тестирование новый кристалл Intel Core 2 Extreme QX9770, работающий на частоте 3,2 ГГц, имеющий 12 Мбайт кэш-памяти и частоту передачи данных внешней шины 1600 МГц. Это, кстати, первая модель с такой внешней частотой. Ориентирована она, очевидно, на применение совместно с самой высокочастотной разновидностью памяти DDR3.
В качестве объекта для сравнения фигурировал Intel Core 2 Duo E6700, неоднократно использовавшийся в наших тестах. Тестовый стенд имел следующую конфигурацию: центральный процессор Intel Core 2 Extreme QX9770 (4x3,2 ГГц) или Core 2 Duo E6700 (2Ч2,66 ГГц); оперативная память 2048 Мбайт типа DDR3 SDRAM с частотой 1066 МГц (два модуля Samsung по 1024 Мбайт — 7.7.7.20); системная плата MSI X48 Platinum MS-7353; видео-система Gigabyte GV-RX385256H на ATI Radeon HD 3850; жесткий диск Western Digital WD2000JD-00HBB0, 200 Гбайт SATA 150, 7200 об/мин, 8 Мбайт; дисковод DVD-ROM Teac DV-516GA; блок питания NPU-3S525 (575 Вт).
Была использована операционная система Windows XP SP1 и традиционный для нашего журнала набор тестовых программ, включая несколько разработанных в тестовой лаборатории «Мира ПК», как, например, тест производительности в многопоточном режиме и тест на основе решения системы дифференциальных уравнений в частных производных автора статьи, а также утилита SmartFPS.com. Тестирование производилось в видеорежиме 1024Ч768 точек, с глубиной цвета 32 разряда на точку и частотой вертикальной развертки 75 Гц. Кроме того, все игровые тесты и 3Dmark запускались в разрешениях 640Ч480 и 1600Ч1200.
Несмотря на асинхронный режим доступа к памяти, новый процессор продемонстрировал более высокую скорость обмена как при последовательном, так и при произвольном доступе, что оказалось возможным благодаря двухканальному режиму работы памяти. При этом наивысшей скорости обмена удается добиться при использовании MMX- или SSE-регистров, чего следовало ожидать, так как эти наборы инструкций разрабатывались уже для суперскалярных процессоров, а потому должны наиболее эффективно преобразовываться из системы команд x86 в команды внутреннего RISC-ядра.
Частота нового процессора в 1,2 раза выше, чем его собрата, основанного на 65-нм технологии. Поэтому для программ, рассчитанных на использование единственного ядра, следует ожидать пропорционального увеличения производительности, а для программ, предусматривающих эффективное распараллеливание, выигрыш должен составить примерно 2,4 раза. Тем не менее при определении производительности вычислений с плавающей запятой разница в среднем составила 1,3 и 2,6 раза в программах для одноядерных и многоядерных систем соответственно. Таким образом, мы видим, что помимо экстенсивного роста производительности за счет повышения тактовой частоты и количества ядер корпорации Intel удалось увеличить также количество инструкций с плавающей запятой, выполняемых за такт. При этом рост производительности примерно одинаковый как для «классических» программ, использующих FPU, так и для современных, применяющих SIMD-инструкции, например для аудиокодеков. Этот же эффект проявляется и в некоторых целочисленных вычислениях, в особенности на коротких циклах и алгоритмах с ветвлением. Так, при нахождении кратчайшего пути в графе с помощью алгоритма Дейкстры в однопоточном варианте затраты времени оказались в 1,46 раза ниже. Но для большей части синтетических процессорных тестов, использующих целочисленные инструкции, повышение производительности соответствовало росту тактовой частоты.
При видеосжатии в тех случаях, когда программа задействовала единственный поток (или по одному для видео и аудио), прирост производительности составил примерно 30% (XviD и ранние версии DivX). Там же, где были использованы многопоточные алгоритмы, он превысил 40%. Вряд ли серьезный вклад в нивелирование результатов могла внести дисковая подсистема: последовательные чтение и запись происходят довольно быстро и для объемов, исчисляемых десятками мегабайт, должны занимать считанные секунды. Вероятнее всего, современные алгоритмы сжатия, применяемые в MPEG-4 и, в отличие от MPEG-2 (DVD), разбивающие изображение на неодинаковые и изменяющиеся со временем области, с трудом поддаются распараллеливанию.
В играх и 3D-графике, естественно, определяющая роль принадлежит графическому процессору. 3DMark показал увеличение процессорной производительности на 36% и в 2,2 раза в версиях 2003 и 2006 г. соответственно. В первом случае использовался единственный поток, а во втором была проведена оптимизация в расчете на несколько процессорных ядер. FPS в игровых тестах набора 3Dmark увеличился в среднем на 4 и 20% соответственно. Если же брать реальные игры, а не тот набор технологий, который MadOnion прогнозирует на ближайшее будущее, то для сравнительно старых (т.е. тех, где частота обновления экрана достигает нескольких сотен кадров в секунду на используемой конфигурации стенда) увеличение производительности приближается к 30%, для более новых (где, впрочем, FPS также был выше 100) диапазон оказался намного шире: от 1% (очевидно, центральный процессор недогружен, а все определяется характеристиками видеоплаты) до 2,1 раза.
А вот в офисных и интернет-приложениях, согласно набору тестов SYSmark, повышение производительности при переходе к новой архитектуре составило в среднем 30%. Из них 44% приходится на интернет-приложения (очевидно, из-за эффективного распараллеливания на четыре ядра) и 16% — на офисные. И в том и в другом случае невысокие цифры, вероятно, связаны с тем, что существенный вклад в общий индекс вносит дисковая система, параметры которой в обоих случаях были идентичны.
Таким образом, система, собранная на новом процессоре, демонстрирует более высокую производительность, чем можно было ожидать, исходя из тактовой частоты, а для программ, предусматривающих эффективное распараллеливание вычислений, — даже исходя как из тактовой частоты, так и из количества ядер (к тому же для проведения тестов нам не удалось подобрать оптимальную для процессора оперативную память). А ведь обычно производительность системы в целом растет существенно медленнее, чем частота центрального процессора. Рост производительности сверх ожидаемого не может быть объяснен исключительно увеличением объема кэш-памяти. По-видимому, речь идет либо о внесении в архитектуру улучшений, заметно сказывающихся на производительности, либо, что вероятнее, об исправлении некоторых недостатков архитектуры, не афишируемых ранее корпорацией и не ставших доступными широкой общественности. В любом случае 45-нм ядро выглядит гораздо привлекательнее 65-нанометрового.
Кроме того, благодаря применению новых материалов есть все основания надеяться, что новая технология позволит существенно расширить диапазон доступных тактовых частот и, в частности, перейти наконец в серийно выпускаемых процессорах рубеж 4 ГГц, к которому Intel подбирается уже почти четыре года.