В качестве классического примера можно привести Apple, компьютеры которой с самого начала имели мышь, графический интерфейс и звуковую плату, в то время как преобладающей архитектурой в наше время стала IBM PC, воспринявшая все эти черты гораздо позже.
Что-то похожее повторяется и сейчас: 64-разрядную архитектуру, встроенный контроллер памяти и реинкарнацию кэш-памяти третьего уровня в многоядерных процессорах впервые продемонстрировала компания AMD, а лидером отрасли остается Intel.
Тем не менее AMD по-прежнему время от времени балует своих поклонников свежими решениями. На этот раз, правда, имели место изменения скорее экстенсивного, нежели интенсивного характера.
Процессор AMD Phenom II отличается от своего предшественника AMD Phenom прежде всего переходом на 45-нм технологические нормы, гораздо большим объемом кэш-памяти (наконец-то!), а также началом поддержки памяти типа DDR3.
Собственно, под «началом» подразумевается то, что первая, а по совместительству и флагманская модель Phenom II X4 940 с DDR3 работать не может. Зато остальные — могут.
Причем AMD избрала по отношению к пользователям более дружелюбную по сравнению с конкурентом позицию: если новый процессор Intel Core i7 предназначен для работы лишь с единственным типом памяти DDR3, то новые процессоры AMD могут работать как с DDR2, так и с DDR3.
Правда, для поддержки памяти последнего типа пришлось применить новый тип разъема — AM3 (напомним, что замена разъема при переходе на другой тип памяти — неизбежное следствие переноса контроллера памяти внутрь процессора), но он частично совместим с прежним — AM2+. Причем процессор AM3 позволительно вставить в гнездо AM2+, а наоборот — нет. Следовательно, можно модернизировать систему путем установки нового процессора на старую системную плату со старой же памятью, чего пользователи Intel с выходом Core i7 явно лишены.
Оптимизация микросхем
Не секрет, что в любом достаточно сложном полупроводниковом производстве мельчайшая пылинка или дефект кристалла, сопоставимые по размерам с технологическими нормами, приводят к неработоспособности изделия. В таких условиях вполне разумно кристаллы, частично сохранившие функции, использовать для производства более дешевых моделей процессоров. Поскольку сейчас кэш-память занимает большую часть площади кристалла процессора, то естественно предположить, что именно на нее приходится значительная доля дефектов. Поэтому неисправные банки кэш-памяти отключают, а процессоры понижают в ранге и выпускают с меньшим объемом кэш-памяти. Подобным приемом пользуется как Intel, так и AMD. Но вторая фирма пошла дальше: она решила применять также кристаллы, в которых дефект приходится на одно из процессорных ядер, в результате чего и появились на свет трехъядерные процессоры. Собственно, из трех рассматриваемых моделей «урезанными» являются две: у одной сокращен объем кэш-памяти, у другой — количество ядер. Если учесть, что по стоимости они довольно близки, интересно понять, какая же из них предпочтительнее для использования.
Из действительных или мнимых недостатков трехъядерной модели сразу укажем один (вероятно, все-таки мнимый): на трехъядерном процессоре отказалась работать SiSoft Sandra 2007. Вина здесь лежит, конечно, всецело на программистах SiSoft, не предусмотревших возможности появления процессоров с количеством ядер, не равным степени двойки. В реальных приложениях (т.е. не являющихся синтетическими тестами) этой проблемы обнаружить не удалось.
Трехмерные пазлы
Любопытные данные для анализа подкинул нам тест 3DMark, использованный в двух версиях — 2003 и 2006. Первая, безусловно, отдает пальму первенства более высокочастотному процессору. Никаких идей о распараллеливании вычислений в игровых приложениях программисты FutureMark в 2003 г. не имели. Все работало исключительно на единственном ядре. Хотя к тому моменту уже был выпущен Pentium 4 с технологией Hyper-Threading, аппаратно поддерживающий многопоточность. К слову, некоторые другие программы, в частности PassMark, выпущенная годом раньше (и до появления Hyper-Threading), при определении производительности вычислений с плавающей запятой вполне адекватно учитывала возможность распараллеливания вычислений.
Та же программа, но версии 2006 г., уже слегка продвинулась в области параллельных вычислений. Впрочем, ненамного. Из-за чего получился довольно необычный результат: трехъядерный процессор обгоняет своего менее высокочастотного четырехъядерного коллегу при низких разрешениях, но уступает ему при высоких. Если внимательно посмотреть не только на итоговые баллы, но и на промежуточные результаты, то легко обнаружить, что количество ядер сказывается лишь в единственном тесте — на определении процессорной производительности, где сам ЦПУ выполняет несвойственные ему в большинстве случаев функции вершинного шейдерного процессора. Значит, данный тест следует считать искусственным и никак не характеризующим поведение реального процессора в игровых приложениях.
В то же самое время все остальные тесты, основанные на обычном распределении нагрузки между ЦП и ГП, на более высокочастотном процессоре работают быстрее. Это свидетельствует о том, что все они так же, как и раньше, умеют эффективно использовать только единственное процессорное ядро. Касательно же необычной динамики итоговых результатов, то оно связано с тем, что в сбалансированной системе при низких разрешениях общая производительность лимитируется центральным процессором, а при высоких — графическим. Именно это и произошло в наших измерениях. Вследствие чего при низких разрешениях вклад «нормальных» тестов оказался преобладающим, а при высоких их результат был нивелирован видеоплатой, из-за чего преобладающим оказался вклад синтетического процессорного теста. В целом же все игровые (не синтетические) сценарии, написанные программистами FutureMark, быстрее работают на более высокочастотном процессоре независимо от количества ядер.
Еще одной из немногих ресурсоемких задач, востребованных рядовым пользователем, является видеосжатие. И здесь результаты достаточно неоднозначны. Если старые кодеки, например DivX версии 4, умели сжимать видео лишь в единственном потоке (при этом аудио все равно, как правило, сжималось в другом потоке), то все современные кодеки способны более или менее эффективно распараллеливать обработку видеоконтента. Только не всегда это дает плоды. Например, у XviD хотя и сказывается наличие дополнительных ядер, все же время сжатия уменьшается далеко не в прямой пропорции. Поэтому трехъядерная система лишь незначительно уступает четырехъядерной. А вот DivX 6.8 «заточен» под четное количество ядер, и производительность процессора снижается при переходе от четырех к трем ядрам более чем на четверть. Однако при изменении от четырех к двум производительность уменьшается менее чем наполовину. Вряд ли «тройка» — какое-то специфически неблагоприятное число для видеосжатия. Скорее всего, как и в случае с SiSoft Sandra, программисты просто еще не предусмотрели этот вариант. Предположительно в трехъядерном процессоре тестовый пакет загружает два, а то и вовсе одно ядро. Хорошо хоть, не отказывается работать совсем. Впрочем, видеосжатие с трудом поддается распараллеливанию, и здесь выигрыш от применения многопоточности далеко не пропорционален количеству ядер. Потому-то и проигрыш от их недоиспользования не слишком велик.
Тайны памяти
Нельзя забывать и о том, что процессоры были протестированы с различной оперативной памятью — DDR2 либо DDR3. В большинстве случаев ее влияние ограничивается величиной в несколько процентов и эквивалентно изменению на одну «ступеньку» тактовой частоты процессора, обычно составляющей около 200 МГц. Поэтому, кстати, в большинстве тестов результаты, показанные Phenom II 720, ближе к продемонстрированным Phenom II 940, чем Phenom II 810. Флагманский процессор AMD работает с более низкочастотной памятью.
Вообще же память все больше напоминает устройство не непосредственного, а блочного доступа — как жесткий диск. С него можно считывать данные со скоростью 200 Мбайт/с, но при этом ждать единственный байт порой приходится до 20—25 мс, а за такой промежуток времени было бы реально считать с того же диска несколько мегабайт. Есть две характеристики любого типа памяти: линейная скорость чтения и время, в течение которого имеется возможность получить доступ к произвольному элементу данных. У памяти такое время принято называть скрытым (латентным), а у диска — временем поиска. Теоретически для устройства непосредственного доступа время считывания единицы информации при последовательном доступе и скрытое время должны быть равны. Но на практике это не так. Только если для жесткого диска отношение обеих величин подбирается к миллиону, то для оперативной памяти — лишь к сотне: за полтакта процессор при линейном чтении обычно получает из памяти 16 байт данных, но для чтения по произвольному адресу нужно затратить более 20 тактов частоты шины памяти для получения единственного байта. Что, кстати, соответствует нескольким сотням тактов процессора и требует применения многоуровневой кэш-памяти для уменьшения влияния простоев процессора при обращении к основному объему ОЗУ.
При росте тактовой частоты работы памяти, как правило, пропорционально повышается скорость линейного чтения и записи, но это почти не влияет на латентное время: с увеличением тактовой частоты пропорционально растут тайминги. Ведь динамическая память устроена так, что за время доступа необходимо перезарядить всю строку матрицы, а это десятки и сотни тысяч запоминающих ячеек. Новая память DDR3 характеризуется тем, что при переходе на нее рост величины таймингов будет чуть ниже, чем тактовой частоты. Например, для DDR2-800 время цикла банка памяти tRC равно 55 нс, тогда как для DDR3-1066 — только 50,7 нс. Разница составляет 8,5%. А эффективная система кэш-памяти служит как раз для того, чтобы весь обмен с оперативной памятью по возможности свести к линейному чтению, а это потенциально будет уже 33%.
В то же время различие в тактовой частоте Phenom II 940 и 720 составляет всего 7%. И потому вполне естественно, что должны существовать случаи, когда Phenom II 720 работал бы быстрее 940-го. И такие примеры есть. Удивительно лишь то, что они встречаются не только среди синтетических тестов, но и среди тестов на реальных приложениях. В частности, первое место среди трех протестированных процессоров в SysMark 2004, использующем код часто употребляемых пользователями программ, занял именно Phenom II 720. Второе сумел отстоять 940-й, а 810-му досталось последнее. Такую точку зрения, правда, не разделяют авторы PCMark 2005, который также претендует на то, чтобы оценивать производительность системы в офисных и интернет-приложениях. Согласно его данным, на первом месте, безусловно, 940-й, а 810-й и 720-й делят второе и третье места примерно с равными результатами. Ну на то он и синтетический тест, чтобы показывать возможности скорее потенциальные, нежели реализованные в конкретных приложениях.
Итоги
В целом можно отметить, что дебют платформы состоялся, причем удачный. Как-никак AMD впервые выпустила процессор, в котором одному ядру может быть доступно более 2 Мбайт кэш-памяти. Конечно, новые процессоры не способны тягаться по производительности с флагманами конкурентов, стоящими в 4—8 раз дороже, но для своего ценового диапазона они показывают весьма хорошие результаты.
Еще один интересный вывод — удачное положение трехъядерных процессоров по соотношению цена/производительность. Правда, как и любая новинка, эта не обошлась без неприятных сюрпризов.
В данном случае таковыми оказались невозможность запуска одной из версий SiSoft Sandra и непропорциональное снижение производительности при использовании кодека DivX. В то же время нужно отметить, что, хотя изготовители усиленно предлагают трех-, четырех-, а то и восьмиядерные модели, время обычных двухъядерных еще не ушло: переместившись вниз по ценовой лестнице, они стали очень привлекательны по соотношению цена/производительность. Вообще же, если безальтернативно мощную систему, невзирая на ее цену, способна предложить только Intel, то у AMD принципиально другой подход.
Лишь на основе ее решений можно произвести плавную модернизацию компьютера на новые поколения, причем как центрального процессора, так и оперативной памяти, без особого ущерба для кошелька.
Сначала нужно купить новый процессор AM3 и установить на уже имеющуюся плату AM2+, а когда память DDR3 немного подешевеет, появится возможность заменить системную плату вместе с памятью, оставив прежний процессор.
А вообще, интересно, когда технологически будет предусмотрено 32 ядра на кристалле, станут ли выпускать отдельно модели с 31, 30, 29... ядрами? Полная версия статьи с подробными результатами тестирования на «Мир ПК-диске» и в Интернете.
Методика тестирования
Мы исследовали три процессора AMD Phenom II. Поскольку основным нововведением, пожалуй, следует считать поддержку DDR3, то мы не могли отказаться от идеи протестировать процессоры с памятью именно этого типа. И потому исследования пришлось проводить на различных системных платах. Тестовый стенд имел следующую конфигурацию:
Центральный процессор: AMD Phenom II X4 940, X4 810 или X3 720.
Оперативная память: 2048-Mбайт типа DDR2 SDRAM с частотой 800 МГц (два модуля Corsair CM2X1024-6400 по 1024 Mбайт) или 2048-Mбайт типа DDR3 SDRAM с частотой 1066 МГц (набор Kingston KHX11000D3LLK2/2G из двух модулей по 1024 Mбайт).
Системные платы: ASUS M3A78-T с оперативной памятью типа DDR2 и MSI 790FX-GD70 с оперативной памятью типа DDR3.
Видеосистема: MSI RX3870 (ATI Radeon HD 3870) с 512-Mбайт DDR4.
Жесткий диск: Western Digital WD2000JD-00HBB0, 200 Гбайт, SATA 150, 7200 об/мин, 8 Мбайт.
Дисковод: SATA DVD ROM — Sony NEC Optiarc DDU1675S.
Блок питания: Hiper type M 630W.
Модель AMD Phenom II X4 940 была протестирована на плате ASUS, а два остальных процессора — на плате MSI. Кроме того, мы сочли возможным поместить для сравнения результаты тестов нескольких других процессоров, прежде всего ближайшего предшественника — AMD Phenom 9850. Кроме того, были выбраны два устройства Intel, попадающих примерно в тот же ценовой диапазон, два «топовых» процессора Intel, не входящих в него, и одна из первых моделей Intel Core Duo, которая последнее время служит у нас в журнале своеобразной точкой отсчета. Кстати, она уже не продается, так что цена на нее в таблице проставлена по единственному найденному предложению, которое вполне могло и устареть. Процессоры Intel Core 2 Extreme QX9770 и Duo E6700 были протестированы с 2 Гбайт памяти, Intel Core i7-965 Extreme Edition — с 3 Гбайт, а остальные — с 1 Гбайт.
Плата с разъемом АМ2: ASUS M3A78-T
Системная плата использует НМС AMD 790GX с южным мостом AMD SB750 и предназначена для процессоров семейств Phenom, Athlon и Sempron в гнезде AM2+, имеющих тепловой пакет до 140 Вт. Она поддерживает память DDR2 с частотами 667, 800 и 1066 МГц (последняя только при двух установленных модулях), всего до 8 Гбайт в четырех модулях.
Изделие имеет встроенный в НМС видеоконтроллер ATI Radeon HD 3300, который использует 128 Мбайт собственной видеопамяти и часть системной. Он выводит картинку через разъемы HDMI (с разрешением до 1920х1200), DVI (до 2560х1600), а на аналоговом выходе максимальная детализация — 2560х1440. Имеется поддержка DirectX 10.0, OpenGL 2.0 и Pixel Shader 4.0. Плата оснащена технологией Hybrid CrossFireX, т. е. позволяет одновременно использовать встроенную и внешнюю видеокарты.
На ASUS M3A78-T установлено три разъема PCI Express формата х16, один — х1, а также два — PCI. Доступно шесть каналов для SATA-накопителей. Для IDE, как и обычно, реализован один канал. Уровни RAID те же, что и у платы MSI 790FX-GD70: 0, 1, 10 и 5.
Сетевое гнездо одно, набор аудиоразъемов привычен, не считая отсутствия цифрового SPDIF. Есть порты USB и FireWire. Плата имеет ряд уникальных технологий, среди которых Express Gate — встроенный веб-браузер, позволяющий без загрузки основной ОС производить файлообмен с Интернетом. Помимо обычных возможностей веб-браузера имеется поддержка Skype, IM, YouTube и webmail.
Имеется также ряд фирменных технологий ASUS для оверклокинга и обеспечения оптимального температурного режима. Предусмотрена также возможность обновления BIOS без участия ОС или загрузочной дискеты.
Средняя цена на платы составляет 142 у.е., что, учитывая наличие встроенного графического процессора, вполне приемлемо, но заставляет подозревать, что деньги приходится отдавать не только за саму плату, но и за имя производителя.
Плату можно позиционировать как универсальную для удовлетворения самого широкого круга потребностей: от недорогих систем, при условии, что пользователь не готов поступиться надежностью ради цены, до мощных компьютеров, не исключающих возможность серьезного оверклокинга.
Достоинства: наличие достаточно многофункционального встроенного графического процессора, работа в Интернете без загрузки ОС; безукоризненная стабильность в работе.
Недостатки: противоречия в документации, отсутствие COM-порта, единственное гнездо PS/2.