Первые 64-х битные x86-процессоры для настольного компьютера — Athlon 64 X и Athlon 64 увидели свет. Потестируем?
Как вы, наверное, уже заметили, мы не протестировали каждый процессор в каждом тесте. Как всегда, было мало времени, а потому иногда, для тестов мы отбирали лишь самые важные процессоры, особенно в синтетических бенчмарках.
Чтобы максимизировать частоту разгона, а также для максимальной стабильности, мы использовали память XMS 3700 CAS DDR (DDR400) от Corsair. Настройки видео - 1024x768 @ 32 бит, 85Гц; V-sync был все время отключен.
В некоторых местах этой статьи мы упоминаем об Athlon 64 FX-53, на самом деле это Athlon 64 FX-51 частоте 12х200 МГц (2,4 МГц).
Athlon 64 FX-51
• ASUS SK8N rev. 1.03, BIOS 1002.007, VIDIA nForce3 150
• Legacy PC3200 Registered (2x512 Мбайт) CAS2.5, полный объем памяти 1 Гбайт
Athlon 64 3200+
• MSI Neo rev. 1.0, BIOS, VIA K8T800
• Corsair PC3200 XMS (DDR-SDRAM) 2x512 Мбайт на частоте 400 МГц CAS (2-3-3-7)
• VIA Hyperion 4.49
Pentium 4 2,4; 2,8 ГГц C (с Hyperthreading) – 800 МГц FSB
• AOPEN AX4C-MAX, BIOS 1.10, чипсет i875 “Canterwood” Dual DDR400
• Corsair PC3200 XMS (DDR-SDRAM) 2x512 Мбайт на частоте 400 МГц CAS (2-3-3-7)
• Чипсет Intel версия (update) 5.09.1012
Athlon 1400 (T-bird), Athlon XP 2700+ (T-bred) и Athlon 3200+ (Barton)
• ASUS A7N8 Deluxe nForce 2 rev. 2.0, BIOS версия 1.06
• Corsair PC3200 XMS (DDR-SDRAM) 2x512 Мбайт на частоте 400 МГц CAS (2-3-3-6)
• Интегрированный APU
• Драйверы NVIDIA nForce 2 2.03
Общие комплектующие
• Leadtek Geforce FX5900 Ultra 256 Мбайт
• AC '97 Sound (интегрирован во всех платы)
• Maxtor 80 Гбайт DiamondMax 740X (7200 об/мин, ATA-100/133)
ПО
• Драйверы NVIDIA 45.23 (Видео карта)
• Windows XP Service Pack 1A
• DirectX 9b
Хотим поблагодарить перечисленных ниже людей за помощь в написании этой статьи:
• Дэймон Мазни (Damon Muzny), AMD
• Кристоф Семке и Маркус Вайнгартер (Kristof Semhke, Markus Weingarter), Intel
• Марга Цандерс и Анжелика Берден (Marga Zanders, Angelique Berden), MSI
• Сандра Куо (Sandra Kuo), Aopen
• Брайан Дель Ризио (Bryan Del Rizio), Nvidia
• Роберт Пирс (Robert Pearce), Corsair
• Уилл Тенг и Кэрол Чанг (Will Teng, Carol Chang), ASUS
• Шарон Тэн (Sharon Tan), BAS computers Netherlands
А теперь, давайте посмотрим на бенчмарки!
Производительность памяти и кэша
Мы не раз отмечали, что современный процессор - ОЧЕНЬ быстрое устройство, большую часть жизни проводящее в ожидании данных из медленной памяти. Потому как лишь малая часть приложений обходится кэшем, даже если они и занимают 512 / 1024 Кбайт. Данными эти гигагерцовые монстры должны питаться очень хорошо, иначе будут вести себя медленно.
Так как же соотносятся системы памяти Pentium 4 и Athlon 64? Мы провели небольшое исследование с использованием ScienceMark 2.0.
|
|
И Athlon 64, и FX51 и Pentium4 C, теоретически, имеют доступ к шине памяти, пиковая пропускная способность которой, составляет 6.4 Гбайт/с. Однако, Athlon, имея контроллер памяти, расположенный около ядра, и работающий на частоте ядра, намного более эффективен, нежели Pentium. Athlon 64 FX достигает 84% теоретически возможной пропускной способности, в то время как северный мост i875 лишь 64%. Итого 5.4 Гбайт/с на Athlon, неплохо?
|
|
Любопытно, но Athlon достиг своей максимальной пропускной способности, используя набор инструкций MMX/SSE, в то время как для кэша L2 P4 предпочтительней “REP MOVSD”. Еще более любопытно то, что Athlon 64 FX-51 является первым Athlon’оподобным ядром с быстрым L2-кэшем. Те, кто полагает, что большой кэш решает все проблемы связанные с памятью, ошибаются: L2-кэш Athlon 64 может достигнуть своего максимума лишь будучи обеспечиваем 128-битным контроллером памяти. С 64-битным интерфейсом памяти 128-битный L2-кэш лишь на 16% быстрей 64-битного L2-кэша Athlon XP. А в паре со 128-битным контроллером - ни много ни мало, аж на 67%. Как мы увидим дальше, это дает большое преимущество при исполнении кода с инструкциями MMX/SSE/3DNow!/SSE-2.
Аналогичный эффект наблюдается и на P4EE 3,2 ГГц: производительность L2-кэша Pentium4 повышается на 6%, когда он обеспечен потоком данных со стороны L3-кэша.
А что с временем отзыва (латентностью)? Подсистема памяти с малым временем отзыва (малыми задержками) была основным поводом для интеграции контроллера памяти с ядром Opteron/Athlon 64. Ниже приведены результаты, полученные на ScienceMark 2.0 (на массиве объемом 4 Мбайт).
|
CPU - Northbridge |
Latency - 64 bit |
Latency - 128 bit |
Latency - 256 bit |
|
Athlon 64 FX-53 (2.4 GHz) Dual Channel |
53 |
114 |
117 |
|
Athlon 64 FX-51 Dual Channel |
52 |
115 |
118 |
|
Athlon 64 FX-51 Single Channel |
61 |
116 |
118 |
|
Athlon 64 3200+ (Single channel) |
49 |
83 |
86 |
|
P4 3.2 GHz EE |
57 |
224 |
260 |
|
P4 3.2 GHz |
59 |
243 |
247 |
|
Athlon 3200+ - Nforce 2 FSB400 |
132 |
179 |
183 |
Отметим, что наш Athlon 64 FX-53 - НЕ процессор с разогнанной FSB (218 МГц х 11),а разблокированный Athlon 64 FX-51, то есть является ничем иным, как ожидаемым вскоре FX-53. Используя в качестве примера стандартный северный мост с раздельным процессором и FSB, можно было бы предположить, что время отклика будет примерно, на 9% выше, но правило это на Athlon 64 не работает: время отклика осталось прежним… Это гарантирует пропорциональность роста производительности с ростом тактовой частоты. И все же, настоящий чемпион здесь - Athlon 64 3200+, который обладает латентностью на 30% (!) меньшей, чем Athlon 64 FX-51. Латентность DDR400 для Athlon 64 очень мала, иногда в 3 (!!) раза меньше, чем у конкурента - Pentium 4 3.2 ГГц. Неудивительно, что Intel решил добавить кэш L3 с типичной суммарной латентностью 33-40 циклов…
Мощность вычислений с плавающей точкой
Мы прогнали тест “BLAS” из ScienceMark 2.0, осуществляющий перемножение матриц из чисел с плавающей точкой. Однако, в отличие от нашего исполняемого файла Linpack, скомпилированного на С, BLAS особенно хорошо оптимизирован для того, чтобы максимально использовать кэш процессора. Таким образом, BLAS позволяет с большой реалистичностью узнать, насколько быстро производится произведение больших матриц на данном процессоре.
Еще более интересно то, что он может может определять производительность при выполнении как чисто инструкций SSE или x87, так и просто инструкций, откомпилированных с языков высокого уровня. Однако, это лишь однопоточный тест, а потому, хоть его и запускают на двухпроцессорных системах, используется при этом только один процессор. Для начала посмотрим на «double precision»:
|
CPU |
SSE-2 Scalar |
SSE-2 Vector |
Compiled |
x87 - assembly |
|
Athlon 64 FX-51 |
3093 |
3096 |
1846 |
3112 |
|
Athlon 64 3200+ |
2776 |
2795 |
1680 |
2803 |
|
P4 3.4 GHz EE |
1457 |
4058 |
1895 |
2187 |
|
P4 3.2 GHz EE |
1379 |
3840 |
1793 |
2070 |
|
P4 3.2 GHz "C" |
1350 |
3677 |
1701 |
2015 |
|
Athlon 3200+ |
n/a |
n/a |
1542 |
3178 |
SSE-2 раздел Pentium 4 не очень гибок, когда дело доходит до скалярного SSE-2 (всего один FADD/FMUL за один такт), а потому в этом тесте он показал себя очень плохо.
Но когда наступает очередь «векторного» SSE-2, Pentium 4 нет равных. Намного более высокая тактовая частота позволяет более показать высокую пиковую производительность в операциях с плавающей точкой.
Single precision тоже важен, в основном для игр.
|
CPU |
SSE |
3DNow! |
Compiled |
|
Athlon 64 FX-51 |
6249 |
5463 |
1926 |
|
Athlon 64 3200+ |
5501 |
4857 |
1753 |
|
P4 3.4 GHz EE |
7918 |
n/a |
1787 |
|
P4 3.2 GHz EE |
7488 |
n/a |
1687 |
|
P4 3.2 GHz "C" |
7274 |
n/a |
1663 |
|
Athlon 3200+ |
3949 |
5050 |
1542 |
Та же история: Pentium 4, благодаря высокой тактовой частоте, недосягаем. Отметим, что у Athlon 64 улучшения в SSE-производительности больше, чем у Athlon XP. Штрафы ошибок прогнозирования ветвлений, злейший враг Pentium 4, в этом случае ничего не значат. Следует, однако, заметить, что Athlon 64 FX в SSE лишь на 17% медленней, чем Pentium 4 3.2 ГГц, чья частота на 47% выше. А это значит, что ядро Athlon 64 FX все же более эффективно, то есть имеет большую удельную производительность. “Скомпилированные” же результаты показывают что, если код не был тщательно оптимизирован под SSE, Athlon 64 сильнее. В качестве резюме можно сказать, что у Pentium 4 есть два козыря перед Athlon 64: Hyperthreading, и более производительный SSE-2.
Шахматы: DIEP
Винсент Дипивин (Vincent Diepeveen) - талантливый программист поглощенный шахматами. На всех системах NUMA (Non Uniform Memory Architecture), будь они на Itanium, Opteron, или на SGI MIPS и SMP-машинах, на двойных AthlonMP и Xeon DP CPU, работает программа Винсента под названием DIEP. DIEP-это очень сложное и очень требовательное к ресурсам приложение. А еще она тоже на 100% “целочисленная” программа.
“Весит” она всего 550 Кб, и была существенно усовершенствована с тех пор, как мы впервые использовали ее в качестве теста для рабочей станции. Теперь DIEP использует до 350 Мбайт hash-таблиц, а потому результаты тестирования не следует сравнивать с более ранними результатами. Хотя результаты теста в какой-то мере зависят от памяти, в основном, все упирается “чистую” мощность процессора. Мы считаем, что DIEP является хорошим тестом, так как хорошее прогнозирование очень важно для ПО следующего поколения, основанного на продвинутых алгоритмах (например, нейронные сети).
Шахматы - хорошая программа для того, чтобы начать тестировать блок прогнозирования ветвлений (BPU, Branch Prediction Unit) процессора Athlon 64. Мы тестировали раздумья на 13 ходов вперед.
|
|
|
|
Этот тип ПО - конек Athlon, но искусство Винсента пришло на помощь Pentium 4. Хотя Hyperthreading лишь оттягивает конец Pentium 4: с одним потоком Pentium 4 3.2 ГГц медленней на 33%, но добавьте еще один поток, и Hyperthreading сокращает разрыв до 8%.
ScienceMark
Тим, Алекс и Джулиан сильно облегчили нам работу, предложив ScienceMark более года назад. Тим Уилкенс (Tim Wilkens) теперь работает на AMD, но ScienceMark для него - лишь хобби, и к тому же, с каждой новой версий он становится все более оптимизирован под SSE и SSE-2 (как и текущее коммерческое ПО), а потому, у нас нет оснований полагать что ScienceMark и AMD как-то связаны.
Так как научным приложениям производительности процессоров всегда мало, мы решили еще раз сравнить несколько процессоров.
Molecular Dynamics- это метод, симулирующий термодинамическое поведение материалов, используя силы, скорости и координаты. Самой важной составляющей здесь является сила. MolDyn симулирует движение Аргона-216 при температуре 140 градусов Кельвина.
|
|
Следующей идет Primordia. Цитата из ScienceMark.org: “Эта программа рассчитывает квантово-механические орбитали Хартри-Фока для любого элемента периодической таблицы. Здесь детально разобраны методы решения этой задачи. Выполняется самосогласованный цикл, на каждом шаге цикла рассчитываются обменные и корреляционные потенциалы. Пользователь имеет возможность выбора конкретного алгоритма для расчета”.
|
|
В то время как Athlon XP3200+ с некоторым трудом обходит Р4 в этом тесте, там, где особенно помогает мощь тройного FPU, для Athlon 64 FX даже Р4ЕЕ с тактовой частотой 3,2 ГГц - просто котенок.
Шифрование сообщений для безопасного электронного бизнеса и прочих приложений стало крайне важным делом. ScienceMark позволяет также протестировать один из популярных “секретных” алгоритмов: AES.
|
|
Как видите, ядро Athlon чувствует себя как рыба в воде.
Бенчмарк Plasma
Plasma - наш последний научный тест. Др. Саймон Блэнд (Simon Bland): “Скорость MHD ограничивают операции, связанные с обращением матриц. Матрица состоит из 2,1 миллиона строк и 2,1 миллиона столбцов. Хотя, она разрежена: в ней есть лишь 29 ненулевых диагоналей. Сейчас для решения используется один из итерационных методов. На решения уходит 100 итераций, каждая состоит из 5 матричных множителей. Как мы уже упоминали, мы интенсивно ищем лучшие методы, как одинарные, так и параллельные”.
В основном, производительность этого теста в большой степени зависит от латентности памяти, и не очень - от ее пропускной способности и мощности FPU. Рentium 4 всегда был силен здесь.
|
|
Я сказал “был силен”, потому что в этот раз Athlon 64 просто оставил всех в пыли за собой - он более чем на 50% быстрее своего старшего брата. Pentium 4 даже и рядом не стоял с новым процессором AMD.
MS Access
Называемая многими специалистами ”игрушечной базой данных”, MS Access, тем не менее, является одной из самых распространенных БД. Если вам не надо обращаться и изменять вашу базу данных вместе с десятками пользователей, MS Access позволяет разрабатывать приложения БД за считанные секунды.
Мы не доверяем бенчмаркам, которые запускают смесь офисных приложений, а потом выплевывают какое-то одно число, мы разработали свой собственный тест. MS Access обладает хорошим встроенным таймером, так что мы осуществляем запрос к четырем базам данных (порядка 100 ы000 записей в каждой), и замеряем время, затрачиваемое на обслуживание запроса. Так как в первый раз MS Access загружает БД, мы не учитываем первый запрос, который в большей мере зависит от производительности жесткого диска. После первого прохода БД кэшируются. Затем мы прогоняем тест еще три раза, а затем берем худшее и лучшее время (в секундах).
|
|
Athlon XP и Pentium 4 рядом, но все же, семейство Athlon 64 опять впереди, пусть и с небольшим отрывом.
3D Studio Max 5.1.
Нашим первым тестом будет наш классический “архитектурный” рендеринг. Мы тестируем эпизод Architecture из бенчмарка SPECapc 3D Studio Max R4.2. Тест представляет собой движущуюся камеру, показывающую сложное здание - виртуальный осмотр масштабной модели. Этот сложный эпизод содержит не менее 600 000 многоугольников и 7 источников света.
|
|
В то время как Athlon XP безнадежно отстает от Pentium 4, Athlon 64 FX уступил лишь Pentium 4 Extreme Edition.
Давайте попробуем другой классический тест на 3DSМax. Он основан на модели Ape, она есть на каждом диске с 3DSMax 4. Тест прост – это анимация Аре игровой сценой рендеринга, сильно использующей освещение - не менее 44 источников света. Этот эпизод также содержит сложную обратную кинематику для моделирования движений мышц лица и манипуляции пальцев. Многоугольников относительно мало: всего 26 000. Размывание при движении, одна из функций, оптимизированных под SSE-2, достигается рендерингом сцены в шесть проходов.
|
|
StudioPC является авторизованным реселлером анимационного ПО 3DSMax от Discreet, специализирущимся на программных и аппаратных решениях для 3D. Studio PC занимается всем, что связано с 3DSMax, от аппаратного обеспечения до программного инструментария… идеальный партнер для нас, чтобы сделать действительно профессиональный бенчмарк.
Фремер (Fremer), совместно с командой Studio PC, взял стандартную демосцену с radiosity из 3DSMax 5.1, и сделал из нее то, что очень похоже на то, с чем имеют дело профессионалы. Они смогли, например, снизить число лучей, попадающих в тень с 45 до 16 миллионов, тем самым ускорив рендеринг без потери реализма. Более 75% времени уходит на radiosity, и StudioPC считает, что radiosity, сцена с большим числом источников света – это как раз то, где профессионалы особенно нуждаются в мощности процессора.
|
|
|
|
Athlon XP 3200+ безнадежно отстает от Pentium 4 в сценах с radiosity, но Athlon 64 кардинально меняет положение дел: даже Hyperthreading не спас 3,2 гигагерцовый Pentium 4 Extreme Edition от поражения от нового чемпиона AMD.
Cinema4D: Cinebench 2003 (MP)
|
|
Pentium 4 C 3.2 ГГц набрал 320 баллов с одним процессом, но Hyperthreading доводит результат до 380, что пока находится вне досягаемости для ядра AMD.
Pandromedia Mоjoworld Generator
Хоть Mojoworld и не относится к массовым приложениям, она обладает графическим IDE для комбинирования уравнений фракталов (fractal equations) и генерирования целых планет, с рельефом и соответствующим освещением. Версия 2.0 содержит опции для мозаичного рендеринга, что позволяет уменьшить ее зависимость от памяти. Мы следовали инструкциям по тестированию от Calyxa.
|
|
|
|
К сожалению, к тому времени, как к нам пришли Athlon 64 3200+ и P4 EE, срок лицензии уже истек, но ясно, что генерирование ландшафтов, основанное на фрактальных алгоритмах, на Athlon 64 идет быстрее.
Kribi
Kribi является очень мощным пакетом программного рендеринга. Ее разработал Eric Bron, регулярный посетитель Ace’s Hardware, пакет является одним из продуктов Adept Develeopment. Он поддерживает порядка 10 миллиардов полигонов и умеет проводить фотореалистичный рендеринг в реальном времени. Kribi использует 100% software-рендеринг (то есть это чисто процессорный тест) и не может работать без SSE-инструкций.
Мы протестировали несколько моделей, чтобы определить, оказывает ли та или иная модель сильное влияние на результаты. Первая сцена, City Ultra – самая впечатляющая, содяржащая ни много ни мало 16,7 миллиардов полигонов. Все результаты выражены в кадрах в секунду.
|
|
|
|
|
|
Будучи software-ренедрером, естественным образом выигрывая от наличия многопоточности и SIMD (Single Instruction Multiple Data), Kribi является яркой демострацией мощи Pentium 4. Этот тип приложений, при оптимизации, лучше всего будет работать на высокочастотных многопоточных процессорах. Точка.
Real Time Raytracing
Программные real-time рендереры являются очень хорошими тестами процессоров, и поэтому, даже несмотря на то, мало кто их часто использует, мы проделали тест небольшого "RealStorm Benchmark Final v1.10" чтобы увидет,ь как быстро могут последние модели процессоров отрисоватьсцены трассировки лучей.
Все тесты были проведены в 640х480, тени и отражения включены.
|
|
Athlon 64 FX сильно быстрей «обычного» Pentium 4, но дополнительный кэш L3 дает P4EE огромный прирост производительности. Тем не менее, если Athlon 64 FX-53 и 3,4 ГГц Р4ЕЕ выйдут на рынок в одно время, FX-53 выиграет у P4 вчистую.
- Intel Pentium 4 3,2 ГГц в сравнении с предшественниками и конкурентами
- Apple PowerMac G5: первые подробности, наш комментарий
- Плата ASUS A7V600 на чипсете VIA Apollo KT600 с поддержкой Athlon XP 3200+
- Athlon XP 3200+ и плата EPoX 8RDA3+ на чипсете NVidia nForce2 Ultra 400
- Intel Pentium 4 3,00 ГГц и чипсет 875P (Canterwood) для двухканальной памяти DDR400: первое знакомство
- Intel Centrino: детальный обзор технологии, подробные тесты производительности и энергосбережения на примере ноутбуков ASUS S1N и Roverbook Nautilus B570
- Springdale: первые тесты нового чипсета Intel
- AMD Athlon XP 3000+: детальные тесты нового процессора на ядре Barton






















Спасибо.