Компьютеры
3 ноября 2003, 00:33

Athlon 64, Athlon 64 FX и Pentium 4. Часть первaя.

Первые 64-х битные x86-процессоры для настольного компьютера — Athlon 64 X и Athlon 64 увидели свет. Потестируем?

Итак…Первые 64-х битные x86-процессоры для настольного компьютера — Athlon 64 FX и Athlon 64 увидели свет и доступны для тестирования. Новые процессоры AMD претерпели изменения именно там, где это было больше всего необходимо: более быстрый контроллер памяти, более разумный прогноз ветвлений и более быстрый и более объемный L2-кэш. Амбиции AMD относительно Athlon 64 очень высоки, по их словам, это «просто самый быстрый на данный период настольный процессор».

image001.jpg

Но и Intel не сидит, сложа руки. Несмотря на то, что это одна из крупнейших корпораций в мире, Intel никогда не страдала неповоротливостью. В качестве превентивного удара, Intel выпускает Pentium 4 Extreme Edition, точно рассчитав время выпуска так, чтобы испортить праздник AMD.

Является ли новый Pentium 4 с 2 Мбайт кэша третьего уровня тем самым экстремальным чипом, как называют его некоторые наши читатели? Перед тем, как начать отвечать на этот и другие вопросы, я хотел бы кратко обсудить, что, собственно вы можете ожидать от нашего обзора. Начнем, пожалуй, с плохих новостей: не ожидайте слишком много 64-битных тестов для Windows XP/64. В настоящий момент количество выпущенных приложений для 64-битной Windows ограничено, и все, что было доступно для нас - это несколько тестов, которые предложила AMD. У нас не было самого компилятора, так что разработка и компиляция собственных тестов была невозможна. Сама Windows 64 вела себя очень хорошо, но так как приложений для нее надо еще подождать, отложим разговор об этой ОС на потом.

Теперь хорошие новости: многие из наших 32-битных тестов должны вас заинтересовать. Мы отлично знаем, что вы ожидаете от нас свежих сюрпризов и новых обновлений тестовых пакетов. Во-первых, было протестировано не менее 15 различных игровых движков, включая Unreal II, Jedi Knight Academy, X2 (новый космический симулятор), и, конечно, классические игры Ace’s, такие как Medieval War, Age of Mythology, и  Battlefield 1942 "Road To Rome". Мы даже измерили производительность искусственного интеллекта одной очень популярной игры…

И это еще не все, были разработаны несколько новых тестов, такие как MS Access, и мы работали в сотрудничестве экспертами для того, чтобы представить вам менее известные, но важные «жизненные» бенчмарки. Огромное спасибо этим специалистам:
 3DS Max benchmarks (Fremer, Studio PC)
 Kribi (Eric Bron, Adept Development)
 Diep Chess engine (Vincent Diepeveen)
 Pandromeda MojoWorld (Bryn Forbes)
 Plasma (Dr. Simon Bland and Dr. Jerry Chittenden, Imperial College)

Этот материал должен занять вас на несколько часов, растянувшись на две части. Ах да, я забыл сказать вам, что помимо 3 CPU, обсуждаемых ниже, у нас есть четвертый, более мощный в следующей статье! Упомянул ли я о том, что мы смогли разогнать Athlon 64 FX до частоты 2,4 ГГц (12 x 200MHz), и о криосистеме с Athlon 64 FX на частоте 2,8 ГГц?

Три новых процессора

Мы с удовольствие представляем вам три новых на сегодняшний день процессора: Pentium 4 Extreme Edition, Athlon 64 FX-51, и Athlon 64 3200+. Pentium 4 EE - это разогнанный до частоты 3,2 ГГц Xeon MP с 800 Мгц FSB, упакованный в 478-контактный FC-PGA2. Процессор, скорее всего будет оценен в 740$ (а по последним данным – под тысячу).

image002.jpg

Заметим, что Pentium 4 ЕЕ имеет намного больше дискретных конденсаторов и резисторов обвязки на дне процессора, чем обычный Pentium 4.Большой чип, такой, как у Pentium 4 ЕЕ нуждается в более точно дозируемой мощности, так как чем больше чип, тем больше совокупная мощность и распределение временного сигнала.

А 940-пиновый Athlon 64 FX-51 на самом деле является замаскированным Opteron’ом с частотой 2,2 ГГц и с контроллером памяти, требующим регистровые (буферизированные) модули DDR RAM. Этот вид памяти стоит совсем недешево, а наличие буферов выливается в дополнительные циклы латентности. С другой стороны, большинство буферизированной RAM снабжено ЕСС (Error Correcting Code), которая делает подсистему памяти более надежной, так как может исправлять 1-битовые ошибки и определять 2-битовые ошибки. Athlon 64 FX может использовать пары 64-битных DDR400 DIMM как один большой 128-битный модуль, в результате достигается теоретический пик пропускной способности в 6,4 Гбайт/сек.И все же, модули регистровой DDR400 памяти сейчас очень редки и дороги.

Оцененный в 733 $, Athlon 64 FX-51 не является самой выгодной покупкой, но вы в самом деле покупаете процессор очень высокого класса. Материнские платы для Athlon 64 FX позволяют вам использовать модули памяти объемом до 2 Гбайт, получая в сумме 8 Гбайт оперативной памяти. Таким образом, Athlon 64 реально является процессором для рабочих станций: ЕСС, 64-битная адресация и платформа, которая может превысить 4-х гигабайтный барьер.

image003.jpg

754-пиновый Athlon 64 3200+, работающий на тактовой частоте 2 ГГц, гораздо менее требователен: он работает с нормальными (unbuffered) DDR400 и стоит порядка 417$. Младший брат, Opteron, имеет только один  64-битный канал памяти. Из продаваемых на данный момент материнских плат он может быть установлен в модели на чипсетах VIA К8Т800 (ASUS, MSI) и nForce3 150 (Gigabyte), единственное условие – чтобы сокет был 754-контактным. Эти платы сталкиваются с ограничениями типичного DDR-чипсета: большинство поддерживают 2 Гбайт (K8T800) или 3 Гбайт (nForce 150) памяти и вполне вероятно, что вставка третьего DMM модуля DDR400 снижает общую частоту памяти до 333 MHz, что заявлено у всех производителей, кроме ASUSTeK.

Самый лучший Athlon!

Мы уже обсуждали архитектурные различия между К7 (Athlon) и «Hammer» (Athlon 64) в обзоре об Opteron, и я ограничу себя кратким обзором. Athlon 64 (FX) и Opteron архитектурно более продвинуты по отношению к Athlon XP по следующим причинам:
  1. Интегрированный контроллер памяти, двухканальная регистровая (буферизованная) DDR400 или одноканальная unbuffered DDR400
  2. 16-битная 600/800 МГц DDR (dual simplex) шина HyperTransport для соединения с AGP и южным мостом
  3. Поддержка инструкций SSE2 с 16 регистрами в 64-битном режиме
  4. 12-уровневый целочисленный конвейер (Athlon имеет конвейер длиной 10 ступеней), 17-уровневый конвейер для вычислений с плавающей запятой Athlon имеет в этом конвейере 15 ступеней) для дальнейшего увеличения частоты
  5. Дополнительная стадия конвейера анализирует зависимость инструкций, сразу после их декодирования
  6. Немного более объемные целочисленные буферы (3x8 вместо 3x6)
  7. TLB кэша первого уровня увеличилась с 24 до 40 записей
  8. TLB кэша второго уровня увеличилась вдвое, с 256 до 512 записей 
  9. Фильтр «смыва», позволяющий сразу нескольким процессам разделять доступ к TLB
10. Улучшенное прогнозирование ветвлений и увеличения глобального журнала ветвлений с 4 тысяч до 16 тысяч записей
11. 128-битный доступ к памяти к паре модулей DDR400 DIMM (только у Athlon 64 FX)

FeaturesAthlon 64 FXAthlon 64Pentium 4 "C"Pentium 4 EEAthlon XP 3200+
Частота, ГГц2,222,4-3,23,22,2
Тех процесс (нм)0,13 SOI Cu0,13 SOI Cu0,13 Cu0,13 Cu0,13 Cu
Транзисторов (млн)105,9105,95516837,5
Напряжение питания, В1,551,551,5-1,551,551,65
Размер кристалла (кв. мм)193193131230?80
Адресное пространствоAthlon 64 FXAthlon 64Pentium 4 "C"Pentium 4 EEAthlon XP 3200+
Обычная многопро-цессорная система(Opteron: 1-8)Athlon 64 FX: 1n/an/an/an/a
Максимальное физическое адресуемое пространство1024 ГБайт однородное (40 бит)1024 ГБайт однородное (40 бит)64 ГБайт PSE (36 бит)64 ГБайт PSE (36 бит)4 ГБайт
Максимальное виртуальное адресуемое пространство256 Тбайт (48 бит)256 Тбайт (48 бит)4 ГБайт4 ГБайт4 ГБайт
SIMDSSE2/3DNow!/SSESSE2/3DNow!/SSESSE2/SSESSE2/SSE3DNow!/SSE
Конфигурация кэшаOpteronAthlon 64Pentium 4 "C"Pentium 4 EEAthlon XP 3200+
Объем кэша L1 (Data/Instr)64/6464/648 / +-20 **8 / +-20 **64/64
Латентность кэша L1(load to use)33223
Объем кэша L2, Кбайт10241024512512512
Разрядность кэша L2, бит12812825625664
L2-cache Latencyload to use (+L1-latency)16169-209-2011-20 (*)
Объем кэша L3, Кбайт2048
ПамятьOpteronAthlon 64Pentium 4 "C"Pentium 4 EEAthlon XP 3200+
Конфигурации памяти2x DDR3332x DDR4001x DDR4003.22 x DDR4002xDDR400DDR400
Максимальная пропускная способность шины памяти, Гбайт/сек5,4; 6,43,26,46,43,2
** 12000 микроопераций, что примерно равняется 20 Кбайт кэша x86 инструкций

Athlon 64 FX? так же как и Opteron? имеет размер кристалла 193 кв. мм. Когда AMD  перейдет на технологию 90 нм, площадь уменьшится до 120 кв. мм.

Пока мы видим лишь спекуляции на бумаге. Немного попозже, вооруженные Sciencemark 2.0, мы выясним, как эти бумажные спекуляции сравнимы с реальным положением вещей. Вы будете восхищены...

Надежный Athlon!

Если вы собираете множество систем, и вы настолько же ловки в этом, насколько ваш покорный слуга, вы знаете, что одна из самых слабейших сторон Athlon состоит в том, что кристалл был хрупким и «легковоспламеняющимся». Как-то раз я сломал Athlon XP 2000+, так как кулер был недостаточно надежно прикреплен к кристаллу, и я уверен, что не единственный, кто столкнулся с такой проблемой.

Кажется, AMD многому научилась и, в конце концов, мы можем сказать, что Athlon 64 так же безопасен, как и Pentium 4. Надежная крышка защищает хрупкий кристалл, а «Thermtrip» - цепь, вынуждающаяся срабатывать защитный механизм при превышениях температуры – понижает питание процессора при очень высоких температурах, и делает это достаточно быстро, чтобы избежать ущерба.

Как мы заметили выше, все рекомендуемые для Athlon 64 кулеры поддерживают CPU с максимальным термопакетом 89 Ватт. Для того, чтобы быть атестованными AMD, производители материнских плат и кулеров должны сконструировать свои устройства так, чтобы они смогли рассеять 89 ватт.

Компания AMD хочет, чтобы все материнские платы и кулеры для семейства AMD64 (Opteron и Athlon64) были способны поддерживать даже самые быстрые процессоры (ну, конечно, если число контактов остается тем же самым), чтобы , таким образом, было возможно убедить покупателей быстрее модернизировать свои системы. На самом деле, вряд ли семейство Hammer когда либо будет рассеивать столько энергии при текущем техпроцессе и упаковке. 89 Ватт дают AMD большой запас, и апгрейд купленной вами сегодня Socket 754/940 материнской системы будет гораздо проще, чем это было когда-либо возможно с Athlon XP. AMD еще не опубликовала данные по тепловой мощности, но уверяем вас, что нынешняя 2,2 ГГц модель не рассеивает 89 ватт. Также несмотря на то, что 940-пиновый Athlon FX будет замещен 939-пиновой моделью, не требующей буферизированной RAM, уже в следующем году, AMD все-таки обещала выпустить новый 940-пиновый Athlon FX.

image004.jpg

Типично исполнение кулера для Athlon 64: массивный радиатор, но медленный (3000 об/мин) вентилятор. Обратите внимание на специальный безопасный крюк на рычаге.

Как вы можете видеть, больше нет надобности прилагать значительные усилия при прикреплении кулера к вашему процессору. Специальная пластина прикреплена к задней стенки материнской платы. Крепится она двумя шурупами через материнскую плату и удерживающий механизм. Прикрепляющий механизм Athlon 64 (в данном случае на плате MSI K8T Neo)  эффективен и достаточно прост. Он гораздо проще прикрепляет кулер ко дну удерживающего механизма. С одной стороны надо вдавить простой зажим (особой силы для этого не требуется), а с другой стороны - приподнять фиксирующий рычаг и прикрепить крюком безопасности к фиксирующему болту.

image005.jpg

MSI R8T Neo FISR, на чипсете VIA K8T800

MSI была первым OEM, пославшим нам материнскую плату Socket 754 для Athlon 64. Она построена на основе чипсета VIA К8Т800, который использует двухчиповую конфигурацию: северный и южный мосты. VIA попросту соединила свою классическую чипсетную схему  (Юг - V-link - Север) с 2x16-битной 800-мегагерцовой (3,2 Гбайт/с в обе стороны) шиной Hypertrasport от процессора к северному мосту. Это, вероятно, уменьшило время на разработку К8Т800.

Как и всегда в таком случае, MSI Neo крайне богата всякими деталями. Южный мост VIA поддерживает два Serial ATA устройства, и MSI добавила контроллер Promise 20378 для поддержки еще двух SATA устройств (в общем четыре SATA), и все это - помимо одного канала UATA (в общем 6 поддерживаемых устройств). Провода SATA и круглый кабель UATA входят в комплект.

image006.jpg

Сетевой контроллер реализован чипом Realtek 81105. На задней панели материнской платы  можно обнаружить две разных разъема IEEE 1394  вместе с S/PDIF портом. Realtek ALC655 способен посылать аналоговый и цифровой сигналы по 6 различным каналам. Непосредственно доступны четыре USB порта, а пятый  обеспечен через отдельную планку, который также содержит диагностические индикаторы.

image007.jpg

Как вы можете видеть, BIOS позволяет точную настройку системы. Шина Hypertransport может быть выставлена в режимы 8 /16 бит и 800/600/400/200 МГц. Напряжение на CPU, DDR и AGP можно корректировать, а FSB можно увеличивать вплоть до 280 МГц с шагом 1 МГц. Впрочем, толку от этого мало, так как плата зависает при загрузке BIOS уже на частоте 205 МГц.
 
К счастью, плата от MSI снабжена знаменитой технологией D.O.T. (Dynamic Overclocking Technology), которая позволяет разгонять процессор на 3, 5, 7 и 10%. Вся прелесть, конечно же, в том, что специальный чип CoreCell на материнской плате разгоняет процессор лишь тогда, когда он загружен, и соответственно, снижает частоту когда он простаивает. CoreCell от MSI способен также снижать энергопотребление когда система простаивает. Все это очень хорошо работало, и позволило нам разогнать Athlon 64 3200+ на 7% при нормальном режиме охлаждения, и на 10% (2,2 МГц) при усиленном охлаждении.

ASUS SK8N: NVIDIA nForce3 150

ASUS SK8N построена на чипсете NVIDIA nForce3 150, и, следовательно, оснащена: портом Firewire (IEEE), 4-мя портами USB 2.0, цифровым звуком и S/PDIF, а также стомегабитным интегрированным LAN.

image008.jpg

Должен сказать, я был очень впечатлен устойчивостью этой платы; я не столкнулся с ни единой проблемой, даже когда настройки модуля памяти слегка превышали агрессивные настройки (ЕCС был отключен). Возможно, вас это не удивляет, но я должен сказать что, например, первые платы на nForce 2 с FSB 400 МГц и на i875Р были очень чувствительны к памяти и ее настройкам. С эти платформами иногда случались перезагрузки после многих часов интенсивного тестирования.

И nForce3 150, и ASUS SK8N на редкость элегантно спроектированны: nForce3 - это не nForce2, наклеенный поверх Hypertransport. NVIDIA куда более полно воспользовалась возможностями Hypertransport и Athlon64, интегрировав AGP с южным мостом. Это упрощает маршрутизацию сигналов, так как весь чипсет в данном случае -  по сути один-единственный чип.

nForce3 150 устроен так, что работает на частоте 600 МГц DDR (эквивалентно 1,2 ГГц) с шириной 16 вниз, и 8 бит вверх. Таким образом, пиковая пропускная способность равняется 2,4 Гбайт/с вниз (у VIA 3,2 Гбайт/с), и 1,2 Гбайт/с вверх (у VIA 3,2 Гбайт/с). NVIDIA считает, что ее одночиповое решение более эффективно, чем подход VIA, так как пропускная способность всех устройств на южном мосту VIA ограничена пропускной способностью V-link (533 Mбайт/с) между южным и северным мостами, в то время как у NVIDIA пропускная способность между процессором и чипсетом равна 3,2 Гбайт/с. Конечно, сложно оценить разницу, так как она проявляется лишь тогда, когда два устройства на USB 2.0 (80 Мбайт/с) пытаются получить доступ к контроллеру памяти одновременно с приводами SATA RAID (300 Мбайт/с) и ATA-133 (133 Мбайт/с). Ситуация же такая крайне маловероятна, так как жесткий диск может достигать таких скоростей, лишь разгружая свой кэш.

Есть у nForce3 150 и старший брат: nForce3 250. Он пропускает поток данных по каналу шириной 16 бит на частоте 800 (1600) МГц как вверх, так и вниз. NVIDIA поставила туда более быстрое НТ-соединение, потому как nForce3 250 включает в себя интегрированный Gigabit Ethernet (Full Duplex) и поддержку 4-х SATA устройств, в сумме могущих дать около 600 Мбайт/с.

image009.jpg

“Разгонные возможности” платы от ASUS довольно-таки скромны, но мы можем сказать,  что у нее есть специальный BIOS (который, впрочем, недоступен для простого пользователя) который позволяет менять множитель, который, как нам кажется, не зафиксирован на нашем Athlon 64.

Плата от ASUS устойчива и производительна, но...

Куда делся SoundStorm от NVIDIA?

Таков был первый же пришедший на ум вопрос после прочтения спецификаций на nForce3 150 и ASUS SK8N. Где тот чудесный звуковой чип?!

Вот что сказал представитель NVIDIA Брайан Дель Ризио (Bryan Del Rizio):   “Мы убрали SoundStorm c МСР для начала, а в начале 2004 мы представим другую, существенно измененную версию SoundStorm, которая может быть добавлена  производителями в конструкции их материнских плат, или даже использована для построения отдельной звуковой карты. Это выгодно в том плане, что это обеспечивает нашим партнерам гибкость стоимости и проектировки для интеграции высококачественного аудио и их продукции. Позже мы предоставим более полную информацию о SoundStorm.”

Я бы не сказал, что я очень рад этому, ведь это значит, что из-за того, что производители экономят копейки, покупатели остаются без звука Dolby Digital и превосходного шестиканального выхода. Возможно, нам, энтузиастам, следует разъяснить нашим семьям и друзьям что лучше заплатить чуть больше, и купить более качественную и многофункциональную материнскую плату. Ценовая конкуренция столь сильна, что производители идут на все, чтобы чуть-чуть опустить цену. В данном случае устойчивость плат не пострадает, но я видел много примитивных, и даже нестабильных плат которые хорошо шли лишь потому, что они были очень дешевы (помните ECS на SIS730?).

Athlon 64, Athlon 64 FX и Pentium 4 Extreme Edition
 
Что насчет 64 бит в Athlon 64?
 
Windows 64 должна обеспечивать выигрыш производительности как для 32-битных, так и для 64-битных приложений. 64-битные приложения могут быть быстрее их 32-битных собратьев благодаря более быстрым 64-битным операциям с целыми числами (в некоторых случаях), и улучшениям в архитектуре, таких, например, как добавочные 8 РОН (регистров общего назначения), которых в итоге стало 16. Вдобавок к этому, они могут использовать намного больше памяти по сравнению с 4-х гигабайтным лимитом для 32-битных приложений. Чтобы воспользоваться этим, нужно иметь по крайней мере  плату под Athlon 64 FX, которая поддерживает до четырех двухгигабайтных модулей, или еще лучше плату под Opteron, которая способна поддерживать до 32 Гбайт ОЗУ.

Под Windows 64 будут лучше работать и 32-битные приложения: когда они запускаются под обычной, 32-битной Windows, у них в распоряжении лишь 2 Гбайт, , в то время как под 64-битной Windows 32-битные приложения получают аж 4 Гбайт.

Для того чтобы эти приложения имели доступ к полным 4 Гбайт адресного пространства, должен быть включен флаг “large image aware”. В противном случае они получают привычные 2-3 Гбайт. Например MS SQL Server, а также некоторые high-end CAD  приложения уже переработаны с учетом использования Very Large Memory (VLM) API. Причиной тому является то, что Windows 2000/2003 Enterprise и DataCenter Edition позволяют сдвиг самих себя в памяти для предоставления дополнительной выделенной памяти для приложений.

image010.jpg

Мы протестировали 64-битную версию Windows XP, и можем, положа руку на сердце, сказать что система устойчива и готова к выпуску. Были некоторые нюансы, но о них мы расскажем позже.

Поддержка 64-битного ПО

Что такое 64-битный процессор без 64-битного ПО? Постараемся сделать краткий обзор того, как формируется ПО для семейства AMD64. ПО, выделенное жирным шрифтом имеет 64 битную поддержку, остальные же просто распознают и поддерживают Opteron/Athlon 64, как обычный 32-битный процессор.

 ОС Linux:
 • MandrakeSoft
 • Red Hat
 • SuSE
 • UnitedLinux

Все дистрибутивы Linux поддерживают семейство AMD64, но лишь четыре из них уже имеют готовые 64-битные версии. Жаль, что среди них пока отсутствует Debian, поскольку этот дистрибутив является одним из наиболее “нацеленных на энтузиастов” (позволяет очень тонкую настройку).

 Остальные ОС:
 • Free BSD
 • NetBSD
 
Novell
  OpenBSD
  Sun Solaris x86

Sun поддерживает Opteron и Athlon 64 в ОС Solaris x86, 64-битная поддержка, конечно же, пока ограничивается семейством UltraSPARC, но недавно было объявлено что в первом квартале 2004 года появится бета Solaris для AMD64, релиз ожидается в течении года. Как FreeBSD, так и NetBSD портирована на AMD64.

 Корпоративные базы данных:
  Computer Associates
 • IBM DB2
 • MySQL
 • Oracle

Это довольно впечатлающий список, так как Oracle и DB2 вместе составляют большую часть среднего и крупного корпоративного рынка. MySQL является, конечно же, самой популярной базой данных с открытым исходником, и, пожалуй, наиболее популярной базой данных для веб-сайтов. Как это ни странно, но MS SQL Server в этот список пока не вошeл.

 Веб-серверы:
 • Apache
 • Zeus

 
Согласно Netcraft, 64% интернет веб серверов работают на Apache, 24% - на MS IIS, 2% на Zeus и 3.5-4% на Sun One. Большинство HTTP-серверов с открытым кодом вроде AOLserver и т.д., доступны вместе с кодом, поэтому возможно, что они могут быть рекомпилированны в 64-х битную версию с минимумом усилий.
 
 Производители 64-х битных инструментов для разработки и компиляторы:
 • Atlas
 • GNU
 • Blackdown Java 
 • Perl
 • MPICH
 • Compuware
 • MigraTEC(TM)
  NAG
  PGI

.Net Framework от Microsoft под AMD64 находится на стадии разработки. MS Visual C++ уже готов, но, судя по всему, на данный момент в широком доступе отсутствует.

 CAD/CAE:
  Adapco
  Ansoft
  Ansys
  Autodesk
  Bentley
 • CEI
  Fluent
  Landmark
  LSTC
  Parasolid
  Spatial
  Solid Edge
  SolidWorks
  Wai

 EDA:
  Cadence
   Mentor Graphics   
  Synopsis
   Canopus
   Discreet
   Linux Media Arts
  Mental Images
   Newtek
  Adobe Premiere
  Softimage

 Видео:
  Canopus
  Cyberlink
 • DivX
  Intervideo
  Ulead
 
Производители CAD и DCC пакетов поддерживают Athlon 64 и Opteron, но вкладывать время и деньги в 64-х битные версии компании остерегаются. Очевидно, они хотят посмотреть, станет ли платформа AMD64 достаточно распространенной и популярной, чтобы для нее можно было что-либо разрабатывать.

 Игры:
  Epic
 • Valve
 • Crytek
 • SCI

То, что EPIC и Valve разрабтывыют 64-х битные версии своих знаменитых игр, ознаменовало для AMD64 первый шаг на пути к истинно игровой платформе. А Crytek стоит за “Far Cry”, игрой, которая была номинирована как “Лучшая игра выстаки ECTS”.

Криптография есть основа любого безопасного (НТТР) веб-сайта, и является одним из немногих приложений, которые значительно выигрывают от более быстрых 64-х битных процессов из-за большого объема вычислений с целыми числами. Библиотеки RSA, оптимизированные под AMD64, уже доступны.

64-х битные бенчмарки

Нижеследующие тесты были предоставлены AMD. Я выбрал наиболее интересные. Позже мы приведем больше результатов 64-х битных тестов, так как использовать результаты самого производителя не очень-то и интересно. Мы приводим их просто для того, чтобы показать, какие плюсы имеют 64-х битные приложения в различных случаях.

Бенчмарк, основанный на кодировщике DivX, включает в себя как 32-х, так и 64-х битную версию, которые определяют производительность при кодировании несжатого видео кодировщиком DivX, оптимизированным под платформу AMD.

0

Бенчмарк RSA  состоит из набора 32-х и 64-х битных исполняемых файлов, которые измеряют производительность основных криптографических процедур RSA. И 32, и 64 битные исполняемые файлы оптимизированы под AMD64.

1

2

Бенчмарк Mini-GZIP содержит 64-х битное приложение, который измеряет производительность AMD64-оптимизированной версии ZLIB. 32-х битный бенчмарк основан на стандартной (немодифицированной) версии ZLIB.

3

Не стоит обращать много внимания на результаты Р4, прежде следует выяснить, нет ли версий приложений, оптимизированных под Р4.

Интересно, что приложения MiniGzip и RSA демонстрируют удвоение производительности, скорее всего, потому, что они работают с 64-х битными целыми числами. У DES и DivX производительность возросла на 5 и 17 процентов соответственно. Большинство разработчиков, с которыми мы разговаривали, утверждали, что более быстрые 64-х битные операции с целыми числами заметно повлияют на производительность лишь довольно узкого круга задач, в то время как большинство приложений выиграют от увеличения числа РОН. Этот прирост производительности составит 15-30%. Такая оптимизация будет эквивалентна увеличению тактовой частоты процессора с 2,2 ГГц до 2,6-2,8 ГГц.

32-битные приложения на 64 битах

Теперь вернемся к нашим собственным тестам. Какова производительность 32-битных приложений на бета-версии Windows 64? Мы провели быстрый тест на нескольких наших классических бенчмарках.

4

5

Большинство приложений на Windows64 показывают несколько худший результат, нежели на WindowsXP, что, в принципе, естественно, если учесть то, что Windows64 находится на стадии бета-версии, и то, что 32 битным приложениям надо еще проходить через переключение разрядности. К тому же, 64-битный драйвер от NIVIDIA (50.хх) нуждается в доработке.

6

7

8

Мы попробовали еще несколько игр, и все, кроме игр от Х2, “шли” медленнее. Последствия же запуска Wolfenstein Enemy Territory, единственной игры на OpenGL, которую мы пробовали, были и вовсе плачевны. Похоже на то, что часть драйвера OpenGL не готова, потому что, например, Cine2003 выдавала более высокие результаты с программными шейдерами, нежели с аппаратным (программным) OpenGL ускорением.

Cinema 4D Cinebench 2003Athlon 64 FX-51(Windows XP)Athlon 64 FX-51 (Windows 64 bit)
Shading (OpenGL software Lighting)1710237
Shading (OpenGL Hardware Lighting)2964134
Shading (CINEMA 4D)367366

Следует отметить, что аппаратное ускорение не работает вовсе. С хорошим OpenGL-драйвером (как, например, 45.23 на Windows XP) аппаратное ускорение намного быстрее, чем любое программное решение.

Тестируемые конфигурации

Как вы, наверное, уже заметили, мы не протестировали каждый процессор в каждом тесте. Как всегда, было мало времени, а потому иногда, для тестов мы отбирали лишь самые важные процессоры, особенно в синтетических бенчмарках.
 
Чтобы максимизировать частоту разгона, а также для максимальной стабильности, мы использовали память XMS 3700 CAS DDR (DDR400) от Corsair. Настройки видео - 1024x768 @ 32 бит, 85Гц; V-sync был все время отключен.

В некоторых местах этой статьи мы упоминаем об Athlon 64 FX-53, на самом деле это Athlon 64 FX-51 частоте 12х200 МГц (2,4 МГц).
 
 Athlon 64 FX-51
   ASUS SK8N rev. 1.03, BIOS 1002.007, VIDIA nForce3 150
   Legacy PC3200 Registered (2x512 Мбайт) CAS2.5, полный объем памяти 1 Гбайт

 Athlon 64 3200+
   MSI Neo rev. 1.0, BIOS, VIA K8T800
   Corsair PC3200 XMS (DDR-SDRAM) 2x512 Мбайт на частоте 400 МГц CAS (2-3-3-7)
   VIA Hyperion 4.49

 Pentium 4 2,4; 2,8 ГГц C (с Hyperthreading) – 800 МГц FSB     
   AOPEN AX4C-MAX, BIOS 1.10, чипсет i875 “Canterwood” Dual DDR400
   Corsair PC3200 XMS (DDR-SDRAM) 2x512 Мбайт на частоте 400 МГц CAS      (2-3-3-7)
   Чипсет Intel версия (update) 5.09.1012

 Athlon 1400 (T-bird), Athlon XP 2700+ (T-bred) и Athlon 3200+ (Barton)     
   ASUS A7N8 Deluxe nForce 2 rev. 2.0, BIOS версия 1.06
   Corsair PC3200 XMS (DDR-SDRAM) 2x512 Мбайт на частоте 400 МГц CAS      (2-3-3-6)
   Интегрированный APU
   Драйверы NVIDIA nForce 2 2.03
 
 Общие комплектующие     
   Leadtek Geforce FX5900 Ultra 256 Мбайт 
   AC '97 Sound (интегрирован во всех платы) 
   Maxtor 80 Гбайт DiamondMax 740X (7200 об/мин, ATA-100/133)

 ПО
   Драйверы NVIDIA 45.23  (Видео карта) 
   Windows XP Service Pack 1A 
   DirectX 9b

 Хотим поблагодарить перечисленных ниже людей за помощь в написании этой статьи: 
   Дэймон Мазни (Damon Muzny), AMD 
   Кристоф Семке и Маркус Вайнгартер (Kristof Semhke, Markus Weingarter), Intel 
   Марга Цандерс и Анжелика Берден (Marga Zanders, Angelique Berden), MSI 
   Сандра Куо (Sandra Kuo), Aopen 
   Брайан Дель Ризио (Bryan Del Rizio), Nvidia 
   Роберт Пирс (Robert Pearce), Corsair 
   Уилл Тенг и Кэрол Чанг (Will Teng, Carol Chang), ASUS 
   Шарон Тэн (Sharon Tan), BAS computers Netherlands

А теперь, давайте посмотрим на бенчмарки!

Производительность памяти и кэша

Мы не раз отмечали, что современный процессор - ОЧЕНЬ быстрое устройство, большую часть жизни проводящее в ожидании данных из медленной памяти. Потому как лишь малая часть приложений обходится кэшем, даже если они и занимают 512 / 1024 Кбайт. Данными эти гигагерцовые монстры должны питаться очень хорошо, иначе будут вести себя медленно.

Так как же соотносятся системы памяти Pentium 4  и Athlon 64? Мы провели небольшое исследование с использованием ScienceMark 2.0.

9

И Athlon 64, и  FX51 и Pentium4 C, теоретически, имеют доступ к шине памяти, пиковая пропускная способность которой, составляет 6.4 Гбайт/с. Однако, Athlon, имея контроллер памяти, расположенный около ядра, и работающий на частоте ядра, намного более эффективен, нежели Pentium. Athlon 64 FX достигает 84% теоретически возможной пропускной способности, в то время как северный мост i875 лишь 64%. Итого 5.4 Гбайт/с на Athlon, неплохо?

10

Любопытно, но Athlon достиг своей максимальной пропускной способности, используя набор инструкций MMX/SSE, в то время как для кэша L2 P4 предпочтительней “REP MOVSD”. Еще более любопытно то, что Athlon 64 FX-51 является первым  Athlon’оподобным ядром с быстрым L2-кэшем. Те, кто полагает, что большой кэш решает все проблемы связанные с памятью, ошибаются: L2-кэш  Athlon 64 может достигнуть своего максимума лишь будучи обеспечиваем 128-битным контроллером памяти. С 64-битным интерфейсом памяти 128-битный L2-кэш лишь на 16%  быстрей 64-битного L2-кэша Athlon XP. А в паре со 128-битным контроллером - ни много ни мало, аж на 67%. Как мы увидим дальше, это дает большое преимущество при исполнении кода с инструкциями MMX/SSE/3DNow!/SSE-2.

Аналогичный эффект наблюдается и на P4EE 3,2 ГГц: производительность L2-кэша Pentium4 повышается на 6%, когда он  обеспечен потоком данных со стороны L3-кэша.

А что с временем отзыва (латентностью)? Подсистема памяти с малым временем отзыва (малыми задержками) была основным поводом для интеграции контроллера памяти с ядром Opteron/Athlon 64. Ниже приведены результаты, полученные на ScienceMark 2.0 (на массиве объемом 4 Мбайт).

CPU - NorthbridgeLatency - 64 bitLatency - 128 bitLatency - 256 bit
Athlon 64 FX-53 (2.4 GHz) Dual Channel53114117
Athlon 64 FX-51 Dual Channel52115118
Athlon 64 FX-51 Single Channel61116118
Athlon 64 3200+ (Single channel)498386
P4 3.2 GHz EE57224260
P4 3.2 GHz59243247
Athlon 3200+ - Nforce 2 FSB400132179183

Отметим, что наш Athlon 64 FX-53 - НЕ процессор с разогнанной FSB (218 МГц х 11),а разблокированный Athlon 64 FX-51, то есть является ничем иным, как ожидаемым вскоре FX-53.  Используя в качестве примера стандартный северный мост с раздельным процессором и FSB, можно было бы предположить, что время отклика будет примерно, на 9% выше, но правило это на Athlon 64 не работает: время отклика осталось прежним… Это гарантирует пропорциональность роста производительности с ростом тактовой частоты. И все же, настоящий чемпион здесь - Athlon 64 3200+, который обладает латентностью на 30% (!) меньшей, чем Athlon 64 FX-51. Латентность DDR400 для Athlon 64 очень мала, иногда в 3 (!!) раза меньше, чем у конкурента - Pentium 4 3.2 ГГц. Неудивительно, что Intel решил добавить кэш  L3 с типичной суммарной латентностью 33-40 циклов…

Мощность вычислений с плавающей точкой

Мы прогнали тест “BLAS” из ScienceMark 2.0, осуществляющий перемножение матриц из чисел с плавающей точкой. Однако, в отличие от нашего исполняемого файла Linpack, скомпилированного на С, BLAS особенно хорошо оптимизирован для того, чтобы максимально использовать кэш процессора. Таким образом, BLAS позволяет с большой реалистичностью узнать, насколько быстро производится произведение больших матриц на данном процессоре.

Еще более интересно то, что он может может определять производительность при выполнении как чисто инструкций SSE или x87, так и просто инструкций, откомпилированных с языков высокого уровня. Однако, это лишь однопоточный тест, а потому, хоть его и запускают на двухпроцессорных системах, используется при этом только один процессор. Для начала посмотрим на «double precision»:

CPUSSE-2 ScalarSSE-2 VectorCompiledx87 - assembly
Athlon 64 FX-513093309618463112
Athlon 64 3200+2776279516802803
P4 3.4 GHz EE1457405818952187
P4 3.2 GHz EE1379384017932070
P4 3.2 GHz "C"1350367717012015
Athlon 3200+n/an/a15423178

SSE-2 раздел Pentium 4 не очень гибок, когда дело доходит до скалярного SSE-2 (всего один FADD/FMUL за один такт), а потому в этом тесте он показал себя очень плохо.

Но когда наступает очередь «векторного» SSE-2, Pentium 4 нет равных. Намного более высокая тактовая частота позволяет более показать высокую пиковую производительность в операциях с плавающей точкой.

Single precision тоже важен, в основном для игр.

CPUSSE3DNow!Compiled
Athlon 64 FX-51624954631926
Athlon 64 3200+550148571753
P4 3.4 GHz EE7918n/a1787
P4 3.2 GHz EE7488n/a1687
P4 3.2 GHz "C"7274n/a1663
Athlon 3200+394950501542

Та же история: Pentium 4, благодаря высокой тактовой частоте, недосягаем. Отметим, что у Athlon 64 улучшения в SSE-производительности больше, чем у Athlon XP. Штрафы ошибок прогнозирования ветвлений, злейший враг Pentium  4, в этом случае ничего не значат. Следует, однако, заметить, что Athlon 64 FX  в SSE лишь на 17% медленней,  чем Pentium 4 3.2 ГГц, чья частота на 47% выше. А это значит, что ядро Athlon 64 FX все же более эффективно, то есть имеет большую удельную производительность.  “Скомпилированные” же результаты показывают что, если код не был тщательно оптимизирован под SSE, Athlon 64 сильнее. В качестве резюме можно сказать, что у Pentium 4 есть два козыря перед Athlon 64: Hyperthreading, и более производительный SSE-2.

Шахматы: DIEP

Винсент Дипивин (Vincent Diepeveen) - талантливый программист поглощенный шахматами. На всех системах NUMA (Non Uniform Memory Architecture),  будь они на Itanium, Opteron, или на SGI MIPS и SMP-машинах, на двойных AthlonMP и Xeon DP CPU, работает программа Винсента под названием DIEP. DIEP-это очень сложное и очень требовательное к ресурсам приложение. А еще она тоже на 100% “целочисленная” программа.

“Весит” она всего 550 Кб, и была существенно усовершенствована с тех пор, как мы впервые использовали ее в качестве теста для рабочей станции.  Теперь DIEP использует до 350 Мбайт hash-таблиц, а потому результаты тестирования не следует сравнивать с более ранними результатами. Хотя результаты теста в какой-то мере зависят от памяти, в основном, все упирается “чистую” мощность процессора. Мы считаем, что DIEP является хорошим тестом, так как хорошее прогнозирование очень важно для ПО следующего поколения, основанного на продвинутых алгоритмах (например, нейронные сети).

Шахматы - хорошая программа для того, чтобы начать тестировать блок прогнозирования ветвлений (BPU, Branch Prediction Unit) процессора Athlon 64. Мы тестировали раздумья на 13 ходов вперед.

image056.jpg

11

Этот тип ПО - конек Athlon, но искусство Винсента пришло на помощь Pentium 4. Хотя Hyperthreading лишь оттягивает конец Pentium 4: с одним потоком Pentium 4 3.2 ГГц медленней на 33%, но добавьте еще один поток, и Hyperthreading сокращает разрыв до 8%.

ScienceMark

Тим, Алекс и Джулиан сильно облегчили нам работу, предложив ScienceMark более года назад. Тим Уилкенс (Tim Wilkens) теперь работает на AMD, но  ScienceMark для него - лишь хобби, и к тому же, с каждой новой версий он становится все более оптимизирован под SSE и SSE-2 (как и текущее коммерческое ПО), а потому, у нас нет оснований полагать что ScienceMark и AMD как-то связаны.

Так как научным приложениям производительности процессоров всегда мало, мы решили еще раз сравнить несколько процессоров.

Molecular Dynamics- это метод, симулирующий термодинамическое поведение материалов, используя силы, скорости и координаты. Самой важной составляющей здесь является сила. MolDyn симулирует движение  Аргона-216 при температуре 140 градусов Кельвина.

12

Следующей идет Primordia. Цитата из ScienceMark.org: “Эта программа рассчитывает квантово-механические орбитали Хартри-Фока  для любого элемента периодической таблицы. Здесь детально разобраны методы решения этой задачи. Выполняется самосогласованный цикл, на каждом шаге цикла рассчитываются обменные и корреляционные потенциалы. Пользователь имеет возможность выбора конкретного алгоритма для расчета”.

13

В то время как Athlon XP3200+ с некоторым трудом обходит Р4 в этом тесте, там, где особенно помогает мощь тройного FPU, для Athlon 64 FX даже Р4ЕЕ с тактовой частотой 3,2 ГГц - просто котенок.

Шифрование сообщений для безопасного электронного бизнеса и прочих приложений стало крайне важным делом. ScienceMark позволяет также протестировать один из популярных “секретных” алгоритмов: AES.

14

Как видите, ядро Athlon чувствует себя как рыба в воде.

Бенчмарк Plasma

Plasma - наш последний научный тест. Др. Саймон Блэнд (Simon Bland): “Скорость MHD ограничивают операции, связанные с обращением матриц. Матрица состоит из 2,1 миллиона строк и 2,1 миллиона столбцов. Хотя, она разрежена: в ней есть лишь 29 ненулевых диагоналей. Сейчас для решения используется один из итерационных методов. На решения уходит 100 итераций, каждая состоит из 5 матричных множителей. Как мы уже упоминали, мы интенсивно ищем лучшие методы, как одинарные, так и параллельные”.

В основном, производительность этого теста в большой степени зависит от латентности памяти, и не очень - от ее пропускной способности и мощности FPU. Рentium 4 всегда был силен здесь.

15

Я сказал “был силен”, потому что в этот раз Athlon 64 просто оставил всех в пыли за собой - он более чем на 50% быстрее своего старшего брата. Pentium 4 даже и рядом не стоял с новым процессором AMD.

MS Access
 
Называемая многими специалистами ”игрушечной базой данных”,  MS Access, тем не менее, является одной из самых распространенных БД. Если вам не надо обращаться и изменять вашу базу данных вместе с десятками пользователей, MS Access позволяет разрабатывать приложения БД за считанные секунды.
 
Мы не доверяем бенчмаркам, которые запускают смесь офисных приложений, а потом выплевывают какое-то одно число, мы разработали свой собственный тест. MS Access обладает хорошим встроенным таймером, так что мы осуществляем запрос к четырем базам данных (порядка 100 ы000 записей в каждой), и замеряем время, затрачиваемое на обслуживание запроса. Так как в первый раз MS Access загружает БД, мы не учитываем первый запрос, который в большей мере зависит от производительности жесткого диска. После первого прохода БД кэшируются. Затем мы прогоняем тест еще три раза, а затем берем худшее и лучшее время (в секундах).

16

Athlon XP и Pentium 4 рядом, но все же, семейство Athlon 64 опять впереди, пусть и с небольшим отрывом.

3D Studio Max 5.1.

Нашим первым тестом будет наш классический “архитектурный” рендеринг. Мы тестируем эпизод Architecture из бенчмарка SPECapc 3D Studio Max  R4.2. Тест представляет собой движущуюся камеру, показывающую сложное здание - виртуальный осмотр масштабной модели. Этот сложный эпизод содержит не менее 600 000 многоугольников и 7 источников света.

17

В то время как Athlon XP безнадежно отстает от Pentium 4, Athlon 64 FX уступил лишь Pentium 4 Extreme Edition.

Давайте попробуем другой классический тест на 3DSМax. Он основан на модели Ape, она есть на каждом диске с 3DSMax 4. Тест прост – это анимация Аре игровой сценой рендеринга, сильно использующей освещение - не менее 44 источников света. Этот эпизод также содержит сложную обратную кинематику для моделирования движений мышц лица и манипуляции пальцев. Многоугольников относительно мало: всего 26 000. Размывание при движении, одна из функций, оптимизированных под SSE-2, достигается рендерингом сцены в шесть проходов.

18

StudioPC является авторизованным реселлером анимационного ПО 3DSMax от Discreet, специализирущимся на программных и аппаратных решениях для 3D. Studio PC занимается всем, что связано с 3DSMax, от аппаратного обеспечения до программного инструментария… идеальный партнер для нас, чтобы сделать действительно профессиональный бенчмарк.

Фремер (Fremer), совместно с командой Studio PC, взял стандартную демосцену с radiosity из 3DSMax 5.1, и сделал из нее то, что очень похоже на то, с чем имеют дело профессионалы. Они смогли, например, снизить число лучей, попадающих в тень с 45 до 16 миллионов, тем самым ускорив рендеринг без потери реализма. Более 75% времени уходит на radiosity, и StudioPC считает, что radiosity, сцена с большим числом источников света – это как раз то, где профессионалы особенно нуждаются в мощности процессора.

image116.jpg

19

Athlon XP 3200+ безнадежно отстает от Pentium 4 в сценах с radiosity, но Athlon 64 кардинально меняет положение дел: даже Hyperthreading не спас 3,2 гигагерцовый Pentium 4 Extreme Edition от поражения от нового чемпиона AMD.

Cinema4D: Cinebench 2003 (MP) Cinebench основан на программе Cinema 4D от Maxon, производящей моделирование, рендеринг и анимации. Прорисовщик Cinema 4D способен использовать много процессоров, а потому Hyperthrading ему очень помогает. Мы демонстрируем лучшие результаты рендеринга  для всех систем (для Р4 использовались 2 процесса).

20

Pentium 4 C 3.2 ГГц набрал 320 баллов с одним процессом, но Hyperthreading  доводит результат до 380, что пока находится вне досягаемости для ядра AMD.

Pandromedia Mоjoworld Generator
 
Хоть Mojoworld и не относится к массовым приложениям, она обладает графическим IDE для комбинирования уравнений фракталов (fractal equations) и генерирования целых планет, с рельефом и соответствующим освещением. Версия 2.0 содержит опции для мозаичного рендеринга, что позволяет уменьшить ее зависимость от памяти. Мы следовали инструкциям по тестированию от Calyxa.

image121.jpg

21

К сожалению, к тому времени, как к нам  пришли Athlon 64 3200+ и P4 EE, срок лицензии уже истек, но ясно, что генерирование ландшафтов, основанное на фрактальных алгоритмах, на Athlon 64 идет быстрее.

Kribi

Kribi является очень мощным пакетом программного рендеринга. Ее разработал Eric Bron, регулярный посетитель Ace’s Hardware, пакет является одним из продуктов Adept Develeopment. Он поддерживает порядка 10 миллиардов полигонов и умеет проводить фотореалистичный рендеринг в реальном времени. Kribi использует 100% software-рендеринг (то есть это чисто процессорный тест) и не может работать без SSE-инструкций.

Мы протестировали несколько моделей, чтобы определить, оказывает ли та или иная модель сильное влияние на результаты. Первая сцена, City Ultra – самая впечатляющая, содяржащая ни много ни мало 16,7 миллиардов полигонов. Все результаты выражены в кадрах в секунду.

22

23

24

Будучи software-ренедрером, естественным образом выигрывая от наличия многопоточности и SIMD (Single Instruction Multiple Data), Kribi является яркой демострацией мощи Pentium 4. Этот тип приложений, при оптимизации, лучше всего будет работать на высокочастотных многопоточных процессорах. Точка.

Real Time Raytracing

Программные real-time рендереры являются очень хорошими тестами процессоров, и поэтому, даже несмотря на то, мало кто их часто использует, мы проделали тест небольшого "RealStorm Benchmark Final v1.10" чтобы увидет,ь как быстро могут последние модели процессоров отрисоватьсцены трассировки лучей.

Все тесты были проведены в 640х480, тени и отражения включены.

25

Athlon 64 FX сильно быстрей «обычного» Pentium 4, но дополнительный кэш L3 дает P4EE огромный прирост производительности. Тем не менее, если Athlon 64 FX-53 и 3,4 ГГц Р4ЕЕ выйдут на рынок в одно время, FX-53 выиграет у P4 вчистую.

В продолжении вас ждет 15 игровых движков, читайте...