Опубликовано 07 января 2002, 00:33

Pentium 4 Northwood: пациент пошел на поправку

Свежее ядро процессоров Pentium 4 открывает новые горизонты производительности, а процессор обретет, наконец, подобающее ему достоинство. Исчерпывающие тесты и анализ.

Несколько лет назад, когда в недрах Intel только начинал проектироваться процессор Pentium 4, в его архитектуру было изначально заложено множество полезных нововведений. И процессор поначалу (на бумаге) выглядел очень впечатляюще. Однако по мере приближения проекта к финальному виду, готовому для серийного производства, частью из этих возможностей приходилось жертвовать — то кристалл получался слишком большим и дорогим (для тогдашней технологии), то чрезмерное тепловыделение подводило. В конце концов, до нас дошло… ну в общем, то, что дошло. И в не слишком удачном соперничестве Pentium 4 на ядре Willamette (производимом по технологии 0,18 мкм) с процессорами AMD Athlon отчасти виноваты именно эти упрощения.

Время шло, и Intel освоила технологические нормы 0,13 мкм — сперва для процессоров Pentium III, а теперь мощностей стало хватать и для производства Pentium 4 по этой же технологии. В 2002 году у Intel будет уже шесть фабрик, производящих процессоры по технологии 0,13 мкм, причем две из них (D1C и F11X) будут работать сразу на новых пластинах диаметром 300 миллиметров. Сам по себе переход с 0,18 на 0,13 мкм уже способен удвоить количество чипов на одной пластине, а применение 300-миллиметровых пластин вместо стандартных на нынешний момент 200-миллиметровых увеличивает полезную площадь еще в 2,5 раза. Все это способствует заметному удешевлению процессоров. Кроме того, применение новой технологии производства играет на руку техническим характеристикам процессоров. Так, производимые по 0,13 мкм с медными межсоединениями Pentium 4 на ядре Northwood имеют более низкое напряжение питания (1,5 В вместо 1,75 для 0,18-мкм ядра Willamette) и, значит, меньшее тепловыделение — не более 49,8 Вт TDP для процессоров с тактовой частотой 2,2 ГГц (старшие модели Willamette могут выделять более 70 Вт). Одновременно новые кристаллы могут вмещать в себя больше транзисторов — Northwood их имеет 55 миллионов на чипе площадью 146 кв. мм, тогда как Willamette на 214 кв. мм размещалось всего 42 миллиона. При этом оказалось возможным увеличить, наконец, объем встроенной кэш-памяти второго уровня (L2) — у Northwood он вырос до 512 Кбайт (против 256 Кбайт у Willamette) и содержит более 20 млн. транзисторов. То есть в Northwood компания Intel начинает постепенно возвращаться к тому первоначальному «суперпроекту» Pentium 4, который должен был «потрясти мир».

К сожалению, этим дело пока ограничилось, и никаких других принципиальных нововведений ядро Northwood не содержит. По-прежнему мизерным остался кэш данных первого уровня (L1, 8 Кбайт), из-за чего в ряде задач процессор ведет себя весьма неторопливо. Не изменилась и математическая мощь процессора — урезанные (из первоначального проекта) дополнительные математические конвейеры так и не появились, и в многочисленных тестах простых математических расчетов процессоры Northwood и Willamette с одинаковой тактовой частотой ведут себя совершенно одинаково (чтобы не утяжелять статью бесполезными диаграммами, я эти тесты иллюстрировать не буду). Появившаяся в большинстве последних моделей Willamette «скрытая» поддержка двухпроцессорных конфигураций (On-chip APIC; видимо, чтобы не переделывать ядро для соответствующих процессоров Xeon) осталась и в Northwood (из совершенно одинаковых скриншотов для нескольких процессоров в двух программах WCPUid и TestCPU я приведу только один).

TestCPU, features

TestCPU, features: Northwood и Willamette.

TestCPU, features

TestCPU, features: Northwood и Willamette.

Таким образом, фактически единственное отличие, которое может повлиять на скорость работы процессора, — это вдвое больший кэш L2. Ах да, есть еще одно! Применение новой технологии позволяет существенно повысить предел тактовой частоты процессора — если для Willamette пределом были значения 2–2,2 ГГц, то у Northwood ожидается ее прирост почти в полтора раза, и в перспективе называются цифры до 3 ГГц. Хотя в ближайшем будущем нас ждут более скромные значения — в первом полугодии мы увидим максимум 2,4 ГГц (причем, весьма вероятно, что уже на системной шине 133 МГц), а к концу этого года предельная частота должна перевалить за 2,53 ГГц. Пока же в продажу поступают две модели — на 2 и 2,2 ГГц, причем первая, во избежание путаницы с одночастотным Willamette, будет иметь букву «А»: 2.0A. Кроме того, чуть позже возможно появление моделей Northwood с еще более низкой частотой, которые будут постепенно вытеснять соответствующие модели Willamette (как это сейчас уже происходит с Celeron 1 и 1,1 ГГц).

Удвоение объема кэш-памяти второго уровня — мера очень полезная, особенно в такой системе с длинным конвейером, какой является Pentium 4. Поэтому мы вправе ожидать заметного прироста производительности нового ядра в реальных приложениях, и, возможно, это окажется решающим не только в противостоянии процессоров Intel и AMD, но и поможет сгладить различия в скорости систем с разным типом памяти (RDRAM, DDR SDRAM и SDRAM PC133). Напомню, что производительность Pentium 4 Willamette существенно зависела от типа платформы и применяемой памяти — см., например, наши обзоры www.ferra.ru/online/system/15065 и www.ferra.ru/online/system/14788.

WCPUid

WCPUid: Pentium 4 Northwood 2,2 ГГц.

WCPUid

WCPUid: Pentium 4 Northwood 2,2 ГГц.

Тестирование проводилось по методике, описанной ранее в обзоре www.ferra.ru/online/system/14788. Новый Pentium 4 Northwood с тактовой частотой 2,2 ГГц сравнивался с Pentium 4 Willamette 2 ГГц на трех платформах c памятью RDRAM PC800 (на плате ASUS P4T-E), DDR PC2100 (на плате ASUS P4B266) и SDRAM PC133 (на плате ASUS P4B). Везде использовалось 512 Мбайт системной памяти, поскольку «гонять» на таких «топовых» системах под MS Windows XP Professional различные не всегда «легкие» тесты при объеме памяти всего 256 Мбайт, по всей видимости, было бы не совсем корректно. К сожалению, в бывшем у нас инженерном образце Northwood множитель был зафиксирован, поэтому для сравнения процессоров на одинаковой тактовой частоте упомянутый Pentium 4 Willamette 2 ГГц был установлен на шину 110 МГц (на плате ASUS P4B266 с памятью PC2100), то есть его частота составляла те же 2200 МГц. Небольшое повышение частот шины процессора и памяти при этом могло бы сыграть на руку Willamette, но ниже мы увидим, что получилось на самом деле. Для сравнения была также использована «перспективная» система-фантом «P4 Willamette на шине 133 МГц с памятью DDR333», ставшая чемпионом среди всех систем на базе Willamette (подробности см. в обзоре www.ferra.ru/online/system/15065).

И в дополнение, в качестве своеобразного исследования потенциальных возможностей нового ядра, мы использовали платформу Pentium 4 Northwood 2,75 ГГц (на системной шине 125 МГц) c памятью PC2700 (на частоте 166,7 МГц) на плате ASUS P4B266 (см. скриншот ниже). К сожалению, наш инженерный сэмпл Northwood на более высоких частотах работал нестабильно, но для серийных процессоров порог частоты будет, скорее всего, повыше. Поскольку полоса пропускания процессорной шины на частоте 500(125) МГц существенно выше, чем у памяти PC2700 (4 Гбайт/с против 2,67 Гбайт/с), то с определенной долей достоверности можно считать такую систему аналогом процессора на «стандартной» (в недалеком будущем) частоте шины 533 МГц c памятью DDR333. Таким образом, мы попробуем предугадать производительность систем на Pentium 4 Northwood, которые должны появиться только в самом конце 2002 года.

WCPUid 2750 MHz

WCPUid: Pentium 4 Northwood 2,75 ГГц.

WCPUid 2750 MHz

WCPUid: Pentium 4 Northwood 2,75 ГГц.

Результаты тестов в различных приложениях представлены на диаграммах. Поскольку скорость работы нового процессора с памятью различных типов осталась практически неизменной, результаты тестов памяти здесь опущены (их можно посмотреть, например, в двух вышеупомянутых обзорах). Относительно простой математической производительности — как я уже говорил, она совершенно одинакова для процессоров Northwood и Willamette с одинаковой тактовой частотой (использовались тесты ProcessorMark, TestCPU, CPUMathMark, SiSoft Sandra 001 Pro и некоторые другие). Например, по «Сандре» итоговый математический рейтинг обоих процессоров на частоте 2,2 ГГц составил примерно 2650 единиц (и около 2400 для всех процессоров с частотой 2 ГГц). Идентичные показатели для одночастотных процессоров были и в двух из трех более сложных тестов из пакета Science Mark V1.0 (Simulate Liquid Argon at 140K, см. диаграмму ниже, и при квантово-механических вычислениях энергии молекулы воды). Более того, время конвертации WAV-файла в формат MP3-кодером LAME 3.89 (для различных битрейтов) тоже практически не зависело ни от чего, кроме частоты процессора (диаграммы можно даже не приводить, настолько все однообразно).

Теперь посмотрим, какой непосредственный выигрыш дает увеличенный вдвое кэш L2. Практически во всех тестах, показанных ниже на диаграммах (кстати, в них несложно ориентироваться, поскольку порядок перечисления процессоров и конфигураций везде одинаков), система Willamette 2,2 ГГц c DDR заметно отстает от аналогичной системы на Northwood, даже невзирая на чуть более быстрые шины процессора и памяти у первого (на 10%). Вторая закономерность — разрыв (в процентном соотношении) между платформами с разным типом памяти в некоторых тестах немного сократился для Northwood по сравнению с Willamette. То есть большой кэш процессора иногда «сглаживает» разницу в скорости памяти. Хотя, справедливости ради, надо сказать, что это происходит далеко не всегда, и в примерно половине наших тестов разрыв между платформами с разной памятью остался таким же, как и был с Willamette. Это говорит лишь о том, что на таких задачах даже большой кэш требует постоянного обновления.

Cинтетический тест CPUmark 99 наглядно показывает благотворность большого кэша — Willamette отстал от одночастотного Northwood (с памятью DDR) почти на 5%, а отставание Willamette 2 ГГц составляет аж 13%, то есть 3–5% прироста скорости системы приходятся именно на увеличенный кэш процессора. В тестах SysMark 2001 рост производительности всех систем тоже превышает прирост частоты — те же 5 дополнительных процентов можно смело отнести в зачет кэшу. Системы на Northwood с памятью DDR и RDRAM выглядят просто превосходно, да и с PC133 новичок тоже обходит практически все системы на Willamette на радость поклонникам дешевой памяти. В тесте Atomic RHF Promethium (расчет волновой функции атома) пакета Science Mark (напомню, что этот тест, в отличие от других тестов этого пакета, чувствителен к скорости шин памяти и процессора) прирост скорости тоже больше роста частоты процессора, а влияние медленной памяти (PC133, и вообще скорости памяти) с Northwood менее заметно, чем c Willamette. Другой же тест из этого пакета демонстрирует прирост, равный в точности приросту частоты CPU, а одночастотные Northwood и Willamette считают одинаково быстро.

В тесте Video 2000 (работа с двумерной графикой и видео) рост скорости на новом процессоре не очень заметен, и чувствуется определяющая зависимость скорости работы памяти. Непосредственное кодирование видео во FlasK (MPEG 4 кодеком DivX 4.11) и в Windows Media Encoder 7 отчасти реабилитируют Northwood для видеоприложений — в WME выигрыш достигает 14–15% (4–5% из них — на счет кэша), Willamette 2,2 c DDR проигрывает даже Northwood с PC133, а во FlasK влияние скорости памяти чувствуется сильнее, хотя и не фатально.

Скорость архивирования в WinRAR 2.90 похожа на результаты работы кодера DivX 4.11 — влияние скорости памяти очень сильно, но большой кэш вносит свои несколько дополнительных процентов производительности. «Чисто математическое зипование» выглядит почти как все тесты простой математики, однако и тут Northwood (даже со SDRAM) с запасом одолел Willamette 2,2 ГГц, показав примерно 7-процентный прирост только за счет кэша.

Переходим к тестам трехмерной графики. Игровые DirectX-тесты 3DMark 2001/2000 идут в русле общих закономерностей — «Нортвуд» обходит все «Виламеты» даже с PC133 в 3DMark 2000, да и в DirectX 8 (3DMark 2001) его преимущество ощутимо. «Quake III Arena» вторит остальным — пропасть между PC800 и PC133 неуклонно сокращается, когда используется Northwood, хотя этот тест настолько «любим» разными «оптимизаторами» железа и софта, что к его результатам следует относиться с большой осторожностью и перепроверять на менее «заезженных» движках. В «Серьезном Сэме» и особенно в игровом тесте Vulpine GLMark 1.1 (OpenGL) прирост скорости только за счет кэша Northwood доходит до 10–15%. А в DroneZ Benchmark скорость Northwood с быстрой памятью уже настолько велика, что при нормальных «игровых» разрешениях начинает «упираться» в возможности видеоускорителя. И возникает дилемма — либо использовать почти одинаковые для всех конфигураций данные в комфортных (то есть реальных) для этой игры разрешениях, либо, как и в «Quake III», зашкаливтаь под 300 кадров в секунду на 640х480х«Гадкое качество картинки». Но, скажите, кому (кроме собственно тестеров) нужны такие данные, которые не имеют никакого отношения к реальным условиям игры (которые можно оценить как примерно 100 fps с хорошим качеством картинки)? Или спорт ради спорта? Даешь 1000 кадров в секунду! И повесим сертификат на стенку! Короче, с приходом процессора Northwood пора поднимать вопрос о новых игровых тестах (в частности, OpenGL), которые бы имели больше отношения к реальной игровой ситуации. Вот такие вот теперь будут скорости. Кстати, вышеупомянутые «Serious Sam», Vulpine GLMark и некоторые другие пока не страдают недостатками доселе любимых широкой тестирующей бубликой «Квака» и «Дрона» и, к тому же, прекрасно «чувствуют» слабые места всей системы, включая кэш, шины процессора и памяти.

Вторят этим рассуждениям и результаты пакета тестов SPEC viewperf v6.1.2: с приходом Northwood «все смешалось в доме Облонских», и к двум уже давно «упершимся» в скорость видеокарты тестам AWadvs-04 и ProCDRS-03 теперь начинают присоединяться DRV-07 и MedMCAD-01. Взгляните на соответствующую диаграмму: трем верхним строчкам явно не хватает возможностей GeForce 3, хотя еще совсем недавно все было OK. А два оставшихся теста DX-06 и Light-04 демонстрируют такое странное поведение, что впору упрекать Northwood за общение с «нечистой силой». Хотя проще, конечно, смекнуть, что и всеми любимый, но уже довольно старенький тест SPEC viewperf v6.1.2 с приходом Northwood пора отправлять на покой, а уважаемой компании изобрести OpenGL-тестик поновее на радость широкой общественности.

Подведем краткие итоги. Я догадывался, что появление Northwood способно всколыхнуть сложившиеся в отрасли «устои», но, честно говоря, не ожидал что настолько. Новое ядро старого процессора фактически реабилитирует порядком понукаемый всеми, кому не лень, Pentium 4 и ставит его на вершину каменной пирамиды. Теперь для Intel главное — не затягивать искусственно рост частоты этой линейки процессоров, поскорее перейти на шину FSB 133 МГц (а памяти — на DDR333) и достигнуть предела в 3 ГГц (ну и с ценой не переборщить). Вот тогда даже грядущему 0,13-мкм AMD Athlon XP на ядре Thoroughdred придется напрягать мускулы, чтобы выглядеть достойно. Впрочем, ждать его осталось уже не долго. Тогда и посмотрим.