Темы: процессор память производительность быстродействие

Pentium 4 Northwood: масштабируемость. Часть 2

05.04.2002 Алекс Карабуто, info@ferra.ru
Pentium 4 Northwood: масштабируемость. Часть 2.
Велик ли запас по частоте у Pentium 4? Результаты тестов в приложениях.

Продолжаем начатый ранее разговор о масштабируемости процессоров Intel Pentium 4 на ядре Northwood. В первой части (www.ferra.ru/online/system/16382) нашего обзора масштабируемости мы рассмотрели выход нового процессора Pentium 4 с частотой 2,4 ГГц, основные аспекты, связанные с необходимостью тестирования масштабируемости этих процессоров на различных платформах, особенности участвующих в наших испытаниях стандартных и нестандартных конфигураций, а также результаты их масштабируемости в комплексном тесте BAPCo SYSmark 2001. Если вы не еще читали первую часть, очень рекомендую сначала ознакомиться с ней, поскольку далее в этой (второй) части мы целиком сосредоточимся на рассмотрении результатов масштабируемости процессора и систем в других (многочисленных) тестах и реальных приложениях, не повторяя изложенные в первой части пояснения.

Сначала о простых и не очень математических вычислениях. Традиционно любимый мной, хотя и достаточно старенький тест CPUmark 99 оценивает скорость систем в незатейливых математических расчетах. Тем не менее, это не чисто процессорный тест (как некоторые даже более новые) и он неплохо чувствует резвость подсистемы чипсет/память. Убедиться в полезности оперативного (менее минуты) теста CPUmark 99 при оценке современных систем и платформ можно, например, заглянув на страницу www.ferra.ru/online/system/15900, где проводилось сравнение скорости одной и той же системы (один процессор, память и системная плата) при различных настройках таймингов работы чипсета/памяти в BIOS Setup. Итак, для наших 17 платформ на процессорах Pentium 4 Northwood (см. диаграмму) в тесте CPUmark 99 наблюдается очень хорошая масштабируемость: разница между PC800 и PC2100 практически отсутствует, влияние FSB 533 МГц ничтожно (прямо как в «офисной» части SYSmark 2001) и системы масштабируются строго по прямой (лишь PC133 немного отстает). То есть с простой математикой запас масштабируемости у систем на Northwood отличный. Это и не удивительно, учитывая вместительный полумегабайтный кэш второго уровня для этих процессоров.

CPUmark 99

Science Mark V1.0

Математические тесты.

Более сложные математические расчеты в пакете Science Mark V1.0 показывают не столь однозначный результат. В этом пакете - три основных математических теста, два из которых (судя по моим многочисленным испытаниям) практически не зависят от подсистемы чипсет/память и определяются лишь тактовой частотой и мыслительными способностями CPU. Видимо, основной код этих тестов целиком залезает в кэш-память второго уровня современных процессоров. На диаграмме показан один из этих двух тестов - симулирование методами молекулярной динамики жидкого аргона при температуре 140 градусов Кельвина. По этому тесту наблюдается идеальная масштабируемость всех систем (прямая пропорциональность скорости тактовой частоте CPU) и равенство одночастотных систем с разной памятью (в пределах погрешности). Однако третий тест - численное решения уравнения Шредингера для атома прометия (Atomic RHF) - всегда был весьма чувствителен и к чипсету, и к памяти. Тут уже мы видим и проигрыш PC133, и преимущество PC800 над PC2100, и дивиденды от применения FSB 533 МГц (2% по крайней мере), хотя масштабируемость систем с PC800 и PC2100 достаточно хорошая по меньшей мере до частот процессора 2,8 ГГц. Пока на основе этих математических тестов беспокоиться вроде бы не о чем. Однако не все так безоблачно.

Берем простейшую и популярнейшую математическую задачку - архивирование файлов. Ну, в широчайшей распространенности незатейливых «зипователей» сомневаться не приходится. И тут масштабируемость практически идеальная - как в первом из тестов Science Mark. Зато если копнуть чуть поглубже и применить более продвинутый архиватор, например, популярный среди русскодумающих пользователей WinRAR, положение кардинально изменится. Как мы могли неоднократно убедиться (см. наши тестовые обзоры на www.ferra.ru/online/system/) WinRAR версии 2.90 (последняя официальная небета) с максимальным размером словаря и степенью компрессии очень чувствителен и к скорости чипсета/памяти, и к латентности всех шин между CPU и RAM. Вот тут уже в явном (и порой гипертрофированном) виде вылезают все недостатки систем.

WinRAR 2.90

Graph WinRAR 2.90

Тесты архивирования файлов.

Для простоты анализа на графике под диаграммой архивирования представлена зависимость времени архивирования в WinRAR 2.90 (в обратно пропорциональном масштабе) от частоты CPU. Напомню, при идеальной масштабируемости мы должны были бы наблюдать на этом графике прямые (что мы и сможем увидеть, построив аналогичный график по результатам «зипования»). Однако для «российского» суперархиватора это не так. Во-первых, график для PC133 выходит в насыщение почти сразу и бесповоротно. Больше об этой памяти сказать нечего L. Во-вторых, масштабируемость стандартных систем с PC2100 и PC800 не слишком хорошая: экстраполяция графиков показывает, что проблемы с насыщением скорости из-за памяти могут начаться сразу за порогом 3 ГГц, хотя RDRAM выглядит все же заметно лучше DDR. Зато использование FSB 533 МГц тут способно решить множество проблем (вспомните об уменьшающейся латентности при переходе на более быструю системную шину): системы с PC800 (но FSB 533) начинают показывать идеальную масштабируемость, а системы с DDR резко прибавляют в скорости и догоняют стандартный i850. Можно сказать, что здесь FSB 533 МГц является почти панацеей от болезней прошлого, настоящего и недалекого будущего.

FlasK DivX 4.11 MPEG4 Encoding

Graph WME 7.1

Graph FlasK Encoding

Тесты работы с видео (видеокодирование).

Переходим к скорости кодирования видео. Здесь мы использовали результаты двух кодеров - Windows Media Encoder 7.1 и FlasK 0.6 MPEG4 c DivX 4.11. Оба достаточно популярны. Из диаграммы можно заметить, что с PC800 поведение масштабируемости для обоих кодеров почти одинаково, тогда как со SDRAM (и PC2100, и PC133) FlasK заметно подтормаживает. На двух графиках ниже показана масштабируемость каждого кодера по отдельности. По вертикали отложено время кодирования в обратно пропорциональном масштабе. Для WME практически во всех случаях наблюдается идеальное масштабирование (прямые), разницы между RDRAM и DDR практически нет для всех современных процессоров (хотя для частот выше 2,8 ГГц небольшое отклонение для DDR возможно). Таким образом, WME можно с легкостью отнести к «простой математике», почти залезающей в кэш L2. Зато для FlasK ситуация совсем иная. Конечно, до страстей WinRAR 2.90 он немного не дотягивает, но все же явно видна тенденция к насыщению скорости систем DDR266/FSB=400 выше 3 ГГц, слабый эффект от применения FSB 533 МГц и значительно более сильный - от перехода на DDR333. А еще более быстрая PC800 вообще демонстрирует практически идеальную масштабируемость процессоров даже с FSB 400 МГц. Может все-таки рано Intel полностью отказываться от RDRAM в своих будущих чипсетах, отдавая эту память на откуп SiS и другим?

3Dmark 2001

3Dmark 2000

Graph 3Dmark 2001

Тесты работы с трехмерной графикой в DirectX.

Теперь подробнее о масштабируемости при работе с трехмерной графикой. В частности, в играх. И в DirectX 8 (3DMark 2001), и в более старом DirectX 7 (3DMark 2000 при разной глубине цветности) ситуация с этим примерно одинакова. На графике под двумя диаграммами показан итоговый индекс теста 3DMark 2001. И хотя не совсем понятно, что этот индекс означает и можно ли его предполагать линейно зависимым от частоты CPU в идеальном случае (часть этого индекса, безусловно, можно было бы, поскольку это fsp в игровых фрагментах), и вообще здесь возможно ограничительное влияние трехмерного видеоускорителя, некоторые выводы мы все же попробуем сделать. Во-первых, отставание PC133 катастрофично (для DirectX 7, кстати, оно менее фатально). Во-вторых, небольшая разница в скорости систем на PC800 и PC2100 есть, хотя обе они идут в насыщение по этому индексу для частоты процессора выше 3 ГГц. Другими словами, для систем с процессорами Pentium 4 от 3 ГГц могут потребоваться значительно более мощные видеоускорители (даже в существующих играх), чтобы иметь возможность использовать весь скоростной потенциал CPU (не терять его попусту). Еще одним приятным выводом из этого графика можно считать полезность перехода на FSB 533 МГц: при этом скорость систем со SDRAM существенно возрастет, а системы с RDRAM смогут даже побороться за идеальную масштабируемость (на графике - почти прямая!). Значит, возможно, что дело было вовсе не в слабом графическом адаптере.

Serious Sam Demo

Quake 3

Graph Quake 3

Тесты работы с трехмерной графикой в OpenGL: Serious Sam и Quake III Arena.

При переходе на игровой OpenGL происходят некоторые изменения в выводах. Ситуация в Serious Sam и Quake III Arena похожа (хотя есть и отличия, поскольку для Сэма разница между PC800 и PC2100 мала), поэтому на графике мы покажем только Quake в наинизшем разрешении. Здесь масштабируемость для PC800 и PC2100 неплохая, хотя и не идеальная (влияние 3D-ускорителя при таком разрешении ничтожно, поэтому все выводы почти целиком относятся «к делу»). Однако с ростом частоты отрыв PC800 от PC2100 усиливается, и у последней начнутся проблемы с масштабируемостью выше 3 ГГц, тогда как RDRAM «еще поживет». Переход на FSB 533 МГц здесь безусловно улучшает ситуацию, но не кардинально, и даже PC2700 не способна приблизиться к «старой-доброй» PC800. Наверное, я буду бит камнями, если в очередной раз скажу, что RDRAM рулит. Поздновато спохватываемся. Хотя с другой стороны можно было бы ускорить выход бытовых двухканальных чипсетов для DDR266 (по типу Plumas 533), чтобы положить конец подобным разговорам.

Vulpine GLmark 1.1p

Graph Vulpine GLMark 1.1p

Тесты работы с трехмерной графикой в OpenGL: Vulpine GLMark 1.1p.

Еще один игровой OpenGL-тест, заточенный под фичи третьего ЖеФорса (на котором и гонялись здесь данные тесты), показан ниже. На графике проиллюстрирована масштабируемость системы при низком разрешении (640х480), хотя ограничивающее влияние 3D-GPU здесь вполне возможно, поскольку тест «тяжеловат» по фичам. Видно, что для всех систем есть выход на насыщение выше примерно 2,8 ГГц. Возможно, именно здесь мы можем ощутить потребность в более сильном графическом движке для более быстрых процессоров, хотя разница между PC800 и PC2100 тут достаточно велика и может быть устранена лишь переходом на FSB 533 МГц и DDR333, тогда как для PC800 более быстрая FSB тут практически бесполезна.

В заключение кинем взгляд на результаты тестов профессиональных 3D-расчетов в пакете SPEC viewperf v6.1.2. Как я уже отмечал (см. www.ferra.ru/online/system/15067), с приходом Northwood этот тест подустарел и перестал показывать полезные для нас результаты. В 4-х из 6-ти тестов пакета скорость системы ограничивает 3D-ускоритель, а в оставшихся двух (Light-04 и DX-06) показания не всегда адекватны, так что выводы о масштабируемости систем на их основе сделать нельзя. Пора этой компании задуматься о выпуске нового популярного теста профессиональной трехмерной графики.

SPEC viewperf v6.1.2, tests 2 and 5

SPEC viewperf v6.1.2, tests 3 and 4

Тесты SPEC viewperf v6.1.2.

Какие же краткие выводы можно сделать на основе нашего исследования масштабируемости платформ на Pentium 4 Northwood?

1. Эффект «бутылочного горлышка», то есть ограничения быстродействия всей системы по скорости памяти на данный момент наблюдается только для случая PC133 в некоторых задачах, однако в дальнейшем развитие таких систем крайне нецелесообразно.

2. По скорости систем память PC2100 (на одноканальном чипсете) в ряде приложений (хотя и не во всех) уступает памяти PC800. Эта разница будет становиться все ощутимее при росте частоты CPU (тоже в общем-то очевидный вывод).

3. Для нынешних систем на PC2100 разумный запас масштабируемости систем ограничен частотой процессора в 2,8-3 ГГц. Выше применение DDR266 становится неэффективным, поскольку «гасит» скорость процессора во многих приложениях.

4. В большинстве случаев ситуацию с масштабируемостью DDR-платформ может поправить применение DDR333 совместно с системной шиной 533 МГц (только на чипсетах с малой латентностью, как i845).

5. Для PC800 запас масштабируемости систем еще достаточно хороший. С памятью PC800 системы будут неплохо масштабироваться в большинстве задач по крайней мере до конца «жизни» ядра Northwood, то есть вплоть до частот 3,2-3,5 ГГц.

6. С приходом ядра Prescott (частоты выше 3,2 ГГц) встанет необходимость в применении более быстрых решений для памяти (например, двухканальных DDR-чипсетов типа Plumas 533 или 666), о чем производителям стоит задуматься заранее в виду перспектив апгрейда процессора.

7. Применение FSB 533 МГц совместно с памятью PC800 в большинстве современных случаев не даст ощутимого эффекта (исключение - WinRAR и некоторые трехмерные задачи). Для DDR-систем более быстрая процессорная шина будет более эффективна и способна дать прирост от 2 до 4% в общей производительности системы при неизменной скорости памяти. Это не плохо, хотя и не так много, как можно было бы ожидать при переходе на более быструю память. Будем ждать системы на RDRAM PC1066/1200 и двухканальные чипсеты на DDR - там преимущество от применения FSB 533 МГц должно быть значительно больше.

Комментарии
Вы должны авторизоваться на форуме Ferra.ru для комментирования.
Если же вы новый посетитель, пройдите процедуру регистрации.
Спасибо.
Загружается, подождите...