Опубликовано 22 января 2002, 00:33

nForce 420/220: графика

Интегрированный видеоускоритель нового поколения от nVIDIA - тесты и оценка перспектив.
Chip IGP 128

Chip IGP 128

В прошлом месяце мы рассмотрели первую серийную плату на новейшем чипсете NVIDIA nForce 420 (MSI K7N420 Pro) и ее производительность по сравнению с конкурентами в конфигурации с мощным внешним видеоускорителем (см. www.ferra.ru/online/system/14661). Тогда нас интересовали, главным образом, принципиальные моменты, связанные с максимально возможным быстродействием нового чипсета и эффективностью предложенных NVIDIA решений при работе с памятью (например, двухканальная архитектура банков памяти). Вне детального рассмотрения в той статье оказались некоторые другие интересные особенности революционного чипсета — в частности, интегрированный в чипсет видеоускоритель нового поколения и мощный аудиопроцессор Dolby Digital с выводом шестиканального звука. Первому из них мы и посвятим нынешнюю статью.

Платы на чипсете nForce 420/220 уже стали поступать в широкую продажу (например, в Москве сейчас можно найти не только вышеупомянутую MSI K7N420 Pro по цене чуть более $150, но и ASUS A7N266-E долларов на 50 подороже), поэтому если раньше этот чипсет рассматривался нами скорее с теоретических позиций и из любопытства, то теперь можно взглянуть на него и с более практической стороны и посмотреть, насколько выгодным является приобретение сейчас таких плат по отношению к продукции на конкурирующих чипсетах. И здесь основную роль будет играть именно наличие встроенного видеоускорителя (впрочем, хорошего звука тоже), причем значительно более производительного, чем все доселе существовавшие интегрированные решения на чипсетах от конкурентов.

Чтобы лучше понять особенности работы интегрированного в nForce видео, рассмотрим структуру и принципы работы основного («северного») чипа IGP 128 этого чипсета (см. блок-схему). Напомню, что NVIDIA называет северный и южный чипы nForce не «мостами», а полноценными процессорами — Integrated Graphics Processor (IGP) и Media and Communications Processor (MCP) соответственно. То есть северный «процессор» отвечает за работу с памятью, шиной AGP 4X и имеет встроенное графическое ядро, а южный «процессор» обеспечивает всю периферию, включая звуковые и сетевые возможности. Лучшие, чем у предшественников, интеллектуальные способности чипсета nForce призваны частично разгрузить центральный процессор от рутинных задач и тем самым повысить общую производительность системы.

igp-block450

Чип IGP чипсетов NVIDIA nForce 420/220.

igp-block450

Чип IGP чипсетов NVIDIA nForce 420/220.

Главные особенности IGP, которые и придают чипсету черты «революционности» — это два параллельных и фактически независимых 64-разрядных контроллера памяти DDR/SDR (используется технология TwinBank Memory Architecture, похожая на применяемую в видеоускорителе GeForce3) и управляющий ими интеллектуальный блок кэширования DASP (Dynamic Adaptive Speculative Pre-processor), который предсказывает систематические обращения процессора к памяти и уменьшает латентность (задержки) ее работы с пакетами данных. Технология TwinBank Memory Architecture будет работать, когда к обоим контроллерам (каналам MC0 и MC1, см. диаграмму) подключено по отдельному модулю памяти (то есть в плату определенным образом установлено как минимум два модуля памяти, можно разной емкости, см. www.ferra.ru/online/system/14661). По соседству в чипе IGP расположено графическое ядро GeForce2 MX на шине с пропускной способностью 1,5 Гбайт/с (около AGP 8X). Оно является на сегодня самым мощным из интегрированных графических решений (Intel, VIA/S3 и SiS пока могут «попить пивка»).

IGP128 — scheme fragment

IGP128 — scheme fragment

Контроллеры памяти MC0 и MC1 идентичны, равноправны и не зависят друг от друга, то есть, способны обрабатывать запросы одновременно. При этом организуется фактически 128-битный доступ к SDRAM, а пиковая пропускная способность шины памяти возрастает до 4,2 Гбайт/с (при использовании PC2100), то есть вдвое больше по сравнению с остальными DDR-чипсетами, что вкупе с интеллектуальным кэшированием данных из памяти (контроллеры имеют свой буфер на 64 Кбайт) может существенно повысить производительность работы и без взаимного ущерба поставлять данные как для центрального процессора, так и для видеоускорителя. По словам самой NVIDIA, в тестах пиковой пропускной способности памяти эта система процентов на 30 превосходит двухканальный Rambus на соответствующих чипсетах (сравните 4,2 и 3,2 Гбайт/с). А поскольку оба контроллера памяти имеют независимо программируемые параметры таймингов, с ними одновременно можно использовать не только разные по объему, но и разные по скорости модули, и при этом по прежнему будет обеспечена полностью 128-битная система доступа. Чипсет nForce может работать как с DDR, так и с SDR SDRAM (PC133/100), хотя использование последней теперь уже вряд ли целесообразно. Всего поддерживается до трех небуферизованных и не-ЕСС модулей DIMM общим объемом до 1,5 Гбайт. В дополнение, в чипсете имеется модуль пошагового арбитража обращений к памяти, оптимизирующий работу с памятью графического ядра и южного чипа MCP. Этот модуль снижает задержки при одновременных обращениях различных устройств к памяти, что также улучшает общую производительность.

igp-crssbmemarch1

Структура работы IGP-128 чипсета nForce.

igp-crssbmemarch1

Структура работы IGP-128 чипсета nForce.

Подсистема памяти nForce оптимизирована все-таки для работы с 64-битными пакетами данных. В частности, шина процессоров AMD Athlon/Duron именно 64-битна (и имеет пропускную способность 2,1 Гбайт/с). Аналогичную оранизацию имеет и шина интегрированного в чипсет графического процессора на базе GeForce2 MX, а также контроллер 32-битной шины AGP 4X. Более того, чипсет построен таким образом, что независимый и одновременный доступ к обоим контроллерам памяти имеют не только процессор, но и остальные «клиенты» (см. блок-схему) — графический процессор (GPU) на GeForce2, шина AGP 4X и контроллер шины HyperTransport, соединяющей «северный» и «южный» чипы на скорости 400 Мбайт/с в каждом из направлений (против суммарных 266 Мбайт/с для современных «хабовых» систем от Intel и VIA). То есть при многозадачной работе такая система может не испытывать затруднений со скоростью чтения/записи памяти. Причем это может оказаться полезным не только при одновременной работе центрального процессора и видеоускорителя (хотя этот случай наиболее важен и критичен), но и, например, при наличии больших потоков данных от периферии (винчестеров, PCI-карт и т. п.), а также при активной работе встроенного в южный мост мощного аудиопроцессора (способного породить трафик до 150 Мбайт/с) и контроллера 10/100 Mбит Ethernet и HomePNA 2.0. Суммарнный поток от современной периферии может быть более 500 Мбайт/с, см. таблицу 1.

Peripherial Devices Traffic

Таблица 1. Трафик современной периферии.

Peripherial Devices Traffic

Таблица 1. Трафик современной периферии.

Из-за ограничений шины процессора (2,1 Гбайт/с) технология TwinBank Memory Architecture не дает большого прироста производительности в обычных системах с внешним графическим ускорителем (см., например, наши тесты на www.ferra.ru/online/system/14661), хотя некоторый прирост все же есть. Однако при работе с внутренним ускорителем (на что она, главным образом, и ориентирована) преимущества могут быть куда больше (и ниже мы в этом убедимся). Теоретически, такая система (при условии установки более одного модуля памяти) будет иметь отдельные высокоскоростные каналы памяти для CPU и для GPU. Остается побороть задержки (латентность), которые могут быть достаточно велики при одновременной работе двух банков памяти на один источник даже по сравнению с однобанковой системой.

Dynamic Adaptive Speculative Pre-processor (DASP)

Dynamic Adaptive Speculative Pre-processor (DASP)

Повысить производительность чипсета и снизить задержки призван модуль (интеллектуальный блок) кэширования DASP (Dynamic Adaptive Speculative Pre-processor). Анализируя структуру и историю обращений центрального процессора к памяти, он предсказывает систематические обращения к ней процессора, производит предвыборки из памяти, укладывая данные в свой буфер, и уменьшает таким образом латентность (задержки) при работе с пакетами данных, поскольку процессор работает с буфером существенно быстрее, чем с памятью. При этом модуль DASP эксплуатирует неиспользуемую полосу пропускания (перерывы в трафике шины памяти), чтобы заполнить свой буфер предполагаемыми в будущем для чтения данными. Данный кэш используется также для организации опреации записи в память с целью снижения общих задержек в работе. Похожий механизм предсказаний, называемый Data Prefetch, был также реализован ранее в некоторых современных процессорах. Однако в этом случае буфером служит кэш L2 самого процессора, то есть системная шина заведомо снижает скорость работы блока предсказаний. Чипсет nForce свободен от этого недостатка, поскольку буфер для предсказаний (пусть не такой большой, как кэш L2 — всего 64 кбайт) расположен в чипсете и общается напрямую с 128-битным каналом памяти. 

Для такого механизма предсказания задержки в работе могут быть снижены на  40-60%. Вторая таблица иллюстрирует эффективность работы DASP в терминах общей производительности конечного компьютера. Для этого инженеры NVIDIA измерили скорость выполнения некоторых задач на одном и том же чипсете nForce с вколченной и отключенной работой DASP. В интенсивно использующем память приложении StreamD работа DASP приводит к росту скорости в 23-30%, в тестах Sandra 2001 — около 18%, а в интенсивно использующих процессор задачах в Adobe Premiere и Windows Media Encoder — прирост производительности равен 6-9%.

DASP Performance Increase

Таблица 2. Рост производительности при использовании DASP.

DASP Performance Increase

Таблица 2. Рост производительности при использовании DASP.

Наконец, интегрированный графический ускоритель ничего кардинально нового из себя не представляет. По сути это аналог хорошо известного бюджетного, но достаточно высокоскоростного чипа GeForce2 MX с T&L-блоком второго поколения, попиксельными шейдерами, скоростью заполнения до 350 мегапикселей/с и внутренним интерфейсом AGP 8X.

Выпускается чип IGP в двух вариантах: старший IGP 128 имеет оба канала памяти, а у младшего IGP 64 дезактивирован один из контроллеров памяти, то есть пропускная способность шины памяти уменьшится вдвое. Чтобы у IGP 128 работали оба контроллера, необходимо устанавливать на плату по крайней мере два модуля DIMM (их емкость может быть различна), причем один из них должен располагаться в строго определенном слоте (обычно это ближайший к чипсету слот DIMM, отделенный от остальных промежутком, см. фото ниже). В противном случае (например, если два модуля установлены в «дальние» слоты или используется только один модуль) у IGP 128 будет работать только один из каналов памяти, то есть он фактически превратится в IGP 64, и производительность системы снизится. Соответственно этому, чипсеты (и системы) называются по-разному: nForce 420 (c IGP 128) и nForce 220 (с IGP 64). В дополнение к этому NVIDIA недавно выпустила чипсеты без интегрированного графического ядра — nForce 415 и nForce 215 соответственно. Скорее всего, они являются просто отбраковкой первых двух чипсетов, хотя и стоят при этом заметно дешевле — около $30 вместо $45 для двухканальных версий.

MSI K7N420Pro

MSI K7N420Pro

Для тестов производительности интегрированного видео нами была использована плата MSI K7N420 Pro, выполненная на полной версии чипсета nForce 420D (см. www.ferra.ru/online/system/14661). В Award BIOS Setup этой платы для видеопамяти встроенного ускорителя можно выделить от 8 до 32 Мбайт из системной памяти (жаль, что не больше), зато AGP Aperture Size можно расширить как минимум до 512 Мбайт — обычно рекомендуются значения в 64 (по умолчанию) или 128 Мбайт (что надежнее при использовании внешнего 64-мегабайтного ускорителя). Плата оказалась достаточно стабильной в работе как со встроенным ускорителем, так и с внешними картами на GeForce2 и 3, однако во избежание необъяснимой (пока) потери быстродействия мы использовали для тестов только слоты DIMM1 и DIMM3 (DIMM2 не использовался, поскольку только при пустующем слоте DIMM2 плата показывала все, на что способна, см. www.ferra.ru/online/system/14661).

Результаты некоторых тестов производительности приведены на диаграммах. Наши испытания преследовали три основные цели:

1. Выявить, какова разница в выполнении на таком компьютере (со встроенным видео) задач, не связанных с 3D-расчетами и 3D-играми (то есть офисных, веб-дизайнерских, математических расчетах, архивировании, кодировании видео и т.п.), по сравнению с системами на том же чипсете, но внешним производительным видео на шине AGP.

2. Посмотреть, насколько велика разница в 3D-приложениях между интегрированным в чипсет nForce видео и дорогими картами на GeForce2 и GeForce3, то есть, достаточно ли будет скорости встроенного видео непритязательному пользователю для комфортной работы и игр.

3. Выяснить, насколько велико падение производительности систем в целом и встроенного видео в частности при использовании чипсета nForce 220 вместо nForce 420 или однобанковой конфигурации у последнего.

Для этих целей были использованы AGP-видеокарты Suma Platinum GeForce2 GTS и ASUS V8200 Deluxe на GeForce3 (обе с 64 Мбайт DDR-памяти на борту). В качестве центрального процессора выступала популярная сейчас модель AMD Athlon XP 1800+, а системной памятью служило 512 Мбайт в модулях Kingston ValueRAM PC2100 DIMM256 (2 штуки) или DIMM512 (1 штука) для работы двух (420, IGP 128) или одного (220, IGP 64) контроллеров памяти соответственно. Сравнение nForce проводилось с нынешним лидером — чипсетом VIA Apollo KT266A в лице одной из самых быстрых плат SL-75DRV2 от Soltek (см. www.ferra.ru/online/system/14118). Видеокарты были предоставлены компаниями «Никс» (www.nix.ru) и «Пирит» (www.pirit.ru), плата MSI K7N420 Pro — компанией «IPLabs» (www.iplabs.ru), а память — компанией «АК-Цент Микросистемс» (www.ak-cent.ru).

Для обеих материнских плат выставлялись наименьшие из возможных тайминги работы памяти, при которых эти платы функционировали стабильно (обычно — 2-2-2 и т. п.). При этом плата SL-75DRV2 на KT266A показывала скорость, заметно большую, чем большинство других плат на этом чипсете (подробнее об этом читайте в ближайшем обзоре плат на KT266A на нашем сайте). Все тесты проводились под управлением операционной системы MS Windows XP Professional. Для графики чипсета nForce использовались еще достаточно сырые драйвера версии 15.40, для платы Suma Platinum GeForce2 GTS также использовались драйвера этой версии (чтобы обе системы на ядре GeForce2 были в равных условиях), а для платы ASUS V8200 Deluxe на GeForce3 устанавливались более производительные драйвера Detonator версии 21.83. Мы использовали большинство тестов нашего стандартного пакета (см., например, www.ferra.ru/online/system/14788/page2.html).

Прежде всего — о скорости работы памяти. На желтых диаграммах показаны результаты тестов памяти в программах SiSoft Sandra 001 Pro, Cachemem и Science Mark V1.0. По «Сандре» nForce 220 заметно проигрывает старшему брату nForce 420, причем при использовании внешнего ускорителя проигрыш не очень велик (менее 10%), но со встроенным VGA проигрыш просто драматичен — более 20%. Что называется, TwinBank Memory Architecture в действии. Практически тот же расклад — при записи в память в двух других тестах. Однако при чтении памяти есть некоторые интересные отличия — в обеих программах (Cachemem и Science Mark) однобанковый nForce читает быстрее двухбанкового при использовании внешнего ускорителя. Объяснить это можно только меньшими задержками в первом случае (для двух банков требуется время для переключения между ними). И это наглядно видно при непосредственных измерениях задержек в Science Mark — nForce 220 лидирует, почти догнав VIA KT266A. Использование встроенного GPU во всех случаях ведет к снижению скорости работы памяти по сравнению с внешним GPU. Однако если для nForce 420 это снижение не очень существенно (все-таки TwinBank Memory Architecture спасает), то для nForce 220 - велико, хотя латентность при этом почти не отличается. Из-за возросшего трафика памяти со встроенным GPU немного ухудшается латентность при работе CPU с памятью. Посмотрим, как все это скажется на производительности в реальных задачах.

1. Тесты производительности систем в 3D-независимых приложениях.
Тесты быстродействия систем в некоторых деловых, офисных, веб-дизайнерских, научных и мультимедиа задачах показаны на следующих 8 диаграммах. Главное, что бросается в глаза — почти во всех таких тестах (кроме преимущественно процессорных WinZip и WME) системы с внешним ускорителем опережают полностью интегрированное решение. Это заметно даже на таком тесте как CPUmark 99. Причем, как правило, интегрированный nForce 420 немного уступает даже nForce 220 с внешней картой! Исключение — тест ICC из Sysmark 2001 — лишь подтверждает правило. Хотя, справедливости ради нужно отметить, что все же TBMA и DASP приносят свои плоды, и nForce 420 с внутренним ускорителем почти не уступает системам с AGP-картами на большинстве задач. Лишь в очень чувствительном к латентности памяти архиваторе WinRAR 2.90, тесте Video2000 и в офисной работе Sysmark 2001 отрыв последних все-таки чувствуется. Таким образом, отрадно, что системы на встроенном видеоускорителе и nForce 420 прекрасно справляются с 3D-независимыми приложениями и работают здесь почти так же быстро, как самые быстрые системы на VIA KT266A и nForce 420 и внешних суперускорителях GeForce3. А вот nForce 220 со встроенной графикой можно использовать только как соперника (по скорости, но не по цене) платформам на SDRAM. То есть даже в таких задачах "чистый" nForce 220 весьма посредсдвенен. С другой стороны, в сочетании с внешним GPU nForce 220 выглядит почти так же достойно, как и nForce 420, и вполне конкурентоспособен.

2. Тесты производительности систем в 3D-приложениях.
Сравнивая системы по скорости 3D в десяти игровых и профессиональных тестах, можно отметить следующие закономерности. Системы на nForce 420 и nForce 220 с внешним ускорителем GeForce2 между собой практически не отличаются (напомню, что c GeForce3 отличия между ними все же были, хотя и небольшие, см. www.ferra.ru/online/system/14661). Зато со встроенным GPU разница между ними разительна! И составляет от 20 до 40% в зависимости от решаемой задачи. То есть на интегрированном nForce 220 можно ставить жирный крест. С другой стороны, интегрированный nForce 420 не так уж плох в 3D-задачах, особенно при 16-битной цветности. Отстав от полноценной GeForce2 вдвое почти во всех игровых тестах, он оказался почти на уровне в профессиональном 3D-моделировании (пакет SPEC viewperf v6.1.2). Более того, примерно в половине из исследованных здесь игр он демонстрирует неплохую играбельность (количество кадров в секунду при приемлемом качестве картинки) и вполне подойдет нечасто поигрывающим неигроманам. Ну а игроманы и беэ этого захотят купить себе самый навороченный внешний движок.

Подводя итоги, можно сказать, что чипсет NVIDIA nForce при использовании интегрированной графики прекрасно подходит для работы в 3D-независимых приложениях и может здесь соперничать с лучшими "раздельными" системами. Однако при этом необходимо использовать двухбанковую конфигурацию nForce 420, поскольку остальные варианты (nForce 220 или однобанковый nForce 420) с интегрированной графикой дают ощутимый провал в скорости. Более того, первый вариант неплох и в нетребовательных 3D-задачах и играх, тогда как остальные варианты в 3D просто впадают в спячку и категорически не рекомендуются к употреблению. Таким образом, круг пользователей интегрированного варианта nForce достаточно очевиден (игроманам "при средствах" просьба не беспокоиться). Осталось только решить, что дешевле купить — nForce 420 или систему на VIA KT266A + отдельную карту на том же GeForce2 MX. Последняя обойдется нынче не меньше, чем в 150 вечнозеленых (а реально даже за 160-170, если выбирать brand name). То есть платы на nForce 420 не должны зашкаливать примерно за 150, причем им в зачет пойдет еще хороший шестиканальный звук "от Xbox", быстрый и трепетный LAN (как сказало бы "лицо закавказской национальности") и возможность последующего апгрейда по AGP. Более того, при цене чипсета в $45 (в партиях) в принципе возможно со временем довести цену плат на nForce 420 примерно до 120 безусловных единиц. Вот тогда уже все разговоры о его практической целесообразности отпадут.

Желающим же использовать nForce совместно с внешней видеокартой можно рекомендовать дождаться плат на чипсетах nForce 415/215 без интегрированной графики. Будучи дешевле примерно на $20-25, они могут вполне конкурировать с тем же KT266A, а качаственный звук и прогрессивные технологии работы с памятью, которые через некоторое время должны дополнительно отшлифоваться, дадут этим платам дополнительные очки перед конкурентами. Кроме того, через некоторое время планируется выпуск nForce с улучшенным графическим ядром на базе GeForce4 MX. Вот тогда аргументы скептиков должны померкнуть окончательно. И воцарится монополия NVIDIA, если конечно остальные компании не выпустят свои прогрессивные интегрированные чипсеты.