Темы: процессор Core i7

Nehalem: рожденный побеждать

17.11.2008 Иван Жумыга, info@ferra.ru
55
6 ноября 2008 года корпорация Intel официально представила Core i7 – первые процессоры архитектуры Nehalem. Новая линейка CPU принимает эстафету у суперуспешной разработки Intel Core. Оба поколения процессоров будут продаваться параллельно, вплоть до анонса двухъядерников Havendale, использующих микроархитектуру Intel Nehalem и разъем LGA1160.

Потомок королей

Со времен исторического релиза микроархитектуры Core 2 прошло более двух лет. За этот длительный, по меркам IT-индустрии, срок борьба Intel и AMD на рынке мощных настольных процессоров фактически свелась на «нет». Запоздалый выход продуктов AMD Barcelona, их посредственная производительность и высокое тепловыделение решили исход локального сражения в пользу конкурентов.

Логотип Intel Core i7
Логотип Intel Core i7

Выпуск четырехъядерников Core i7 должен закрепить подавляющее преимущество Intel в секторе наиболее производительных решений. Кроме того, с анонсом Core i7 возвращается основательно подзабытая технология Hyper-Threading, обеспечивающая многопоточную обработку данных в пределах одного физического ядра. Этот факт должен побудить разработчиков ПО к дальнейшей оптимизации софта для процессоров с числом ядер больше двух.

Выход Nehalem полностью согласуется с фирменной концепцией Intel: появление новой архитектуры один раз в два года. Так, эра Intel Core 2 началась в июле 2006-го с выпуском процессоров Conroe. Далее последовал переход на 45-нм технологическую норму (семейство Penryn). И вот, с сегодняшнего дня, мы имеем дело с Core i7 – представителями архитектуры Nehalem на ядре Bloomfield.

Эволюция процессоров Intel
Эволюция процессоров Intel

В течение последующих 2-2,5 лет Intel примет на вооружение 32-нанометровый техпроцесс, связанный с приходом Westmere и Sandy Bridge. Впрочем, не будем забегать далеко вперед, а рассмотрим в мельчайших подробностях самые, что ни на есть свежие новинки процессорного рынка.

Читайте ниже о прогрессивном строении процессоров Core i7, особенностях их функционирования и показателях производительности. Также мы непременно упомянем о компонентах новой платформы LGA1366. Так что присаживайтесь поудобнее, будет интересно!

Архитектура

Согласно официальным сведениям первые процессоры Nehalem обладают, по крайней мере, 731 млн. транзисторов, что на 10,7% меньше, чем у «квадов» Penryn Yorkfield. В то же время, площадь кристалла Core i7 увеличена с 214 до 263 мм2.

Архитектурное строение Core i7
Архитектурное строение Core i7

Процессоры Bloomfield имеют нативный четырехъядерный дизайн, тогда как структура их предшественников – Core 2 Quad – представляла собой мультичиповый модуль из пары Core 2 Duo. К числу основных элементов кристалла Core i7 принадлежат четыре физических ядра, разделяемый кэш третьего уровня, встроенный контроллер памяти DDR3 и шина QuickPath Interconnect (QPI).

Каждое из четырех ядер Bloomfield, в свою очередь, распределяется на меньшие блоки:

Устройство каждого ядра
Устройство каждого ядра

Ширина конвейера Core i7 сохранена на уровне 4-х инструкций за такт; при этом значительно расширены буферы резервирования, загрузки, хранения и внеочередного выполнения операций. Эти изменения помогают оптимизировать энергопотребление CPU и более эффективно распараллеливать вычисления.

В отличие от процессоров прошлых поколений, микроархитектура Nehalem предполагает трехуровневую организацию ячеек кэш-памяти. Кэши L1 и L2 выделены индивидуально для каждого ядра, а вот кэш третьего уровня является общим для всех ядер. Впервые подобная концепция была применена в процессорах AMD Phenom X4 Agena.

Организация кэш-памяти
Организация кэш-памяти

Кэш первого уровня, как и у Penryn, составляет 64 КБ: по 32 килобайта для инструкций и данных. Его латентность увеличена с 3 до 4 тактов, что позволяет Bloomfield достичь высоких результирующих частот, жертвуя при этом всего 2-3% производительности. Уровнем выше размещено небольшое (256 КБ) количество унифицированного L2 кэша, суммарный объем которого в 12 (!) раз меньше, чем у топовых представителей Core 2 Extreme. Это позволило разработчикам уменьшить время выполнения одной операции с 15 до 11 тактов и обеспечить должную масштабируемость вычислений.

Основная ставка в Core i7 сделана на кэш-память третьего уровня объемом 8 МБ, который является инклюзивным: он содержит все записи из L1 и L2, таким образом, снижая трафик запросов. Восьмимегабайтный буфер способен хранить большое число, часто используемых ядрами, инструкций. Чем выше загрузка кэша третьего уровня, тем эффективнее проявляет себя Core i7 в мультипоточных приложениях.

С приходом процессоров архитектуры Nehalem возвращается фирменная технология Intel Hyper-Threading (HT), также известная как Simultaneous Multithreading (SMT, технология «одновременной мультипоточности»). Принцип ее работы заключается в распределении операций с данными между двумя виртуальными потоками одного физического ядра. В частности, четырехъядерные модели Core i7 будут функционировать в 8 потоков.

Механизм работы технологии Hyper-Threading
Механизм работы технологии Hyper-Threading

Hyper-Threading позволяет эффективно обрабатывать разнотипные данные в пределах одного ядра. В то же время, интенсивные вычисления схожей природы увеличивают нагрузку на буфер изменения порядка команд (reorder buffer) вследствие соперничества операционных блоков за первоочередной доступ к кэшу. В подобных условиях активация HT приносит мало пользы, а в некоторых игровых приложениях даже приводит к снижению производительности.

Впрочем, основная масса программ положительно реагирует на многопотоковый алгоритм вычислений. Учитывая невысокую себестоимость внедрения Hyper-Threading и приобретенный инженерами Intel опыт, нет повода сомневаться в целесообразности нововведения.

С течением времени все большее количество разработчиков ПО будут адаптировать свою продукцию для процессоров с Simultaneous Multithreading. Уже сейчас список подобных приложений содержит, по крайней мере, полсотни наименований. Мы же приведем самые известные из них:

Категория ПО

Список приложений, оптимизированных под SMT

Игры

THQ Relic Company of Heroes, Sierra World in Conflict: Soviet Assault, EA Flagship Hellgate: London, Crytek Crysis (только в Windows XP), Ubisoft Assassin's Creed, Ubisoft Far Cry 2, Capcom Lost Planet Colonies, Kingsoft Mission Against Terror, Midway/Epic Unreal Tournament 3

Любительские обработчики медиаконтента

Sonic Easy Media Creator 10, Cyberlink Power Director 6 Plus, ProShow Gold 3.2, TMPEGEnc XPress 4.4, Avid Pinnacle Studio 12, Corel DVD Movie Factory 7, Cyberlink Power Producer 5, Cyberlink Power Director 7, Corel Video Studio X2

Профессиональные обработчики медиаконтента

Adobe Photoshop CS3, Adobe After Effects CS4, DivX Codec v6.8, Autodesk 3d Studio Max, POV-Ray 3.7 Beta 23, Maxon Cinema v11, Main Concept Reference Encoder and Decoder v.1.5, 3ivx MPEG 4, Sobey Edit Max 7, Newtek Lightwave v9.5, Sony Vegas v8.0b, Cineform Prospect HD, Thompson Canopus EDIUS Pro 5

Офисные приложения

Microsoft Office Excel 2007, ABBYY FineReader v9.0

В первых процессорах Nehalem нашел применение обновленный до версии 4.2 набор инструкций SSE. Он включает в себя весь перечень потоковых SIMD-расширений v.4.1 плюс семь новых инструкций:

Возможности SSE 4.2
Возможности SSE 4.2

Благодаря SSE 4.2, процессоры Core i7 быстрее обрабатывают XML-код и введенный, с целью распознавания, рукописный текст. Идеально подходят для сложных математических вычислений, как-то: генный анализ, расчет расстояния Хэмминга или моделирование динамики роста населения, а также обладают расширенными коммуникационными возможностями – ускоренной работой с NAS-хранилищами и механизмом экономии электропитания в условиях Software I-SCSI, RDMA и SCTP.

Плавно переходя к описанию платформы Intel LGA1366 в целом, выделим два архитектурных блока, связывающих кристалл процессора с другими компонентами системы, – это QuickPath Interconnect (QPI) и Integrated Memory Controller (IMC).

Появление шины QPI обусловлено недостаточной пропускной способностью прежнего «мостика» между процессором и чипсетом – Front Side Bus (FSB). QPI действует в двунаправленном режиме, позволяя более гибко распределять системные ресурсы. Похожий по назначению интерфейс HyperTransport уже на протяжении нескольких лет используется в платформах AMD.

Функциональная схема QuickPath Interconnect
Функциональная схема QuickPath Interconnect

Один модуль QPI поддерживает 20 линий передачи данных в обоих направлениях со скоростью 6,4 ГТ/с. Суммарная пропускная способность шины – 25,6 гигабайт информации в секунду. Напомним, что в случае с Front Side Bus фигурировала цифра 12,8 ГБ/с, однако такой объем одновременно передаваемых данных был доступен только для чтения или только для записи. Таким образом, интерфейс QPI в 2-3 раза «шире» предшественника и к тому же не обременен взаимодействием с оперативной памятью – для этого есть встроенный контроллер DDR3.

Ядро настольных Core i7 имеет одну шину QPI, а вот в серверных процессорах содержатся два одноименных интерфейса. Один из них, по-прежнему, отвечает за связь с чипсетом, а второй служит «мостиком» между процессорами. В любом случае, производительности QuickPath Interconnect вполне достаточно, чтобы обеспечить жизнедеятельность платформ с несколькими CPU.

Принцип работы QPI в настольных и серверных платформах
Принцип работы QPI в настольных и серверных платформах

Последний важный элемент процессорного кристалла Bloomfield – Integrated Memory Controller (IMC). Напомним, что это первый опыт Intel в переносе управляющих структур памяти из северного моста в тело CPU.

Integrated Memory Controller
Integrated Memory Controller

Дебютное воплощение IMC предлагает трехканальный (192-битный) режим работы оперативной памяти. Поэтому считается, что лучшими наборами модулей RAM для платформы Nehalem LGA1366 станут комплекты DDR3, состоящие из трех планок. Впрочем, предварительные тесты показывают лишь небольшой, 1-5-процентный, прирост производительности при переходе с двух- на трехканальную организацию подсистемы памяти.

В целом, сниженная латентность доступа к RAM, возникшая за счет переноса IMC в тело процессора, дает значительный прирост пропускной способности памяти. Интересно другое: в большинстве приложений DDR3-1066 CL7 ничуть не уступает DDR3-1600 CL8, следовательно, потребность мощных систем в высокочастотных модулях памяти отходит на второй план.

Страница: 12
Комментарии
Вы должны авторизоваться на форуме Ferra.ru для комментирования.
Если же вы новый посетитель, пройдите процедуру регистрации.
Спасибо.
  • Рекомендуем

Тут пока непонятно что

12:54 Комуникаторы Acer. История становления легенды

12:54 Быстро перекодировать видео

12:54 Эфективные програмы для перегонки на мобильный

12:54 Учимся снимать в студии На простых примерах

12:54 Собираем тихий компьютер. Статья для тех, кому надоел шум

12:54 Программы-заменители. Аналоги платного ПО ничуть не хуже

Загружается, подождите...