Микроархитектура Intel Sandy Bridge

Автор: Gavric
Дата: 03.01.2011
Все фото статьи
Введение

Каждый раз, когда мы начинаем знакомство с новым семейством интеловских процессоров, речь невольно заходит о стратегии «тик-так». Принципы, определяемые ей, очень просты – компания поочерёдно заменяет либо технологический производственный процесс, либо микроархитектуру. При этом же колебания этого «маятника» происходят с полным периодом примерно два года. Иными словами, если в конце 2008 года Intel запустил микроархитектуру Nehalem, а в начале 2010 – начал производство процессоров Westmere по техпроцессу с нормами 32 нм, то в 2011 году нас ожидает следующий цикл – новая микроархитектура. Эта микроархитектура известна сегодня под кодовым именем Sandy Bridge, и это название давно уже не сходит с первых полос технологических ресурсов – такой она вызывает интерес. Впрочем, в этом нет ничего удивительного, каждый следующий эволюционный виток, претворяемый в жизнь компанией Intel, привносит как существенные изменения в общее строение платформы PC, так и значительный прирост быстродействия. Очевидно, что процессоры с микроархитектурой Sandy Bridge не станут исключением из этого правила, ведь неспроста исполнительный директор корпорации Intel, Пол Отеллини, говорит о том, что эффект от появления этих CPU будет сопоставим с тем скачком, который совершила индустрия при переходе с процессоров 80486 на Intel Pentium.


Учитывая изложенные обстоятельства, информационную поддержку предстоящего анонса мы решили начать заранее. Хорошим началом знакомства с Sandy Bridge станет описание перспективной микроархитектуры с нашими комментариями, в которых мы постараемся указать на то, какими своими чертами она сможет заинтересовать пользователей персональных компьютеров. То есть, основываясь на имеющейся предварительной информации, мы постараемся объяснить, чем будущие процессоры Sandy Bridge должны оказаться привлекательны для покупателей и почему их выхода действительно следует ждать.

Предваряя погружение в технические подробности, нам хотелось бы поделиться соображениями о том, каковы истинные причины столь активного желания Intel заменить имеющуюся микроархитектуру Nehalem. Ведь, как показывает практика, процессоры, базирующиеся на ней, обеспечивают высокую производительность и потому пользуются устойчивым спросом. К тому же и конкурирующий производитель CPU, компания AMD, пока что не может предложить достойного конкурента для Nehalem – существующие процессоры с микроархитектурой Stars работают гораздо медленнее, а до появления на рынке представителей поколения Bulldozer, которые, хочется надеяться, окажутся успешнее своих предшественников, времени ещё предостаточно. Однако, несмотря на это, есть в Nehalem, оказывается, и скрытые недостатки, заставляющие инженеров Intel работать над новыми решениями и без каких-то лежащих на поверхности причин.

Во-первых, это неудобство производства процессоров последнего поколения Westmere, которые строятся на двух заключённых в единой процессорной упаковке полупроводниковых кристаллах, производимых с применением разных техпроцессов. Современный же 32-нм производственный процесс уже достиг того уровня зрелости, что он вполне позволяет изготавливать достаточно сложные монолитные процессорные кристаллы с удовлетворительным выходом годного продукта. То есть, на пути дальнейшей интеграции и усложнения процессорных полупроводниковых кристаллов, выливающейся в конечном итоге в снижении себестоимости, сегодня нет никаких ограничений. Во-вторых, процессоры Nehаlem достигли своего «частотного потолка». То есть, рост тактовых частот для текущей микроархитектуры уже добрался до своего предела, и дальнейший разгон процессоров без выхода тепловыделения и энергопотребления за принятые для современных платформ рамки сильно затруднён. Это значит, что настало время подумать над другими методами увеличения быстродействия, а именно – над микроархитектурными улучшениями.

Таким образом, для Intel предстоящее внедрение микроархитектуры Sandy Bridge – это не слепое удовлетворение собственных амбиций, а вполне прагматичная мера, которая позволяет сделать свои процессоры не только более быстрыми и функционально сложными, но и более рентабельными в производстве.
Общие сведения

То, что Intel намеревается планомерно переносить в процессор функции, реализуемые ранее в наборах логики, стало понятно ещё два с лишним года назад. Первые процессоры с микроархитектурой Nehalem – Bloomfield – обзавелись встроенным контроллером памяти. В следующем поколении, Lynnfield, к контроллеру памяти добавился и контроллер шины PCI Express. Затем, в Clarkdale, в процессоре появилось и встроенное графическое ядро, правда, реализованное отдельным полупроводниковым кристаллом. Sandy Bridge в этой последовательной интеграции ставит финальную точку – в процессорах с новой микроархитектурой в едином чипе будет присутствовать всё сразу: процессорные ядра, графическое ядро, контроллер памяти и контроллер шины PCI Express.


Площадь полупроводниковых кристаллов Sandy Bridge составит примерно 225 кв. мм, то есть, благодаря современному 32-нм технологическому процессу данный кристалл окажется даже меньше, чем кристалл четырёхъядерных процессоров Bloomfield и Lynnfield или шестиядерного Gulftown.

Никаких компромиссов с точки зрения характеристик в Sandy Bridge при этом нет. Общее строение процессоров предполагает наличие двух или четырёх процессорных ядер с поддержкой технологии Hyper-Threading, кэш-памяти третьего уровня объёмом до 8 Мбайт, двухканального контроллера DDR3 памяти, поддержку 16 линий PCI Express 2.0 и присутствие современного DirectX 10.1 графического ядра. То есть, процессоры нового поколения имеют всё необходимое для выступления в разных рыночных сегментах, включая и верхние.

На фоне произошедшей интеграции в Sandy Bridge сделаны значительные улучшения и на более низком уровне. Микроархитектура вычислительных ядер подверглась значительной переработке, они получили целый ряд улучшений, благодаря которым новые процессоры окажутся заметно быстрее своих предшественников даже при работе на одинаковых тактовых частотах. Параллельно были сделаны и усовершенствования, направленные на снижение тепловыделения, так что Sandy Bridge смогут работать и просто на более высоких частотах. Кроме того, на микроархитектурном уровне в процессорах добавились поддержка нового набора векторных инструкций AVX (Advanced Vector Extensions), которые будут полезны для реализации целого ряда мультимедийных, финансовых или научных алгоритмов. Принципиальное отличие AVX от предыдущих наборов векторных инструкций семейства SSE заключается в увеличении разрядности операндов со 128 до 256 бит, так что для многих задач они дадут возможность обрабатывать большие объёмы данных с меньшими затратами. Таким образом, Sandy Bridge можно охарактеризовать как существенный шаг вперёд сразу по нескольким направлениям, что и даёт основания для самых лестных высказываний в адрес этого перспективного продукта.


Запуская в начале следующего года Sandy Bridge, Intel рассчитывает быстро покорить этими процессорами большинство ценовых сегментов. Так, уже в самом начале года будет предложен широкий ассортимент Core i3, Core i5 и Core i7 с новой микроархитектурой, стоимости различных вариантов которых будут лежат в интервале от $100 до $300. А позднее в 2011 году будут представлены и более дешёвые модификации.


По имеющимся данным анонс первой группы представителей семейства Sandy Bridge назначен на 5 января, а начало их продаж – на 9 января. В этот день прайс-лист компании пополнится следующими четырёхъядерными моделями, рассчитанными на десктопы:


Следует заметить, что в дополнение к перечисленным моделям Intel предложит и целый класс мобильных и десктопных энергоэффективных процессоров Sandy Bridge. Акцентируясь на версиях, ориентированных на настольные компьютеры, мы также можем сообщить о нескольких выходящих 5 января Sandy Bridge с типичным тепловыделением 65, 45 и 35 Вт.


Таким образом, единственная ценовая категория, которая пока останется во власти процессоров Nehalem ещё долгое время – это дорогие CPU, где в течение всего следующего года будут продолжать котироваться LGA1366 процессоры Bloomfiled и Gulftown. Их замена может произойти не ранее конца 2011 года, когда Intel подготовит и адаптирует для десктопов свою перспективную серверную платформу LGA2011. Специальные «заряженные» вариации процессоров Sandy Bridge-E, которые будут предлагаться в составе этой платформы, смогут предложить энтузиастам до 8 вычислительных ядер, 16-мегабайтный L3 кэш, четырёхканальный контроллер памяти, 32 линии PCI Express 2.0 и прочие «вкусности», о которых сегодня приходится только мечтать. Однако это – отдалённая перспектива, первая же версия Sandy Bridge станет основой более приземлённой, но всё-таки новой платформы.

Хотя в Sandy Bridge по сравнению с Clarkdale и не появилось никаких принципиально новых узлов, процессоры нового поколения придут на рынок вместе с платформой LGA1155. К сожалению, она не обладает совместимостью с LGA1156, то есть, новые процессоры потребуют использования специальных материнских плат с особенным процессорным гнездом.


Вместе с Sandy Bridge в употребление войдёт и семейство свежих наборов логики, костяком которого станет общеупотребительный чипсет Intel P67 и набор системной логики с поддержкой графики Intel H67. Также как и чипсеты для LGA1156 процессоров, P67 и H67 – предельно просты: после переноса функций северного моста в процессор они состоят из единственной микросхемы – южного моста с достаточно типичным набором характеристик. Помимо совместимости с Sandy Bridge главной особенностью этих новинок станет поддержка двух SATA портов с пропускной способностью 6 Гбит/с.


К сожалению, поддержки USB3 в новых чипсетах нет, но вне всяких сомнений подавляющее большинство LGA1155 материнских плат будет иметь соответствующие порты, реализованные через дополнительные контроллеры. Это же касается и шины PCI – отсутствие соответствующего штатного контроллера в составе новых наборов системной логики вовсе не означает, что традиционные PCI разъёмы исчезнут на материнских платах.

Несмотря на то, что до анонса реальных процессоров с микроархитектурой Sandy Bridge и платформы LGA1155 остаётся ещё некоторое время, имеющаяся информация позволяет сделать и вполне конкретные прогнозы о производительности будущих систем. Так, при сопоставлении между собой процессоров Sandy Bridge и Lynnfield, имеющих одинаковое количество ядер и работающих на одинаковой тактовой частоте, новая микроархитектура выдаёт на 5-10 % более высокое реальное быстродействие.


Производительность по данным inpai.com.cn. Сравнивались
четырёхъядерные процессоры на частоте 3.4 ГГц

При этом энергопотребление процессоров Sandy Bridge оказывается примерно на 20 % ниже, то есть по соотношению «производительность на ватт» новые CPU шагнули далеко вперёд. И, кстати, если учесть, что тактовые частоты моделей Sandy Bridge превосходят частоты равноценных процессоров Lynnfield примерно на 10 %, то можно обобщённо говорить о том, что вся платформа LGA1155 будет быстрее предшествующей платформы LGA1156 как минимум на 25 %. На это число и можно ориентироваться при поверхностной оценке практической ценности новой микроархитектуры, если закрыть глаза на более глубокие усовершенствования типа улучшенного графического ядра и поддержку новых наборов инструкций AES-NI и AVX.
Истоки высокой производительности

Многие микроархитектурные изменения, посредством которых инженерам компании Intel удалось добиться повышения производительности процессоров при снижении их энергопотребления и тепловыделения, по меньшей мере, неожиданны. Дело в том, что Sandy Bridge стал не просто дальнейшим эволюционным развитием Nehalem – в нём нашёл применение целый ряд идей, позаимствованных из, казалось бы, провального проекта Pentium 4. Да-да, хотя микроархитектура NetBurst давно отвергнута Intel из-за её неэкономичности, некоторые функциональные элементы процессоров Pentium 4 теперь можно обнаружить в составе будущих Core i3, Core i5 и Core i7. И особенно иронично, что заимствования из микроархитектуры десятилетней давности, сделанные в Sandy Bridge, служат не только повышению производительности, но и уменьшению тепловыделения.

Существенные изменения в микроархитектуре Sandy Bridge начинаются уже на начальных стадиях конвейера – на этапе декодирования x86 инструкций в более простые процессорные микрооперации. Сам блок декодирования входного потока команд остался таким же, как и в Nehalem – он обеспечивает обработку до 4 инструкций за такт и поддерживает технологии Micro-Fusion и Macro-Fusion, делающие выходной поток инструкций более равномерным с точки зрения сложности его выполнения. Однако в новой микроархитектуре декодированные в процессорные микрокоманды инструкции не просто перенаправляются на следующий этап обработки, они к тому же и кэшируются. Иными словами, в дополнение к обычному 32-килобайтному кэшу инструкций первого уровня, являющемуся атрибутом практически любого x86 процессора, в Sandy Bridge добавлен ещё один добавочный кэш «нулевого уровня» – кэш результатов декодирования. Этот кэш – первая отсылка к микроархитектуре NetBurst, ведь он с точки зрения общих принципов работы – прямой аналог приснопамятного Execution Trace Cache.


Кэш результатов декодирования имеет объём порядка 6 Кбайт и вмещает до полутора тысяч микрокоманд благодаря чему служит существенным подспорьем для декодера. Дело в том, что теперь, если декодер обнаруживает во входном потоке команд находящиеся в кэше уже перетранслированные ранее инструкции, он сразу заменяет их на внутренние микрокоманды без нового декодирования. Наличие кэша результатов декодирования позволяет существенно разгрузить декодер, который является достаточно энергоёмкой частью процессора. Согласно данным Intel, этот дополнительный кэш оказывается полезен примерно в 80 % случаев, что перечёркивает всякие подозрения о его неэффективности. К тому же в образующиеся моменты простоя декодер в Sandy Bridge отключается, что вносит существенный вклад в снижение у этих процессоров энергопотребления.

Второе важное усовершенствование начальных стадий конвейера заключается в улучшении блока предсказания ветвлений. Значение правильной работы этого узла сложно переоценить, ведь каждое неправильное прогнозирование ветвления приводит к необходимости остановки и полного сброса конвейера. В результате, ошибки предсказателя влекут за собой не только снижение производительности, но и необходимость дополнительных затрат энергии для повторного заполнения конвейера. Надо сказать, что в своих последних процессорах Intel сумел добиться очень высокой эффективности данного блока. Однако в Sandy Bridge все буферы, хранящие адреса переходов и их историю, были перепроектированы с целью уплотнения содержащейся в них информации. В результате, без увеличения размеров структур данных, которыми оперирует блок предсказания переходов, Intel удалось добиться сохранения более глубокой истории ветвлений. И это положительным образом сказалось на результативности работы предсказателя, чья результативность напрямую связана с объёмом используемой им статистической информации о выполняемых условных переходах. По имеющимся оценкам, количество правильно прогнозируемых ветвлений выросло в Sandy Bridge по сравнению с предшественником более чем на 5 %.


Но самые интересные изменения затронули блок переупорядочивания инструкций, являющийся ключевым узлом всех Out-of-Order процессоров. Именно тут наиболее сильно прослеживается родство микроархитектуры Sandy Bridge с NetBurst – инженеры Intel вернули в свой новый процессор физический регистровый файл, который в Core и Nehalem был упразднён в пользу централизованного обособленного регистрового файла. Суть произошедших изменений в том, что если ранее при переупорядочивании микрокоманд в буфере сохранялись полные копии используемых ими регистров для каждой обрабатываемой команды, то теперь используются лишь ссылки на значения регистров, хранящиеся в физическом регистровом файле. Этот подход ликвидирует не только лишние пересылки данных, но и устраняет многократное дублирование содержимого регистров, что позволяет сэкономить место в регистровом файле.


В результате, блок внеочередного выполнения команд процессоров Sandy Bridge может держать «в поле зрения» до 168 микроинструкций, в то время как в процессорах Nehalem в буфер переупорядочивания помещалось лишь 128 микрокоманд. Кроме того, достигается и некоторая экономия энергии. Однако замена значений регистров на ссылки на эти значения имеет и отрицательную сторону – исполнительный конвейер приобретает дополнительные стадии, необходимые для разыменования указателей.

Но в случае с Sandy Bridge, по большому счёту, у разработчиков и не было другого выбора. В этом процессоре в обиход вводятся новые AVX-инструкции, оперирующие 256-битными регистрами, многократные пересылки значений которых создавали бы серьёзные накладные расходы. А над тем, чтобы новые команды исполнялись в микроархитектуре Sandy Bridge с хорошей скоростью, инженеры позаботились отдельно. Высокая производительность при работе с ними – это залог их принятия разработчиками программного обеспечения, так как только в этом случае они могут реально увеличить степень параллелизма и пропускную способность в векторных вычислениях.

Сами по себе инструкции AVX – это дальнейшее развитие SSE, расширяющие разрядность типовых векторных SIMD операций на 256-битные операнды. Кроме того, новый набор позволяет проводить операции в недеструктивной форме, то есть, без потери исходных данных в регистрах. Благодаря этим своим свойствам набор инструкций AVX наравне с микроархитектурными улучшениями также можно отнести к нововведениям, направленным на повышение производительности и на экономию энергии, так как их внедрение позволит упростить многие алгоритмы и совершать большее количество работы с использованием меньшего числа команд. Инструкции AVX хорошо подходят для интенсивных вычислений с плавающей точкой в мультимедиа, научных и финансовых задачах.

Для эффективного исполнения 256-битных инструкций исполнительные устройства процессора были подвергнуты специальному редизайну. Суть изменений сводится к тому, что для работы с 256-битными данными 128-битные исполнительные устройства объединяются попарно. А учитывая то, что каждый из трёх исполнительных портов Sandy Bridge (как и Nehalem) имеет устройства для работы одновременно с тремя видами данных – 64-битными, 128-битными целыми или 128-битными вещественными – попарное объединение SIMD устройств в рамках одного порта выглядит вполне естественным и разумным решением. И, что немаловажно, такое перераспределение ресурсов не наносит ущербу общей пропускной способности исполнительного блока процессора.


Ориентация Sandy Bridge на работу с 256-битными векторными инструкциями заставила разработчиков процессора задуматься и над повышением производительности работы функциональных устройств загрузки и выгрузки данных. Три порта для работы с данными, которые были реализованы в Nehalem, перекочевали и в Sandy Bridge. Но для увеличения их коэффициента полезного действия инженеры унифицировали два порта, которые ранее были предназначены для сохранения адресов и загрузки данных. Теперь они стали равноценными и оба могут либо загружать адреса и данные, либо выгружать адреса. Третий же порт остался в неизменном виде и предназначается для сохранения данных. Учитывая, что каждый порт способен пропускать до 16 байт за цикл, суммарная пропускная способность кэша данных первого уровня в новой микроархитектуре возросла на 50 %. В результате, процессоры с микроархитектурой Sandy Bridge могут загружать до 32 байт данных и сохранять 16 байт данных за такт.


Сопоставляя все описанные нововведения, получаем, что микроархитектура вычислительных ядер в процессорах Sandy Bridge изменилась более чем существенно. Привнесённые нововведения, вне всяких сомнений, вполне тянут на то, чтобы эти процессоры действительно можно было отнести не к простой доработке «узких мест» Nehalem, а к достаточно серьёзной переработке.


Новые подходы к интеграции

С разработкой архитектуры Nehalem Intel начал предпринимать реальные шаги в сторону увеличения уровня интеграции своих процессоров. В них стали последовательно переноситься функциональные узлы, ранее являвшиеся прерогативой набора логики: контроллер памяти, контроллер PCI Express, графическое ядро. Также, в процессоре добавился и кэш третьего уровня. Иными словами, процессор стал не просто локальным «вычислительным центром», а сосредоточением большой группы разнородных сложных блоков.


Конечно, такое объединение имеет множество положительных сторон и позволяет поднять производительность за счёт уменьшения задержек при обмене данными. Однако чем больше различных блоков присутствует в процессоре, тем сложнее становится реализация взаимосвязей между ними на электрическом уровне. И наиболее серьёзную проблему в этом ключе представляет соединение разделяемого L3 кэша с процессорными ядрами, особенно в свете перспективы дальнейшего увеличения их количества. Иными словами, работая над микроархитектурой процессоров Sandy Bridge, разработчики были вынуждены серьёзно задуматься об организации удобной схемы взаимодействия между функциональными узлами, находящимися в процессоре. Применявшееся ранее обычное перекрёстное соединение смогло послужить в двух- четырёх- и шестиядерных Nehalem, но для модульного процессорного дизайна с большим количеством различных ядер оно уже не подходит.

Собственно, это уже было учтено в восьмиядерных серверных процессорах Nehalem-EX, где для соединения вычислительных ядер и L3 кэша была использована принципиально новая технология. Эта технология, которая успешно перекочевала и в Sandy Bridge, – кольцевая шина. В перспективных процессорах вычислительные ядра, кэш, графическое ядро и элементы северного моста объединены специальной кольцевой шиной с QPI-подобным протоколом, которая позволила существенно сократить количество внутрипроцессорных соединений, необходимых для маршрутизации сигналов.


Для эффективной реализации взаимодействия функциональных блоков процессора с кэшем третьего уровня посредством кольцевой шины он в процессорах Sandy Bridge делится на равноправные банки объёмом по 2 Мбайта. Исходный дизайн предполагает, что число этих банков соответствует числу процессорных ядер. Но в маркетинговых целях без ущерба для целостности кэша банки могут отключаться от шины, сокращая таким образом общий объём кэш-памяти. Каждый из банков кэш-памяти управляется собственным арбитром, но при этом все они работают в тесном взаимодействии – информация в них не дублируется. Разделение на банки не означает дробления L3 кэша, оно просто позволяет увеличить его пропускную способность, которая в результате масштабируется с ростом количества ядер и, соответственно, банков. Например, учитывая, что ширина «кольца», используемого для пересылок данных, составляет 32 байта, пиковая пропускная способность L3 кэша четырёхъядерного процессора, работающего с частотой 3.4 ГГц составляет 435.2 Гбайт/с.

Кольцевая шина хороша не только своей масштабируемостью при росте количества процессорных ядер. Учитывая, что при обменах информации по «кольцу» используется кратчайший маршрут, снизилась и латентность L3 кэша. Теперь она составляет 26-31 цикл, в то время как L3 кэш Nehalem предлагал латентность 35-40 циклов. Правда, при этом следует учитывать, что вся кэш-память в Sandy Bridge работает на частоте процессора, то есть она стала быстрее и за счёт этого тоже.

Ещё одно преимущество, привнесённое кольцевой шиной, заключается в том, что она позволила подключить к общим путям пересылок данных и интегрированное в процессор графическое ядро. То есть графика в Sandy Bridge работает с памятью не напрямую, а аналогично процессорным ядрам – через кэш-память третьего уровня. Это увеличивает её производительность, а также уменьшает тот ущерб, который встроенная графика способна нанести общей производительности системы, борясь за шину памяти с вычислительными ядрами.
Графическое ядро приобретает новые функции

Появление в процессоре встроенного графического ядра – это не новость, процессоры семейства Clarkdale, обладающие встроенным GPU Intel HD Graphics присутствуют на рынке почти год. Но в Sandy Bridge графическое и вычислительные ядра наконец-то «подружились» окончательно, они находятся на одном полупроводниковом кристалле и соединены общей кольцевой шиной через которую равноправно используют все остальные ресурсы процессора. Такая перестройка архитектуры, приблизившая графическое ядро к контроллеру памяти и отдавшая в его распоряжение все возможности кэша третьего уровня, положительным образом сказалась на производительности. Однако, как и вычислительные ядра, графическое ядро получило и другие важные усовершенствования, благодаря которым оно формально относится к следующему поколению.


В целом, архитектура графического ядра не стала принципиально иной: в его основе лежат всё также 12 исполнительных (шейдерных) процессоров. Однако разработчики смогли почти в два раза увеличить их быстродействие на целом ряде операций, а кроме того, добились улучшения параллелизма в их работе. Благодаря внесённым изменениям к числу характеристик нового графического ядра добавилась и поддержка Shader Model 4.1 и DirectX 10.1.


Так как графическое ядро перебралось на 32-нм полупроводниковый кристалл, появилась возможность и безболезненно увеличить его тактовую частоту, которая сможет доходить до 1.35 ГГц. В результате всех этих действий графика Sandy Bridge в реальных приложениях станет сопоставима по скорости с дискретными видеокартами начального уровня. Intel даже задумался о реализации силами своего перспективного графического ядра полноэкранного сглаживания! Иными словами, Sandy Bridge имеет все шансы стать самым производительным интегрированным графическим решением, которое будет способно попрать позиции дискретных видеокарт в нижнем ценовом диапазоне. Хотя, конечно, AMD и NVIDIA в качестве контраргумента наверняка будут напирать на отсутствие поддержки DirectX 11, которая может пригодиться не только новейшим играм, но и, например, приложениям, задействующим DirectCompute, например, интернет-браузерам завтрашнего дня.

Однако одним лишь совершенствованием имеющейся архитектуры графического ядра дело не ограничилось. В графическую часть Sandy Bridge были добавлены новые специализированные блоки, предназначенные для декодирования и кодирования видеопотока в популярных форматах MPEG2, VC1 и AVC.


Конечно, аппаратным декодированием видео сегодня никого не удивишь, его умеет делать и графическое ядро Clarkdale. Однако раньше эта операция возлагалась на шейдерные процессоры, теперь же ей занимается отдельный функциональный узел. Смысл такого перераспределения ролей – в появившейся совместимости с 3D видео, для нового графического ядра аппаратное декодирование стерео 3D Blu-ray или MVC потока не представляет никакой проблемы.

Ещё более интересным дополнением стал аппаратный кодек, способный кодировать видеопоток в AVC формат. С практической точки зрения это означает, что в графическом ядре Sandy Bridge есть все необходимые ресурсы для выполнения транскодирования видео с высокой производительностью и без загрузки традиционных вычислительных процессорных мощностей. Что, собственно, учитывая широкую распространённость процессоров Intel, наверняка будет с успехом использоваться разработчиками программного обеспечения. Тем более что блоки аппаратного кодирования и декодирования можно будет задействовать и в системах на базе набора логики Intel P67, то есть, использующих внешнюю дискретную графическую карту.


За конкретными примерами далеко ходить не надо: известно, что поддержка новых медийных возможностей Sandy Bridge будет присутствовать в таких популярных продуктах как ArcSoft MediaConverter, Corel DVD Factory, CyberLink MediaEspresso, Movavi Video Converter, Roxio Creator и проч. И, кстати, при использовании мультимедийных блоков графического ядра Sandy Bridge для перекодирования видео остаются свободными от нагрузки шейдерные процессоры, которые никто не мешает подключить к процессу дополнительной обработки видео или к наложению спецэффектов.

В различных моделях процессоров с микроархитектурой Sandy Bridge графическое ядро будет присутствовать в двух вариантах: Intel HD Graphics 2000 и Intel HD Graphics 3000. Разница – в количестве активных исполнительных (шейдерных) процессоров. Старшая модель графического ядра, которая предназначается для мобильных решений и старших процессоров для «настольного» сегмента будет обладать всеми 12 исполнительными блоками, в то время как упрощённая вариация этого ядра, Intel HD Graphics 2000, довольствуется лишь шестью такими блоками. Также, немного ниже у Intel HD Graphics 2000 будет и частота. Но наиболее интересные элементы GPU – аппаратный кодер и декодер – в обеих версиях будут присутствовать в полном объёме.
Северный мост по-новому – системный агент

Нерассмотренным остался лишь один функциональный узел процессоров Sandy Bridge – так называемый системный агент, который объединяет в себе контроллеры внешних интерфейсов процессора: PCI Express, DMI, памяти и дисплейные интерфейсы. Фактически, в лице системного агента мы имеем примерно тоже самое, что в процессорах Nehalem называлось Uncore. Однако системный агент в Sandy Bridge всё же не полный аналог Uncore. Он не включает в себя L3 кэш, который в новой микроархитектуре выступает отдельным функциональным блоком, работающим на частоте процессора. Ещё одно отличие системного агента состоит в том, что обмен данными между ним и процессорными и графическим ядрами, а также с кэшем третьего уровня происходит посредством всё той же кольцевой шины, объединяющей в Sandy Bridge все сущности.


Говоря о нововведениях, имеющихся в системном агенте, в первую очередь хочется сказать о давно желанном усовершенствовании контроллера памяти. В процессорах Westmere (Clarkdale) контроллер памяти, объединённый с графическим ядром, показал себя не с лучшей стороны. В Sandy Bridge этот регресс наконец-то ликвидирован, новый контроллер памяти работает, по меньшей мере, не медленнее, чем контроллер памяти процессоров Lynnfield. При этом контроллером поддерживается двухканальная DDR3 SDRAM: формально – DDR3-1067 или DDR3-1333, но фактически процессоры Sandy Bridge обладают набором множителей, позволяющим тактовать память также и на частотах 1600, 1866 и 2133 МГц.

Представить себе примерный уровень производительности контроллера памяти Sandy Bridge можно, например, по имеющимся результатам теста Aida64.


По данным xfastest.com. Тестирование проводилось на Core i7-2400 с
двухканальной DDR3-1600 памятью с таймингами 7-7-7-21-1T

Латентность подсистемы памяти в системе с процессором Sandy Bridge оказывается сопоставима с латентностью аналогичной платформы с LGA1156 процессорами Core i7. При этом новые CPU однозначно выигрывают по пропускной способности подсистемы памяти.

Контроллер шины PCIE в Sandy Bridge подобен аналогичному контроллеру LGA1156 процессоров. Он поддерживает 16 линий PCI Express 2.0, которые могут группироваться либо в одну шину PCIE 16x, либо в две PCIE 8x. Именно поэтому старая платформа LGA1366 своей актуальности с выходом LGA1155 систем не утратит: она продолжит оставаться единственным вариантом, позволяющим собирать полноскоростные видеоподсистемы, объединяющие по несколько GPU, соединённых шиной PCIE с максимальной пропускной способностью.

Важное изменение произошло и в части поддерживаемых дисплейных интерфейсов. Графическое ядро новых процессоров получит возможность использования HDMI версии 1.4, ключевой особенностью которого является поддержка передачи 3D-изображения.
Управление питанием и разгон

Ещё одна важная часть системного агента Sandy Bridge, помимо контроллеров внешних интерфейсов, это – блок управления питанием PCU (Power Control Unit). Также как и в процессорах Nehalem этот блок представляет собой программируемый микроконтроллер, который собирает информацию о температурах и потребляемом токе различных узлов процессора и имеет возможность интерактивно управлять их частотой и напряжением питания. Силами PCU реализуются как энергосберегающие функции, так и турбо-режим, который в Sandy Bridge получил дальнейшее развитие.

Все функциональные модули, составляющие процессоры Sandy Bridge, разделены в нём на три домена, использующие независимую схему тактования частоты и подключения питания. Первый и основной домен объединяет процессорные ядра и L3 кэш, которые работают на единой частоте и напряжении. Второй домен – это графическое ядро, которое использует собственную частоту. Третий домен – это сам системный агент.


Такое разделение позволило инженерам реализовать работу технологий Enhanced Intel SpeedStep и Turbo Boost одновременно и независимо для графического и процессорных ядер. Подобный подход уже был применён в мобильных процессорах Arrandale, однако там он работал по-простому, через драйвер. В Sandy Bridge же реализовано полностью аппаратное решение, которое управляет частотами вычислительных и графических ядер взаимосвязано, учитывая их текущее потребление. Это позволяет получить более серьёзный реализуемый через турбо-режим разгон процессорных ядер во время простоя графического ядра и наоборот – существенный разгон графического ядра во время неполной загрузки вычислительных ядер. Агрессивность турбо-режима в Sandy Bridge нетрудно оценить по тому, что частота процессора может увеличиваться на четыре шага относительно номинальной частоты, а вариация в частоте графического ядра может достигать и шести-семи шагов.


Однако это далеко не все нововведения в технологии Turbo Boost. Преимущество её новой реализации заключается ещё и в том, что PCU получил возможность управлять частотами более интеллектуально, ориентируясь на реальные температуры процессорных составляющих, а не только на их энергопотребление. Это означает, что в тех случаях, когда процессор работает в благоприятных температурных условиях, его энергопотреблению разрешается выходить за границу, задаваемую TDP.

При типичной повседневной работе процессорная нагрузка носит скачкообразный характер. Большинство времени процессор проводит в энергосберегающих состояниях, а высокая производительность требуется лишь в небольшие промежутки времени. За такие промежутки нагрев процессора не успевает достигнуть сколь-нибудь серьёзных величин – сказывается инерционность, обеспечиваемая теплопроводностью кулера. Управляющий частотами в Sandy Bridge блок PCU справедливо считает, что ничего страшного не произойдёт, если в такие моменты процессор будет разогнан сильнее, чем в теории может позволить величина расчётного тепловыделения. Когда же температура процессора начнёт приближаться к критическим значениям, частота будет снижена до безопасных значений.


Это автоматически выливается в выгодность с точки зрения достижения максимальной производительности использования в системах на базе Sandy Bridge качественного охлаждения. Но не следует обольщаться – максимальная продолжительность работы в состоянии «за гранью TDP» аппаратно ограничена 25 секундами.

Что же касается разгона обычного, выполняемого традиционными методами, то и тут нас ожидают кардинальные перемены, которые вряд ли будут восприняты оверклокерами с энтузиазмом. Корень зла кроется все в том же стремлении к интеграции – в LGA1155 платформах Intel перенёс генератор базовой частоты в набор системной логики. Однако фатальные для традиционного разгона последствия вызвало не это, а то, что генератор частоты стал единственным и он используется для формирования всех частот в системе. Хорошо же переносят разгон, как известно, далеко не все шины и контроллеры. Например, при увеличении частоты шины PCI Express или скорости работы USB или SATA контроллеров нестабильность может наступать очень быстро. И именно этот фактор станет серьёзным препятствием при попытках увеличения частоты центрального процессора посредством разгона генератора базовой частоты.


Фактические данные таковы. Используемая в процессорах Sandy Bridge частота базового тактового генератора установлена в 100 МГц. Генератор сам по себе позволяет варьировать значения этой частоты в очень широких пределах и даже с шагом 0.1 МГц. Однако попытки её повышения очень быстро упираются в нестабильность или неработоспособность системы. Так, нам не известно ни об одном удачном опыте увеличения базовой частоты выше 105 МГц. Иными словами, традиционный и проверенный годами способ разгона через увеличение частоты тактового генератора в системах на базе Sandy Bridge даёт сбой и не позволяет получить разгон, превышающий несерьёзные 5 %.

Так что единственным реально имеющим смысл вариантом разгона перспективных LGA1155-процессоров остаётся увеличение их коэффициента умножения. Среди моделей Sandy Bridge, которые Intel собирается предлагать покупателям, будут выделены специальные продукты, не имеющие заблокированного множителя и способные в теории разгоняться до 5.7 ГГц (57 – это максимальное значение множителя, заложенное в микроархитектуре). Однако такие процессоры, которые будут обозначаться суффиксом «K» в процессорном номере, будут отнесены к верхней ценовой категории и при этом будут стоить немного дороже своих обычных собратьев.

Для пользователей же ординарных моделей CPU будет предложен искусственно ограниченный разгон – такие процессоры также позволят увеличение коэффициента умножения, но не более чем на 4 шага относительно штатного значения. Причём, речь идёт именно о разгоне, изменение множителя никак не повлияет на технологию Turbo Boost, которая в дополнение к такому ручному повышению частоты добавит ещё и своё, автоматическое. Кроме того, во всех своих процессорах Intel не будет ограничивать множители, формирующие частоту работы графического ядра и памяти. То есть, разгон графического ядра и памяти будет доступен в системах с любыми модификациями Sandy Bridge – как оверклокерскими, так и обычными.

Впрочем, оверклокеры вряд ли сочтут это достаточной компенсацией, так что скорее всего их будут интересовать исключительно разблокированные процессоры – Core i5-2500K и Core i7-2600K. Тем более что имеющаяся информация об их частотном потенциале выглядит очень обнадёживающе. Например, существуют подтверждения стабильной работоспособности Core i7-2600K при разгоне и до 5.0 ГГц с воздушным охлаждением.


Данные windwithme, http://itbbs.pconline.com.cn/diy/12120702.html

Описанный результат был достигнут при использовании кулера Prolimatech Mega Shadow Deluxe Edition и повышении напряжения процессорного ядра до 1.45 В. Конечно, такое серьёзное повышение напряжения вряд ли подойдёт для повседневного использования, но мы полагаем, что уж на частотах порядка 4.8 ГГц процессоры Sandy Bridge трудиться в режиме 24/7 определённо смогут.
Подведём итоги

Возвращаясь к началу этой статьи, хочется напомнить, что Intel позиционирует Sandy Bridge как «так» в рамках своей стратегии «тик-так». Это означает, что в понимании производителя этот процессор является носителем новой микроархитектуры. В то же время, рассматривая его строение, мы так и не нашли никаких поражающих воображение принципиально новых идей. Фактически, имеет место лишь множество небольших улучшений, воскрешение старых удачных технологий и дальнейшая интеграция. Обоснованно ли в этом случае говорить о новом поколении процессоров, или же в действительности Sandy Bridge следует рассматривать лишь как эволюционировавший Nehalem?


И здесь у нас нет никаких сомнений – мы полностью солидарны с мнением Intel. Процессоры Sandy Bridge – это прекрасная иллюстрация возникновения нового качества вследствие накопления количественных изменений. Масса нововведений в микроархитектуре вычислительных ядер, добавление поддержки 256-битных инструкций AVX, усовершенствованное графическое ядро, появление аппаратных блоков для кодирования и декодирования видео, новый L3 кэш, кольцевая шина, интеллектуальный системный агент, более агрессивная технология Turbo Boost и возросшие тактовые частоты – всё это по отдельности может и кажется мелочами, но в сумме выдаёт на-гора продукт, улучшившийся принципиально. Причём, его превосходство вполне осязаемо – оно явно прослеживается в том, что Sandy Bridge стали существенно быстрее своих предшественников, оставаясь в рамках того же теплового пакета.

Конечно, говоря «существенно», мы не подразумеваем прирост скорости в разы. Тем не менее, заменяя LGA1156-систему на базе Lynnfield или Clarkdale на аналогичный по стоимости набор из LGA1155 материнской платы и процессора Sandy Bridge можно ожидать как минимум 25-процентного увеличения быстродействия во всех процессорозависимых приложениях.

Однако существуют и отдельные классы задач, где Sandy Bridge окажутся лучше своих предшественников на порядок за счёт новых структурных блоков. В первую очередь значительный прирост быстродействия ожидается во многих утилитах для перекодирования видео, для нужд которых в новых CPU добавлены специальные аппаратные кодеки и декодеры. Также существенно быстрее на новых CPU смогут работать мультимедийные, криптографические, научные или финансовые алгоритмы, привлекающие для своих целей новые наборы инструкций AES-NI и AVX. Конечно, все эти преимущества возможно будет получить лишь при специальной оптимизации программного обеспечения, но, похоже, ждать её слишком долго не придётся, так как инженеры Intel приложили все усилия к тому, чтобы нововведения оказались удобны и для разработчиков.

Большую пользу из новой платформы смогут извлечь и те пользователи, которые собираются задействовать встроенное графическое ядро. По сравнению с прошлой версией Intel HD Graphics оно стало существенно быстрее, что наверняка смогут оценить по достоинству владельцы будущих ноутбуков, основанных на Sandy Bridge и новой платформе Huron River. А в том случае, если новые процессоры планируется использовать в составе домашних компьютеров или HTPC, встроенное графическое ядро порадует поддержкой интерфейса HDMI 1.4, позволяющего передавать на внешние устройства 3D изображение.

В общем, серьёзный минус в Sandy Bridge видится только один – проблемы с разгоном. И если покупатели процессоров верхней ценовой категории смогут, доплатив немного, получить в своё распоряжение дружественный оверклокингу разблокированный процессор, то среди процессоров дешевле $200 таких вариантов не будет. Так что платформа LGA1155 обозначит и ещё одну тенденцию – Intel хочет ограничить возможности разгона недорогих процессоров. Впрочем, вряд ли это сильно ударит по популярности разгона как явления – приверженцев эксплуатации оборудования на пределе возможностей с радостью примет в число своих адептов компания AMD, которая в текущем году должна выпустить свой собственный, не менее эпохальный чем Sandy Bridge, продукт – Bulldozer.