Введение
Рынок настольных процессоров уже изменился. Сегодня подавляющее большинство реализуемых производителями CPU – это процессоры со встроенным графическим ядром. Именно такие предложения почти полностью оккупировали нижний и средний ценовой сегмент, вынуждая пользователей при построении новой системы получать в нагрузку с процессором и графическую карту. Многим это не нравится, но иного пути нет. Между тем, следует признать, что современные графические ядра, встраиваемые в процессоры, имеют вполне приемлемые для многих целей характеристики и быстродействие. Результатом этого уже стало серьёзное падение популярности бюджетных дискретных видеокарт: процессоры со встроенной графикой в состоянии полностью их заменить. Более того, мы вполне серьёзно можем говорить о способности встраиваемых в процессоры видеоядер воспроизводить современные DirectX 11 игры в FullHD –разрешении. Пока ещё при снижении настроек качества и без эффектов улучшения изображения вроде сглаживания, но зато с приемлемым уровнем количества кадров в секунду.
Впрочем, рынок недорогих графических ускорителей не является основной целью атаки со стороны производителей x86-процессоров, придающих им новые функции. Обе компании, и AMD, и Intel, пришли к выпуску своих интегрированных решений через потребности мобильных систем. Совмещение графических и вычислительных ядер внутри одного полупроводникового кристалла имеет осознанный смысл, если во главу угла ставится миниатюризация платформ, упрощение системы охлаждения и борьба за снижение энергопотребления. Поэтому-то пользователи компактных ноутбуков и планшетных компьютеров вполне довольны имеющимися процессорами с интегрированными ядрами. Тем более, требования к графической производительности в этом случае ниже, так как экраны мобильных систем обычно имеют меньшее разрешение, чем у типовых десктопов.
В настольные же системы процессоры со встроенными видеоядрами пришли в результате унификации разработок, насаждаемой AMD и Intel из-за постепенного падения продаж чисто-десктопных продуктов и взрывного роста популярности разного рода мобильных систем. Ожидать смены подобных тенденций не приходится, поэтому пользователям настольных компьютеров не остаётся ничего иного, кроме как мириться с адаптированными версиями мобильных процессоров, обладающих не только вычислительными, но и графическими ядрами. Хотя, конечно, слово «мириться» передаёт их отношение к последним тенденциям не самым лучшим образом. Наводнившие рынок десктопные процессоры с интегрированной графикой – это всё-таки не собака с пятой ногой. Такие CPU смогли найти своё место в широком диапазоне применений, и речь тут идёт не только об офисных компьютерах или игровых системах начального уровня, но и, например, о целом новом классе домашних систем-медиацентров, используемых для цифровых развлечений и подключаемых к широкоформатным телевизорам.
Кроме того, современные интегрированные процессоры имеют и ещё одно важное свойство, способное обернуться весомым преимуществом в десктопной среде. Они способны использовать заложенные в их графические ядра ресурсы не только для целей построения и вывода изображения, но и для вычислительной работы. Совместными усилиями проектировщиков CPU и разработчиков программного обеспечения гетерогенные вычисления обретают реальное воплощение. Предназначенный для этих целей фреймворк OpenCL получил полную поддержку со стороны всех актуальных встраиваемых графических ядер, а его практическое применение постепенно становится хорошим тоном для многих ресурсоёмких приложений, нацеленных в первую очередь на обработку изображений или видео.
Иными словами, гибридный процессор с интегрированной графикой – это достаточно интересное и перспективное устройство, требующее от пользователей изменений в традиционном подходе. В рамках этого материала мы впервые попытаемся провести разностороннее тестирование таких современных процессоров, способное показать не просто сильные и слабые стороны вычислительных и графических ядер вне зависимости друг от друга, но и особенности гибридного дизайна продуктов разных производителей в целом. Поэтому, данное исследование будет включать не только обыденные тесты вычислительной производительности, но и специфические испытания, выявляющие скорость работы процессоров при параллельных вычислениях с задействованием графических ядер, производительность при кодировании и декодировании видео высокого разрешения, а также быстродействие при игровой нагрузке. Только такой комплексный подход позволит дать всестороннюю оценку современным предложениям, которые принято относить к особому классу APU (Accelerated Processing Unit). Для испытаний же в таких условиях мы взяли самые новые процессоры с интегрированной графикой, предлагаемые обоими производителями в ценовой категории «до $150». То есть, в тестировании будут сопоставлены процессоры AMD Trinity и двухъядерные Intel Ivy Bridge.
Гибридные процессоры AMD Trinity
AMD Trinity – это уже вторая версия APU компании AMD. Первая версия, Llano, выступившая в десктопах в составе платформы Socket FM1, не снискала особенной популярности. Старая микроархитектура вычислительных ядер и, как следствие, их невысокая производительность вкупе с заведомо ограниченной по времени актуальностью самой платформы отталкивали пользователей от выбора APU с дизайном Llano. Новая же модификация APU исправляет все прошлые недостатки. Вычислительная часть процессоров Trinity использует самую современную микроархитектуру из имеющихся в распоряжении AMD, а новой платформе Socket FM2 обещан достаточно продолжительный жизненный цикл.
Как и APU первого поколения, Trinity представляет собой сплотку из трёх составляющих частей, каждая из которых была обновлена. Традиционная процессорная часть получила x86-ядра Piledriver, хорошо знакомые нам по новым AMD FX с дизайном Vishera. Правда, в отличие от своих сородичей, процессоры Trinity могут иметь максимум четыре вычислительных ядра. То есть, они обладают лишь парой двухъядерных модулей, которые, согласно эксплуатируемой AMD концепции, имеют целый набор общих на два ядра узлов: кэш-память, блок выборки инструкций, их декодер и блок операций с плавающей точкой. Это значит, что с точки зрения вычислительной производительности Trinity – это в лучшем случае лишь «половинка» старших AMD FX, однако при этом обладающая всеми преимуществами второго поколения архитектуры Bulldozer.
В то же время, площадь полупроводниковых кристаллов процессоров с дизайном Trinity, производимых по 32-нм техпроцессу, достигает 246 кв. мм, что всего лишь на 22 процента меньше площади восьмиядерных Vishera. Объясняется это тем, что большую часть кристалла Trinity занимает графическое ядро с кодовым именем Devastator. Оно тоже имеет совершенно новую для интегрированных решений AMD архитектуру VLIW4, пришедшую в гибридные процессоры из видеокарт серии Radeon HD 6900. Смена архитектуры, хотя и не увеличила общее количество потоковых процессоров по сравнению с интегрированным видеоядром прошлого поколения, позволила добиться более эффективного их использования и подняла «вычислительную плотность» дизайна на новый уровень. Если принять во внимание, что в максимальной версии Devastator предусмотрено шесть SIMD-движков, каждый из которых состоит из четырёх текстурных блоков и шестнадцати потоковых VLIW4-процессоров, а также то, что в распоряжении Devastator есть 24 блока текстурирования и 8 блоков растровых операций (ROP), то можно заключить, что это графическое ядро представляет собой примерно четвертинку GPU класса Radeon HD 6970 с поправкой на более низкие тактовые частоты.
Третья составная часть Trinity – это встроенный в процессор северный мост, отвечающий за работу с системной памятью. Платформа Socket FM2, созданная AMD специально для гибридных процессоров нового поколения, поддерживает двухканальную DDR3 SDRAM, работающую в режимах вплоть до DDR3-1866. Так как одним и тем же контроллером памяти пользуются одновременно вычислительные и графическое ядра, пропускная способность памяти оказывает существенное влияние на производительность. Однако, с целью экономии транзисторного бюджета и для удешевления производства процессоры Trinity лишены кэш-памяти третьего уровня, которая в данном случае была бы весьма уместна.
Полная линейка APU семейства Trinity включает несколько модификаций, различающиеся не только частотами x86 и графической части, но и разным количеством вычислительных ядер и потоковых процессоров видеоядра. Для тестирования нам удалось собрать их полный набор, перечисленный в следующей таблице.
Заметьте, несмотря на использование в графических ядрах Trinity архитектуры VLIW4, а не GCN, AMD относит их с серии Radeon HD 7000. Обосновывается это как полной совместимостью с современными версиями API DirectX 11, OpenGL 4.1 и OpenCL 1.1, так и наличием в Devastator элементов графических процессоров последних поколений – движком AMD HD Media Accelerator. В итоге, процессоры семейства Trinity могут предложить наилучшие возможности для обработки видео высокого разрешения: аппаратное декодирование распространённых форматов (UVD3) и аппаратное кодирования в формат H.264 (VCE).
Давайте познакомимся с участниками теста несколько подробнее.
AMD A10-5800K
A10-5800K – это флагманская модель в ряду процессоров Trinity. Именно такой APU AMD использует для того, чтобы показывать преимущества своего нового дизайна. А это значит, что в нём присутствует предельно возможное количество вычислительных ядер и потоковых шейдерных процессоров, а все частоты выкручены на максимум с целью получения наивысшей производительности. В итоге, мы получаем четырёхъядерный процессор, построенный на базе двух модулей Piledriver с базовой частотой 3.8 ГГц, способный разгоняться в турбо-режиме до 4.2 ГГц. Его встроенное графическое ядро Radeon HD 7660D располагает при этом 384 потоковыми процессорами и работает на частоте 800 МГц.
При общеупотребительном использовании с активированной технологией Turbo Core такой процессор большинство времени проводит на частоте 4.0 ГГц, лишь в моменты простоя переходя в энергосберегающее состояние и сбрасывая её до 1.4 ГГц. Однако снижается частота и при высокой многопоточной нагрузке, причём не до 3.8 ГГц, как можно было бы подумать, исходя из спецификаций, а до более низкого значения 3.4 ГГц. Это создаёт впечатление, что для A10-5800K производитель декларирует завышенную штатную частоту, и его нескромный по современным меркам тепловой пакет, границы которого установлены 100 Вт, положение совсем не спасает.
Исходя из этого, A10-5800K – это скорее вариант для оверклокерских экспериментов и бенчмарков, нежели для повседневного использования. Тем более что у данного APU разблокированы все множители: это даёт возможность простого наращивания тактовой частоты вычислительных и графического ядер, а также частоты работы системной памяти свыше номинальных значений.
AMD A10-5700
A10-5700 – это старшая версия Trinity «из нормальных». Её типичное тепловыделение ограничивается более приземлённой величиной 65 Вт, что открывает перед этим процессором широкие возможности для применения в относительно компактных и экономичных компьютерах. Правда, ради получения приемлемых величин тепловыделения AMD пришлось существенно порезать частоты. Номинальный режим для A10-5700 – 3.4 ГГц, а в турбо-режиме частота повышается не более чем до 4.0 ГГц. Уменьшена до 760 МГц и частота графического движка Radeon HD 7660D. Однако, несмотря на все эти ограничения, A10-5700 – это всё же абсолютно полноценный Trinity, в котором не отключены ни вычислительные ядра, ни шейдерные процессоры видеоядра. Правда, определённое расстройство вызывает недостаток кэш-памяти третьего уровня, но это – характерная особенность дизайна Trinity. Каждый двухъядерный модуль Piledriver в старших APU этого семейства имеет собственный кэш второго уровня на 2 Мбайт, и, в общем, мы получаем 4 Мбайт на весь чип. Но эта кэш-память относится лишь к вычислительным ядрам и не помогает ни в работе графического движка, ни при совместной работе с общими данными гетерогенных алгоритмов.
Самой распространённой реальной частотой работы A10-5700 является 3.7 ГГц, но под высокой нагрузкой процессор, подобно старшей модификации, «проседает» ниже номинала - до 3.0 ГГц.
Обратите внимание, 65-ваттная модификация старшего варианта Trinity лишена в названии литеры K. Значит, данный процессор разгоняется только увеличением частоты базового генератора. Причём, касается это не только x86-ядер, но встроенной графики и даже DDR3-памяти, спектр доступных режимов для которой ограничивается вариантом DDR3-1866.
AMD A8-5600K
То, что A8-5600K выступает представителем более слабой вариации Trinity, ясно уже из названия. Отличает же серию A8 от старших A10 лишь упрощение графического ядра, в котором выключено два из шести SIMD-движков. В результате, в составе A8-5600K мы получаем видеоускоритель Radeon HD 7560D, обладающий 256 потоковыми процессорами, функционирующими на частоте 760 МГц. При этом строение вычислительной части A8 не отличается от процессоров более высокого класса: в их основе также лежит два двухъядерных модуля Piledriver с кэш памятью второго уровня по 2 Мбайта на каждый модуль. Не сильно уступает A8-5600K от старших собратьев и по частотам. Его базовая частота установлена в 3.6 ГГц, а разгоняться он может до 3.9 ГГц.
В реальности при повседневной нагрузке A8-5600K чаще всего выбирает для себя частоту 3.8 ГГц, но в предельных случаях наблюдаются снижения скорости до 3.2 ГГц. Несмотря на то, что по своим частотам A8-5600K больше похож на A10-5700, нежели на A10-5800K, его тепловой пакет установлен в 100 Вт. Возможно, это связано с оверклокерской направленностью процессора, относящегося к K-серии, разгонять который можно не только увеличением задающей частоты, но и повышением множителей.
AMD A8-5500
Для каждой 100-ваттной модификации Trinity в ассортименте у AMD есть и похожая «рациональная» четырёхъядерная модель с типичным тепловыделением 65 Вт. Для A8-5600K более экономичным напарником выступает A8-5500, повторяющий характеристики старшего сородича во всём, кроме частот вычислительных ядер. Они у 65-ваттной модели A8 установлены в 3.2 ГГц с возможностью авторазгона до 3.7 ГГц. Графика же Radeon HD 7560D у 65-ваттного A8-5500 абсолютно такая же, как и у 100-ваттного A8-5600K: её частота составляет 760 МГц. Так что, как это не удивительно, но урезать значения теплового пакета на 35 процентов в данном случае позволяет уменьшение номинальной частоты x86-ядер всего лишь на 200-400 МГц.
Средней и самой распространённой частотой A8-5500, на которой этот процессор функционирует большинство времени, выступает 3.5 ГГц. Скрываемые же AMD в официальных спецификациях снижения скорости работы под нагрузкой доходят до 2.9 ГГц.
A8-5500 не относится к числу оверклокерских предложений, поэтому все его множители зафиксированы. Разгон вычислительных ядер, графики или памяти в данном случае получится осуществлять лишь через изменение частоты базового тактового генератора.
AMD A6-5400K
Начиная с серии A6 в семействе Trinity обнаруживаются процессоры с, мягко говоря, уполовиненной x86-частью. Например, в основе A6-5400K лежит один модуль Piledriver с двумя ядрами для целочисленных операций и одним блоком для вычислений с плавающей запятой. Причём, урезана в этом случае и ёмкость общего на оба ядра L2-кэша, она составляет всего лишь 1 Мбайт. То есть суммарный объём кэш-памяти второго уровня у этого APU по сравнению с A10 или A8 меньше в четыре раза.
Под нож пошли и графические возможности данной вариации Trinity. Встроенный в A6-5400K видеоакселератор носит наименование Radeon HD 7540D и архитектурно он представляет собой ровно половину от Radeon HD 7660D, фигурирующего в A10.
Не расстраивают характеристики A6-5400K разве только в части частот. Графика использует стандартные 760 МГц, а для вычислительных ядер номинальной частотой указывается 3.6 ГГц, а максимальной, достигаемой посредством технологии Turbo Core, – 3.8 ГГц. Что характерно, в отличие от четырёхъядерных Trinity, A6-5400K уверенно наращивает свою частоту до 3.8 ГГц и не стесняется держать её продолжительное время под нагрузкой. Однако свойственные для всех вариантов APU в Socket FM2-исполнении просадки частоты никуда не исчезли, и при серьёзной вычислительной работе A6-5400K может сбрасывать скорость до 3.2 ГГц.
Трудно сказать, каких оверклокеров может заинтересовать A6-5400K, но эта модель обладает свободными множителями. Можно разве только предположить, что данное свойство было приобретено в пику интеловским Pentium и Celeron, разгону не подверженным вообще. И, кстати, A6-5400K – это единственный оверклокерский Trinity с 65-ваттным тепловым пакетом.
AMD A4-5300
После знакомства с A6-5400K кажется, что кромсать оригинальный дизайн Trinity уже некуда, но пример A4-5300 доказывает, что это далеко не так. Характеристики этого процессора существенно хуже. В нём активирован один двухъядерный модуль Piledriver с урезанным до 1 Мбайта объединённым L2 кэшем, а частота работы вычислительной части установлена в 3.4 ГГц. Турбо-режим поднимает эту частоту всего на 200 МГц, но не это самое страшное. Гораздо хуже, что максимальным поддерживаемым режимом для памяти декларируется DDR3-1600, причём, это не просто строчка в спецификациях. При любых попытках увеличить скорость DDR3 SDRAM выше этой границы, процессор попросту не стартует. Поэтому A4-5300 оказался единственным APU, который нам пришлось протестировать с DDR3-1600, а не более быстрой DDR3-1867 SDRAM.
Ещё более жестоко AMD обошлась с графическим движком. Он в A4-5300 носит наименование Radeon HD 7480D, работает на частоте 723 МГц и обладает лишь 128 потоковыми процессорами. То есть, из шести SIMD-движков, заложенных в изначальном проекте, в A4-5300 работает только два. К счастью, в отличие от Intel, AMD не стала отключать в своём младшем процессоре технологии, направленные на кодирование видео, так что для мультимедийных применений A4-5300 вполне сгодится, тем более его реальное тепловыделение, учитывая скоромные частоты, должно быть весьма умеренным.
В жизни наиболее ходовой частотой A4-5300 оказывается 3.6 ГГц, однако под нагрузкой мы наблюдали и её падение до 3.0 ГГц.
Гибридные процессоры Intel Ivy Bridge
Казалось бы, интеловские процессоры семейства Ivy Bridge изучены уже вдоль и поперёк, однако как к APU мы к ним ещё не подходили. Между тем, появление поддержки OpenCL 1.1 силами графического ядра – это одно из ключевых нововведений данной микроархитектуры. В результате, Ivy Bridge с полным правом можно назвать первым поколением интеловских гибридных процессоров. И хотя сама Intel избегает такой характеристики, поскольку терминология APU введена в употребление конкурирующим производителем, по сути, современные процессоры Intel имеют полное право быть рассмотренными в контексте этого материала.
Подобно Trinity ядро Ivy Bridge содержит три основные составные части: вычислительные x86-ядра, графическое ядро и внеядро – системный агент и интегрированный северный мост. Микроархитектура вычислительных ядер, количество которых в составе процессора может доходить до четырёх, представляют собой следующий, но не слишком большой шаг в развитии фирменного дизайна Core. По сравнению x86- ядрами предшествующего поколения Sandy Bridge изменения минимальны и обусловлены главным образом переводом производственной технологии на 22-нм нормы. Тем не менее, с точки зрения традиционно процессорного быстродействия к современным продуктам Intel трудно предъявить какие-либо претензии. Оно существенно выше, чем у конкурирующих предложений. Обуславливается это в первую очередь тем, что вычислительные ядра Ivy Bridge – абсолютно полноценные и самостоятельные блоки. Они не делят со своими соседями никакие функциональные узлы и даже способны выполнять по два вычислительных потока одновременно благодаря технологии Hyper-Threading.
В силу высокой мощности вычислительных ядер современных процессоров Intel, с APU компании AMD мы будем сравнить только двухъядерных представителей семейства Ivy Bridge. Их четырёхъядерные модификации принципиально превосходят Trinity как по скорости работы, так и по цене, а потому они должны рассматриваться отдельно, причём, скорее всего, в составе систем высокого класса, оснащённых дискретными видеокартами. В то же время подобное сужение сферы нашего внимания не сказывается на полноте рассмотрения интеловских графических ядер: среди двухъядерных Ivy Bridge есть модели со всеми доступными вариантами Intel HD Graphics.
И это очень кстати, так как новое поколение графики, внедрённое в Ivy Bridge, отличается от прошлых версий кардинально, позволяя противопоставлять недорогие LGA 1155-процессоры конкурирующим APU с дизайном Trinity без каких-либо оговорок. И в этом ключе главным достижением следует считать соответствие новых модификаций HD Graphics требованиям API DirectX 11, OpenGL 3.1 и OpenCL 1.1, то есть их способность работать с любыми современными 3D и вычислительными алгоритмами. Кроме того, в своих процессорах Ivy Bridge Intel добилась почти двукратного роста производительности видеоядра, которое получило до 16 исполнительных устройств с увеличенной пропускной способностью.
Впрочем, основоположница идеологии APU, компания AMD, делает на GPU в составе своих процессоров явно больший акцент. Если у Intel графическое ядро занимает примерно 30 процентов от полной площади полупроводникового кристалла с четырьмя вычислительными ядрами, то в полупроводниковых устройствах с дизайном Trinity на графику отводится более 45 процентов площади. Однако разработчики Intel, как и их коллеги из AMD, прекрасно понимают, что современные видеоядра должны быть способны на большее, нежели построение и вывод на экран изображений. Поэтому, в ядрах семейства HD Graphics успешно развиваются не только конвейер рендеринга, но и аппаратный декодер видео высокого разрешения, а также технология Quick Sync, предлагающая аппаратное кодирование видео в формат H.264.
Меньший, нежели у Trinity, акцент на графическом ядре в процессорах Ivy Bridge частично компенсируется повышенным вниманием разработчиков к процессорному северному мосту. Учитывая, что производительность встроенной графики зачастую ограничивается недостаточно высокой скоростью обмена данными с памятью, графическое ядро было подключено к общей внутрипроцессорной кольцевой шине. Это значит, что при общении с системной памятью оно не только обрело равные с вычислительными ядрами права, но и получило полноправный доступ к быстрому L3-кэшу, который является неотъемлемой частью всех производительных процессоров Intel.
В рамках этого материала мы протестировали четыре разных модификации Ivy Bridge, попадающие в ту же ценовую категорию, к которой принадлежат и процессоры Trinity. Это младшие Core i3 с различными версиями графического ядра HD Graphics 4000 и HD Graphics 2500, а также процессоры Pentium и Celeron, графика которых носит наименование HD Graphics без числового индекса, но, тем не менее, обладает абсолютно аналогичной архитектурой. Базовые характеристики этих моделей CPU представлены в таблице.
От базовых характеристик перейдём к подробностям.
Core i3-3225
Хотя Core i3-3225 – это отнюдь не старший процессор серии Core i3, в сегодняшнем обзоре он выступает самым быстрым интеловским представителем. Дело тут как в позиционировании: Core i3-3225 по своей цене наиболее близок к AMD A10-5800K, так и в том, что среди всех Core i3 похвастать продвинутой версией графического ядра HD Graphics 4000 может исключительно данная модификация.
С традиционно-процессорной точки зрения Core i3-3225 – это двухъядерный CPU с поддержкой технологии Hyper-Threading, базирующийся на микроархитектуре Ivy Bridge. Его тактовая частота установлена в 3.4 ГГц, причём технология Turbo Boost для вычислительных ядер не поддерживается, так что это – предельная скорость данного CPU. Минимальная же частота, на которой процессор пребывает в состояниях с низкой нагрузкой, составляет 1.6 ГГц. Объём общей на оба x86-ядра кэш-памяти третьего уровня у всех процессоров Core i3 установлен в 3 Мбайта, и Core i3-3225 здесь не исключение. Входящее в состав Core i3-3225 графическое ядро Intel HD Graphics 4000 – максимально производительная версия, оснащённая 16 исполнительными устройствами. Частота этого ядра – 1.05 ГГц, что всего лишь на 100 МГц ниже скорости аналогичной графики старших четырёхъядерных процессоров Ivy Bridge.
Производство современных процессоров у компании Intel давно переведено на 22-нм нормы, поэтому тепловой пакет Core i3-3225 установлен в весьма скромные 55 Вт, и с точки зрения экономичности он смотрится явно лучше старших Trinity. Косвенным подтверждением этого выступает рабочее напряжение на уровне 1.0 В, в то время как у Socket FM2 процессоров можно было наблюдать почти в полтора раза большие величины.
В то же время, в отличие от процессоров конкурента, у серии Core i3 не поддерживается разгон процессорных ядер как изменением множителя, так и увеличением формирующей частоты. Но для наращивания частоты графического движка или частоты памяти у Core i3-3225 не существует никаких препятствий.
Сore i3-3220
Единственное отличие Core i3-3220 от описанного выше Core i3-3225 – более простая версия графического движка. В составе Core i3-3220 применено ядро Intel HD Graphics 2500 с шестью, а не шестнадцатью исполнительными устройствами. В остальном, Core i3-3220 и Core i3-3225 – это близнецы-братья, обладающие не только одинаковым строением, но и одинаковыми рабочими частотами и всеми прочими характеристиками.
Pentium G2120
Основанная на микроархитектуре Ivy Bridge серия процессоров Pentium принципиально отличается от родственных Core i3 лишь отсутствием поддержки технологии Hyper-Threading, то есть, способностью одновременного исполнения только двух, а не четырёх вычислительных потоков. Поэтому Pentium G2120 немного похож на Core i3. Это тоже двухъядерный процессор, обладающий 3-мегабайтным кэшем третьего уровня, но его тактовая частота – 3.1 ГГц. Таким образом, по x86-быстродействию Pentium G2120 будет существенно отставать от Core i3 лишь при тяжёлой многопоточной нагрузке, при которой виртуальная многоядерность Hyper-Threading неплохо помогает. Но есть и ещё один ньюанс, который следует иметь в виду: процессоры класса Pentium не поддерживают набор инструкций AVX.
С точки же зрения графики отличия между Core i3 и Pentium тоже не слишком бросаются в глаза. Хотя видеоядро Pentium носит название HD Graphics без числового индекса, оно имеет то же строение, что и HD Graphics 2500, то есть, обладает шестью исполнительными устройствами. Совпадает и частота: графический движок в Pentium G2120 работает на 1.05 ГГц. Однако в более дешёвом процессоре Intel всё-таки отключила одну из ключевых возможностей – технологию Quick Sync.
С точки зрения разгонных возможностей Pentium, как, впрочем, и остальные интеловские процессоры, фигурирующие в этом тестировании, предлагает немногое. Во-первых, возможность увеличения частоты графического ядра и, во-вторых, способность работы с более быстрыми, нежели DDR3-1600, модулями памяти. Поднять же производительность x86-ядер выше задуманного производителем рубежа нет никакой возможности.
Pentium G2020
Младшая модель процессора серии Pentium, основанного на архитектуре Ivy Bridge, имеет тактовую частоту 2.9 ГГц. Однако гораздо большее расстройство вызывает не это, а то, что в официальных спецификациях в числе поддерживаемых типов памяти значатся лишь режимы до DDR3-1333 SDRAM. К счастью, это простая формальность. Как показало тестирование, контроллер памяти этого процессора оказывается работоспособен и с более быстрыми модулями DDR3 SDRAM. Так что единственное реальное отличие Pentium G2020 от Pentium G2120 – это сниженная на 7 процентов номинальная частота.
Попутно хочется обратить внимание на рабочее напряжение, которое для Pentium G2020 упало ниже 1.0 В. Судя по всему, это достаточно экономичный CPU, но Intel не уделяет этому факту никакого внимания: декларируемый тепловой пакет у процессоров всех Pentium – те же 55 Вт, что и у их старших собратьев.
Celeron G1620
Двухъядерные процессоры Celeron с дизайном Ivy Bridge появились совсем недавно, и вот уже они присутствуют в нашем тестировании. Хотя, честно говоря, интересного в них мало: слишком увлеклась Intel урезанием различных возможностей. К отключению технологии Hyper-Threading, набора команд AVX и движка Quick Sync, выполненным в Pentium, добавилось ещё и уменьшение объёма кэш-памяти, а также заметное снижение тактовой частоты. Ёмкость L3-кэша рассматриваемого Celeron G1620 составляет всего 2 Мбайта, а его тактовая частота – 2.7 ГГц.
Зато графическое ядро HD Graphics в Celeron G1620 абсолютно точно такое же, как и в Pentium: оно обладает шестью исполнительными устройствами. Правда, реальная производительность графики Celeron будет всё-таки ниже из-за меньшего объёма L3-кеша, который в микроархитектуре Ivy Bridge доступен видеоядру и хорошо помогает бороться с недостатком пропускной способности памяти. Определённым утешением в этой связи выступает тот факт, что хотя согласно официальным спецификациям Celeron G1620 поддерживает лишь DDR3-1333 память, на самом деле не существует никаких причин, по которым он не может работать с более быстрыми модулями.
По сравнению со старшими Core i3 характеристики Celeron G1620 гораздо хуже, однако тепловой пакет этого дешёвого процессора установлен в те же 55 Вт. Совершенно очевидно, что это – результат формального подхода, а по своей реальной экономичности Celeron должен быть очень привлекательным вариантом.
Как мы тестировали
После того, как мы познакомились с тем набором процессоров, который представлен в настоящем тестировании, самое время уделить внимание тестовым платформам. Ниже приводится список компонентов, из которых был сформирован состав тестовых систем.
Процессоры:
AMD A10-5800K (Trinity, 4 ядра, 3.8-4.2 ГГц, 4 Мбайта L2, Radeon HD 7660D);
AMD A10-5700 (Trinity, 4 ядра, 3.4-4.0 ГГц, 4 Мбайта L2, Radeon HD 7660D);
AMD A8-5600K (Trinity, 4 ядра, 3.6-3.9 ГГц, 4 Мбайта L2, Radeon HD 7560D);
AMD A8-5500 (Trinity, 4 ядра, 3.2-3.7 ГГц, 4 Мбайта L2, Radeon HD 7560D);
AMD A6-5400K (Trinity, 2 ядра, 3.6-3.8 ГГц, 1 Мбайт L2, Radeon HD 7540D);
AMD A4-5300 (Trinity, 2 ядра, 3.4-3.6 ГГц, 1 Мбайт L2, Radeon HD 7480D);
Intel Core i3-3225 (Ivy Bridge, 2 ядра + HT, 3.3 ГГц, 3 Мбайта L3, HD Graphics 4000);
Intel Core i3-3220 (Ivy Bridge, 2 ядра + HT, 3.3 ГГц, 3 Мбайта L3, HD Graphics 2500);
Intel Pentium G2120 (Ivy Bridge, 2 ядра, 3.1 ГГц, 3 Мбайта L3, HD Graphics);
Intel Pentium G2020 (Ivy Bridge, 2 ядра, 3.1 ГГц, 3 Мбайта L3, HD Graphics);
Intel Celeron G1620 (Ivy Bridge, 2 ядра, 2.7 ГГц, 2 Мбайта L3, HD Graphics).
Материнские платы:
ASUS P8Z77-V Deluxe (LGA1155, Intel Z77 Express);
ASUS F2A85-V Pro (Socket FM2, AMD A85).
Память: 2 x 4 GB, DDR3-1866 SDRAM, 9-11-9-27 (Kingston KHX1866C9D3K2/8GX).
Дисковая подсистема: Intel SSD 520 240 GB (SSDSC2CW240A3K5).
Блок питания: Corsair AX760i (80 Plus Platinum, 760 Вт).
Операционная система: Microsoft Windows 8 Enterprise x64.
Драйверы:
AMD Catalyst 13.1 Driver;
AMD Chipset Driver 13.1;
Intel Chipset Driver 9.3.0.1026;
Intel Graphics Media Accelerator Driver 15.28.12.64.2932;
Intel Management Engine Driver 8.1.0.1286;
Intel Rapid Storage Technology 11.7.0.1013.
Поскольку главной целью данного тестирования состояло сравнение возможностей интегрированных процессоров как единой гетерогенной системы, все испытания проходили без использования дискретной графики. За вывод же изображение на экран отвечали исключительно встроенные видеоядра.
И, перед тем как перейти непосредственно к результатам тестов, напомним об относительном позиционировании рассматриваемых APU, приведя их официальные цены.
Вычислительная производительность
В первой части тестирования речь пойдёт о традиционной вычислительной производительности. То есть, о той составляющей быстродействия, которая стопроцентно обеспечивается вычислительными процессорными ядрами.
Общая производительность Для оценки производительности процессоров в общеупотребительных задачах мы традиционно используем тест Bapco SYSmark 2012, моделирующий работу пользователя в современных распространённых офисных программах и приложениях для создания и обработки цифрового контента. Идея теста очень проста: он выдаёт единственную метрику, характеризующую средневзвешенную скорость компьютера. С выходом Windows 8 бенчмарк SYSmark 2012 обновился до версии 1.5, и мы теперь используем именно эту адаптированную версию.
Мы очень хорошо представляем себе сильные и слабые стороны современных микроархитектур Ivy Bridge и Piledriver, и положение процессоров на приведённой диаграмме совершенно не удивляет. Интеловские ядра Ivy Bridge с поддержкой технологии Hyper-Threading в целом быстрее двухъядерных модулей Piledriver из процессоров AMD, поэтому представители серии Core i3 закрепляются на лидирующих позициях. Однако процессоры Intel с двумя ядрами, но без Hyper-Threading, работают заметно медленнее. По своей производительности они опускаются до уровня четырёхъядерных Trinity серий A8 и A10. Младшие же APU компании AMD, в основе которых лежит одномодульный двухъядерный дизайн, а это A6 и A4, по скорости работы в общеупотребительных средах выглядят совсем слабо: они проигрывают даже конкурирующим CPU семейства Celeron.
При этом с относительной скоростью предложений AMD связана и ещё одна особенность. Процессор A8-5600K показывает в SYSmark 2012 более высокий результат, нежели представитель старшего класса, A10-5700. Связано это с тем, что A8-5600K, обладающий 100-ваттным тепловым пакетом, нацелен на более высокие тактовые частоты. Принадлежность же A10-5700 к старшей серии производительности счётной части не отражает, она обусловлена его полнофункциональным графическим ядром с максимальным количеством шейдерных процессоров. Таким образом, если ориентироваться на вычислительное быстродействие, то модель A8-5600K выглядит интереснее, чем A10-5700.
Более глубокое понимание результатов SYSmark 2012 способно дать знакомство с оценками производительности, получаемое в различных сценариях использования системы. Сценарий Office Productivity моделирует типичную офисную работу: подготовку текстов, обработку электронных таблиц, работу с электронной почтой и посещение Интернет-сайтов. Сценарий задействует следующий набор приложений: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, Adobe Flash Player 10.1, Microsoft Excel 2010, Microsoft Internet Explorer 9, Microsoft Outlook 2010, Microsoft PowerPoint 2010, Microsoft Word 2010 и WinZip Pro 14.5.
В сценарии Media Creation моделируется создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео. Для этой цели применяются популярные пакеты компании Adobe: Photoshop CS5 Extended, Premiere Pro CS5 и After Effects CS5.
Web Development — сценарий, в рамках которого моделируется создание web-сайта. Используются приложения: Adobe Photoshop CS5 Extended, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5, Mozilla Firefox 3.6.8 и Microsoft Internet Explorer 9.
Сценарий Data/Financial Analysis посвящён статистическому анализу и прогнозированию рыночных тенденций, которые выполняются в Microsoft Excel 2010.
Сценарий 3D Modeling всецело посвящён созданию трёхмерных объектов и рендерингу статичных и динамических сцен с использованием Adobe Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 и Google SketchUp Pro 8.
В последнем сценарии, System Management, выполняется создание бэкапов и установка программного обеспечения и апдейтов. Здесь задействуются несколько различных версий Mozilla Firefox Installer и WinZip Pro 14.5.
Характер нагрузки может оказывать заметное влияние на относительную производительность рассматриваемых продуктов. Типичная картина, повторяющая усреднённый результат, наблюдается лишь в двух сценариях – при офисной работе и при обработке медиа-контента. В этих случаях четырёхъядерные AMD A10 и A8 оказываются сравнимы с Intel Pentium и Celeron. При разработке сайтов все процессоры Intel могут похвастать неоспоримо лучшей производительностью, нежели любые из Trinity. Зато в хорошо распараллеливаемых задачах рендеринга и анализа данных процессорам для платформы Socket FM2 удаётся немного перетянуть одеяло на себя. Конечно, до Core i3 они, тем не менее, не дотягивают, но интеловские Pentium и Celeron в таких задачах определённо проигрывают четырёхъядерным A10 и A8. Неплохо для процессоров компании AMD складывается ситуация и при обслуживании системы. В этом сценарии между сравниваемыми CPU обеих компаний устанавливается некий паритет вплоть до того, что представителям серий A4 и A6 удаётся переплюнуть интеловский Celeron.
Тесты в приложениях Для измерения быстродействия процессоров при компрессии информации мы пользуемся архиватором WinRAR, при помощи которого с максимальной степенью сжатия архивируем папку с различными файлами общим объёмом 1.1 Гбайт.
WinRAR последних версий способен хорошо приспосабливаться к работе с многоядерными процессорами, но, тем не менее, четырёхъядерные Trinity всё равно отстают от двухъядерных Core i3 с поддержкой виртуальной многопоточности Hyper-Threading. В то же время AMD A10 и A8 явно быстрее процессоров серий Pentium и Celeron, которые, в свою очередь, существенно превосходят по скорости архивации двухъядерники AMD A6 и A4.
При тестировании скорости перекодирования аудио нами используется стандартный кодер Nero AAC Encoder 1.5.1.0, с его помощью осуществляется преобразование сграбленного содержимого CD-диска в AAC-формат. Заметим, что характерной особенностью этого кодера (как и подавляющего большинства утилит для преобразования звуковых файлов) является генерация исключительно однопоточной нагрузки.
Микроархитектура Piledriver, лежащая в основе всех современных процессоров AMD, не может предложить конкурентный уровень производительности, развиваемой одиночными ядрами. Поэтому при однопоточной нагрузке процессоры Intel оказываются сильнее, причём намного. Дело доходит до того, что при перекодировании аудио двухъядерный Celeron работает быстрее, чем четырёхъядерный процессор A10, у которого в полтора раза выше не только рабочая частота, но и цена.
Скорость работы с интернет-приложениями мы оценивали с использованием браузерного бенчмарка RoboHornet, который реализует все передовые и ресурсоёмкие веб-технологии. Запуск данного теста проводился в Google Chrome 24.
Как известно, современные браузеры относятся к числу приложений, поддерживающих многопоточность, лишь условно. Например, хотя на каждую вкладку в Chrome и приходится отдельный поток, веб-приложение или страница, находящаяся на переднем плане, работает исключительно на одном процессорном ядре. В таких условиях ожидать высоких результатов от Trinity вновь не приходится, а в лидерах оказываются процессоры Ivy Bridge, хорошо переваривающие однопоточную нагрузку.
Измерение производительности в Adobe Photoshop CS6 мы проводим с использованием собственного теста, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, включающий типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.
Гибридные процессоры AMD не могут похвастать хорошим уровнем быстродействия и в Adobe Photoshop, несмотря на то, что этот популярный графический редактор во многих случаях создаёт многопоточную нагрузку. Мы снова вынуждены констатировать тот факт, что самый быстрый CPU для Socket FM2-систем оказался медленнее, чем один из самых младших носителей микроархитектуры Ivy Bridge для платформы LGA 1155 – Celeron G1620.
Для измерения скорости перекодирования видео в формат H.264 используется тест x264 FHD Benchmark 1.0.1 (64bit), основанный на измерении времени обработки кодером x264 исходного видео в формате MPEG-4/AVC, записанного в разрешении 1920x1080@50fps с потоком 30 Мбит/сек. Следует отметить, что результаты этого бенчмарка имеют огромное практическое значение, так как кодер x264 лежит в основе многочисленных популярных утилит для перекодирования, например, HandBrake, MeGUI, VirtualDub и проч.
Транскодирование видео – один из немногих случаев, когда микроархитектуре Piledriver удаётся продемонстрировать свои лучшие стороны. Здесь четырёхъядерные процессоры AMD опережают Core i3, причём величина этого преимущества может доходить до 15 процентов, если сравнивать флагманский A10-5800K и похожий по цене Core i3-3220. Однако успех четырёхъядерных Trinity их собратья с двумя вычислительными ядрами не разделяют, они существенно отстают от Pentium и Celeron.
Тестирование скорости финального рендеринга выполнялось путём использования специализированного теста Cinebench 11.5, базирующегося на движке профессионального пакета Maxon Cinema 4D.
Рендеринг – это ещё один хороший пример многопоточной вычислительной нагрузки, при которой основная часть работы ложится на целочисленные процессорные блоки. Именно в таких ситуациях старшие представители рода Trinity могут составить конкуренцию Core i3. Однако даже в столь благоприятных ситуациях никакого значимого преимущества у Socket FM2-решений нет. Старшие A10 лишь догоняют младших Core i3, производительность процессоров серии A8 попадает в промежуток между Core i3 и Pentium, а A6 и A4, как и в других приложениях, существенно проигрывают Pentium и Celeron.
На следующей диаграмме приводится один из промежуточных показателей бенчмарка Futuremark 3DMark 11 — Physics Score. Эта характеристика отражает скорость выполнения специального игрового физического теста, моделирующего поведение сложной системы с большим количеством объектов.
Несмотря на то, что создаваемая нагрузка здесь хорошо параллелится, процессоры AMD A10 и A8, обладающие вдвое большим, чем интеловские соперники, количеством вычислительных ядер, высоким результатом похвастать не могут. Слабое место дизайна Trinity заключается в том, что каждый двухъядерный модуль Piledriver содержит лишь один блок для вычислений с плавающей точкой, востребованный при моделировании физических процессов. В результате, Core i3 работают быстрее четырёхъядерников для платформы Socket FM2, а двухъядерные процессоры A6 и A4 заметно проигрывают в скорости современным представителям семейств Pentium и Celeron.
Графическая производительность
Совершенно очевидно, что вычислительная производительность коньком Trinity не является. Это подтверждает и сама AMD: при продвижении платформы Socket FM2 основной упор делается на мощь встроенного графического движка семейства Radeon HD, который присутствует во всей линейке Socket FM2-процессоров. Intel, напротив, исповедует иной подход: в недорогих Ivy Bridge мощное ядро присутствует лишь в единственной модификации Core i3-3225, остальные же процессоры выдающейся скорости работы с 3D-графикой не обещают.
Для предварительной оценки относительного быстродействия графических ядер гетерогенных процессоров Trinity и Ivy Bridge мы прибегли к синтетическому бенчмарку Futuremark 3DMark 11. Так как встраиваемые в современные процессоры графические ядра полностью совместимы с DirectX 11, никаких проблем с прохождением этого теста в интегрированных системах не возникло.
Зато ситуация на диаграмме в корне отличается от того, что мы видели при тестировании вычислительной производительности. Процессоры Intel скатились теперь на нижние места, а предложения AMD показывают в разы более высокий результат. При этом самый скоростной вариант интеловский графики, HD Graphics 4000, по своему быстродействию дотягивает лишь до уровня Radeon HD 7480D – видеоядра из младшей модели Trinity. Те же из интеловских CPU, которые снабжаются ускорителем HD Graphics 2500 или HD Graphics, медленнее более чем в полтора раза, то есть, конкуренцию платформе Socket FM2 составить не могут вообще.
Впрочем, следует понимать, что в реальных играх более высокая производительность графического ядра не обеспечивает стопроцентный успех гибридного процессора. Здесь требуется сбалансированность между вычислительной и графической составляющими. Существует ли она у современных CPU с интегрированной графикой, мы посмотрели на примере реальных игровых приложений. Тесты в них запускались в двух режимах: при полноценном FullHD-разрешении 1920x1080 с низкими настройками качества и при разрешении 1366x768 с выбором среднего качества.
Хотя в разных играх ситуация может несколько различаться, сделать обобщённые выводы об игровой мощности рассматриваемых гибридных процессоров несложно. Из имеющихся на рынке вариантов лучшей производительностью в таких задачах могут похвастать процессоры семейств AMD A10. Их графическое ядро Radeon HD 7660D можно с полным основанием считать игровым акселератором начального уровня, поскольку оно способно обеспечивать вполне приемлемое количество кадров в секунду при установке FullHD разрешений. Конечно, при этом потребуется пойти на некоторые жертвы в качестве изображения, но это – нормальная ситуация и для недорогих дискретных видеокарт.
Что же касается Core i3-3225, оснащённого графическим ядром Intel HD Graphics 4000, то этот процессор выступает в играх существенно хуже флагманских предложений для платформы Socket FM2. Производительность интеловской графики заметно ниже, а высокая вычислительная мощность, как видим, скомпенсировать этот изъян не может. В результате, в играх в большинстве случаев Core i3-3225 выступает не только хуже AMD A10, но и уступает AMD A8 со встроенной графикой Radeon HD 7560D. Intel HD Graphics 4000, очевидно, уступает и Radeon HD 7540D из процессора AMD A6-5400K, но двухъядерные Trinity всё-таки слишком медлительны с традиционно-процессорных позиций, поэтому в реальных играх Core i3-3225 зачастую быстрее AMD A6 и A4.
Кстати, младшие Trinity в процессе тестирования удивили и тем, что, несмотря на формальную поддержку самых последних версий DirectX, они имеют проблемы совместимости с некоторыми играми. В частности, в рамках нашего тестирования на A6 и A4 отказалась работать компьютерная sandbox-игра Sleeping Dogs. Интеловские же графические ядра, у которых в прошлом несовместимость с теми или иными 3D-приложениями возникала достаточно часто, напротив, на этот раз показали себя с выгодной стороны: с ними никаких подобных эксцессов не возникало. Похоже, что с выходом Ivy Bridge и последних версий драйверов инженеры Intel смогли сделать качественный скачок в адаптации своего видеоядра под современную программную среду.
Но в итоге наиболее подходящими для игровых применений можно назвать лишь гибридные процессоры серий AMD A10 или AMD A8 и, с некоторыми оговорками, Core i3-3225. Остальные же CPU со встроенным графическим ядром для десктопных игровых систем начального уровня использовать проблематично ввиду их явно недостаточной производительности. Но помимо игровых применений у встроенных графических ядер может быть и ещё одна важная миссия. О ней – в следующем разделе.
Гетерогенная производительность
Продвигая на рынок свои гибридные процессоры, компания AMD неустанно твердит о том, что интегрированные графические ядра можно использовать для ускорения вычислений общего назначения. И это правда: фреймворки OpenCL и DirectCompute, через которые возможна реализация параллельных вычислений силами x86 и графических ядер, поддерживаются как процессорами AMD Trinity, так и Intel Ivy Bridge. И если раньше их использование носило эпизодический характер и встречалось лишь в редких специализированных программах, то к настоящему моменту идея гетерогенных вычислений прочно овладела умами разработчиков общеупотребительных приложений. В этой связи мы провели тестирование производительности и в приложениях, полноценно использующих для вычислений все ресурсы, предоставляемые гибридными процессорами. На сегодняшний день их количество уже вполне достаточно для того, чтобы из их числа можно было бы выбрать несколько широко распространённых и, соответственно, интересных для практического исследования.
Однако начать мы решили с простых задач декодирования и транскодирования видео. В современных гибридных процессорах они решаются с непосредственным участием графических ядер, но на самом деле ресурсы шейдерных потоковых процессоров в этом случае не используются, а вместо этого задействуются специализированные обособленные блоки. В случае Intel это – Quick Sync, у AMD же такие блоки носят название UVD3 и VCE.
С воспроизведением HD-видео в разнообразных форматах современные процессоры справляются без проблем. Аппаратное декодирование видео в таких случаях работает превосходно, и даже в тех случаях, когда дело доходит до проигрывания 1080p-потока при 60 fps с высокими показателями битрейта, никаких проблем не возникает. Однако постепенно в обиход начинают входить более высокие разрешения видеопотока, с декодированием которых у недорогих процессоров могут возникать определённые проблемы. Например, для целей тестирования мы воспользовались широкоэкранным 4K-роликом с разрешением 4096x1744p@24 fps, закодированным в формате H.264 с битрейтом порядка 34 Мбит/сек. Его проигрывание со включённым аппаратным декодированием через DXVA происходит с выпадением кадров, причём масштаб проблемы напрямую зависит от мощности CPU. На диаграмме ниже приведено среднее число отображаемых кадров, получаемое при воспроизведении тестового видео в программном плеере Media Player Classic – Home Cinema версии 1.6.5. Для создания дополнительной нагрузки при воспроизведении были активированы и субтитры.
Ситуация с проигрыванием 4K-видео выглядит совершенно нетипично. Процессорам A10-5800K и A8-5600K удаётся продемонстрировать наилучший результат и обеспечить наименьшее выпадение кадров при декодировании, чуть хуже проявляют себя оба Core i3, а ещё немного отстают от них A10-5700 и A8-5500. Процессоры же серий A6, A4, Pentium и Celeron находятся в группе отстающих. При их использовании теряется около половины кадров, что совершенно неприемлемо.
Впрочем, идеально с декодированием 4K-видео не справился ни один из участников тестирования. А это значит, что медиацентр, построенный на базе любого процессора из рассматриваемых семейств, назвать всеядным уже невозможно. По мере распространения UHD и 4K-форматов, с проигрыванием таких фильмов и роликов вполне вероятны различные проблемы. Конечно, не исключено, что ситуацию могут улучшить какие-то оптимизации в программных плеерах, но гораздо надёжнее полагаться не на них, а на более производительные аппаратные компоненты.
Другой тип распространённой нагрузки, связанной с обработкой видео, это – его транскодирование. Сегодня уже все разработчики графических ядер пришли к пониманию необходимости встраивать в свои решения специализированные модули, ориентированные на решение этой задачи. Поэтому отдельное внимание мы уделили оценке производительности соответствующих блоков, имеющихся в процессорах Trinity и Ivy Bridge. Для испытаний была избрана утилита Cyberlink MediaEspresso 6.7, поддерживающая как технологию Intel Quick Sync, таки и AMD VCE. В качестве тестовой задачи выполнялось перекодирование полуторагигабайтного 1080p-ролика в формате H.264 (который представлял собой 20-минутную серию популярного телесериала) с уменьшением разрешения для просмотра на iPad 2. Соответственно, целевой формат видео – H.264, 1280x768 c битрейтом порядка 6 Мбит/сек.
По результатам, которые показывают при перекодировании видео процессоры Celeron и Pentium, можно судить о важности аппаратного ускорения этого процесса. Intel отключает Quick Sync в своих младших сериях CPU, и продолжительность транскодирования видео на них из-за этого становится сравнима с длительностью самого исходного материала. В процессорах же семейства Core i3 технология Quick Sync присутствует, и они справляются с той же задачей на порядок (в прямом смысле) скорее. Причём, старшая версия графического ядра, HD Graphics 4000, работает быстрее ровно на треть, то есть дифференциация относительно HD Graphics 2500 есть и тут, она заключается не только в количестве графических исполнительных устройств.
Тем не менее, Quick Sync в любых своих проявлениях остаётся самым скоростным аппаратным решением для транскодирования. Процессоры Trinity, в которых появилась аналогичная технология VCE, обрабатывают видео примерно втрое медленнее. Причём у разных моделей производительность VCE не различается. Исключение составляет лишь A4-5300, она отстаёт от остальных собратьев примерно на 20 процентов.
Транскодирование и воспроизведение видео – безусловно, очень важные задачи для домашних систем. Однако нам всё-таки интереснее, как проявляют себя современные интегрированные процессоры в настоящих гетерогенных вычислениях, выполняемых одновременно на x86-ядрах и на потоковых шейдерных процессорах. Одним из самых значительных достижений концепции APU, свидетельствующим о её принятии рынком программного обеспечения, стало появление поддержки OpenCL в популярном архиваторе WinZIP. В его семнадцатой версии при сжатии файлов часть работы выполняется силами GPU, а нагрузка между вычислительными и графическими ядрами распределяется при этом следующим образом.
Как видно по графику, основная работа ложится всё-таки на x86-ядра, хотя GPU способен выступать неплохим подспорьем. Совершенно не удивительно, что благодаря мощному графическому движку Socket FM2-процессоры AMD в WinZIP получают неплохую прибавку в скорости.
Силы, потраченные AMD на пропихивание на рынок идеологии гетерогенных вычислений, потрачены явно не впустую. Результат можно оценить по диаграмме. Мощные GPU класса Radeon HD, наличествующие в Trinity, явно улучшают их показатели производительности. В результате, A10 и A8 выступают на уровне Core i3 – такого положения дел в приложениях, не использующих ресурсы графических ядер, не наблюдалось. Правда, успех старших Socket FM2 процессоров не отражается на их младших двухъядерных собратьях. Они всё равно серьёзно уступают даже Celeron G1620.
Впрочем, следует иметь в виду, что широкое внедрение OpenCL не может стать панацеей, которая магическим образом позволит гибридным процессорам AMD получить повсеместное преимущество над решениями конкурента. Дело в том, что ускорение за счёт вовлечения в работу потоковых процессоров графического ядра возможно далеко не всегда, а только для тех алгоритмов, которые допускают декомпозицию исходной задачи на большое количество однотипных подзадач. Поэтому основная масса программного обеспечения, использующего гетерогенные вычисления, это – обработка изображений или видео.
Характерным примером такой программы выступает графический редактор GIMP. В своей последней версии он получил в распоряжение мощную библиотеку фильтров, поддерживающую OpenCL-ускорение. Причём, в отличие от WinZIP, обработка изображения такими операциями практически полностью выполняется силами GPU, а x86-ядра несут вспомогательную функцию.
Совершенно неудивительно, что высокопроизводительные графические ядра оказываются для GIMP весьма желанны. Чтобы проиллюстрировать это на практике, в системах на базе различных гибридных процессоров мы измерили время последовательного выполнения трёх ресурсоёмких эффектов: Gaussian blur (размытие по Гауссу), Motion blur (расфокусировка) и Bilateral (билатеральный фильтр).
Ускорение вычислений силами графического ядра – совсем не пустой звук. Вовлечение в дело потоковых процессоров при удачном стечении обстоятельств позволяет кардинально повлиять на быстродействие. Например, архитектура GPU процессоров AMD Trinity обладает не только более высокой, нежели Intel HD Graphics, производительностью, но и банально лучше приспособлена к выполнению вычислений. В результате, при условии качественной оптимизации алгоритмов под OpenCL, как в GIMP, гибридные процессоры AMD на фоне продуктов конкурента способны оставлять своим быстродействием неизгладимое впечатление. Core i3-3225, обладающий максимальной версией интеловского графического движка, дотягивает в GIMP по скорости работы фильтров лишь до уровня младшего Socket FM2-процессора AMD A4-5300. Остальные же процессоры Intel проигрывают платформе Socket FM2 в несколько раз.
Другой пример популярного приложения, поддерживающего OpenCL, это – профессиональная программа для редактирования и монтажа видео Sony Vegas Pro 12. При выполнении в ней рендеринга видео нагрузка достаточно равномерно распределяется по разнородным ресурсам гибридных процессоров.
При этом необходимо заметить, что графические ядра компании Intel по какой-то причине не совместимы с этим программным обеспечением, хотя с формальной точки зрения реализация поддержки OpenCL в Ivy Bridge не имеет никаких ограничений. Но, как бы то ни было, обладателям интегрированных LGA 1155-систем придётся рассчитывать исключительно на традиционные x86 вычислительные ресурсы. Впрочем, даже несмотря на это, ситуация с продолжительностью рендеринга тестового видео-ролика в Sony Vegas Pro складывается для интеловских процессоров не столь катастрофично, как в предыдущем случае.
Четырёхъядерные процессоры AMD Trinity в Sony Vegas Pro обеспечивают примерно такой же уровень быстродействия, как и интеловские Core i3. Двухъядерные же AMD A6 и A4 выступают на равных с Pentium и Celeron.
Ещё одним испытанием гетерогенных возможностей процессоров стал бенчмарк SVPMark 3. Это специализированный тест производительности системы при работе с пакетом SmoothVideo Project, направленным на повышение плавности воспроизведения видео путём добавления в видеоряд новых кадров, содержащих промежуточные положения объектов. Данный пакет достаточно активно использует предоставляемые через OpenCL возможности графических ядер.
Впрочем, по графику загрузки компонентов APU во время работы пакета видно, что обширная часть необходимых расчётов выполняется всё-таки вычислительными x86-ядрами.
Тем не менее, мы вновь обнаруживаем преимущество Socket FM2-процессоров AMD серий A10 и A8 над процессорами Core i3. Судя по разнице в результатах Core i3-3225 и Core i3-3220, производительность графического ядра существенно влияет на результат этого теста, так что превосходство четырёхъядерных Trinity в данном случае неудивительно. Кроме того, достойно смотрятся показатели производительности и двухъядерных A6 и A4.
Как можно заключить по полученным результатам, гетерогенная нагрузка – это весьма благоприятная для платформы Socket FM2 сфера применения. Процессоры же Intel, за исключением разве только Core i3-3225, в таких случаях выступают достаточно блекло. Поэтому если вы планируете работать с изображениями и видео в приложениях, способных задействовать OpenCL, при выборе оптимальной платформы необходимо обращать пристальное внимание и на скорость графического ядра. Она способна сказаться на быстродействии в таких ситуациях даже сильнее, чем в 3D-играх.
Однако следует напомнить и о ещё одном важном ньюансе. Использование мощностей интегрированного GPU в задачах общего назначения возможно лишь в том случае, если в системе нет дискретного видеоускорителя. Установка внешней графической карты полностью отключает встроенный в процессор графический движок. Поэтому, вся концепция APU интересна лишь применительно к интегрированным системам. В том же случае, когда платформа включает дискретную графику, возможности встроенного GPU не оказывают никакого влияния ни на графическую производительность, ни на гетерогенное быстродействие. А значит, выбор процессоров для классических дискретных систем можно выполнять по старинке, руководствуясь лишь вычислительной производительностью x86-ядер.
Энергопотребление
Одним из преимуществ интегрированных систем, ставших темой этой статьи, выступает их более низкое энергопотребление и тепловыделение в сравнении с системами, оборудованными дискретными видеоускорителями. Такие платформы нередко приобретаются из соображений минимизации расходов на обслуживание и находят своё место в компактных корпусах. Поэтому разработчики процессоров со встроенными графическими движками уделяют немалое внимание вопросам энергосбережения, что выливается в более жёсткие рамки тепловых пакетов. Так, процессоры Core i3, Pentium и Celeron имеют типичный уровень тепловыделения, ограниченный величиной 55 Вт. Процессоры AMD в этом плане чуть хуже: для них установлены рамки 100 Вт или 65 Вт в зависимости от модели. Однако показатели TDP отражают реальную ситуацию лишь условно, они описывают обобщённые требования к рекомендуемой системе охлаждения. В реальности же ситуация с потреблением может быть иной, тем более, совершенно очевидно, что младшие модели процессоров должны быть экономичнее своих старших собратьев.
Чтобы получить полное представление об уровне энергопотребления всех процессоров, которые мы отнесли к классу APU, мы провели специальное тестирование. Используемый нами в тестовой системе новый цифровой блок питания Corsair AX760i позволяет осуществлять мониторинг потребляемой и выдаваемой электрической мощности, чем мы и пользуемся для наших измерений. На следующих ниже графиках, если иное не оговаривается отдельно, приводится полное потребление систем (без монитора), измеренное на выходе из блока питания и представляющее собой сумму энергопотреблений всех задействованных в системе компонентов. КПД же самого блока питания в данном случае не учитывается. Во время измерений нагрузка на процессоры создавалась 64-битной версией утилиты LinX 0.6.4. Для нагрузки графических ядер использовалась утилита FurMark 1.10.4. Кроме того, для правильной оценки энергопотребления в простое и при низкой нагрузке мы активировали турбо-режим и все имеющиеся энергосберегающие технологии: C1E, C6, Enhanced Intel SpeedStep и AMD Cool'n'Quiet.
В состоянии простоя все процессоры и платформы демонстрируют примерно одинаковое потребление. Находясь без работы, любые современные процессоры переходят в специализированные энергосберегающие состояния, в которых их потребление крайне незначительно и составляет единицы ватт. В таких условиях на первый план выходят энергетические аппетиты прочих компонентов системы и эффективность конвертера питания материнской платы, которые маскируют чисто процессорное энергопотребление.
Однопоточная вычислительная нагрузка сразу же ранжирует процессоры по классам энергопотребления. Core i3, Pentium и Celeron попадают в число сравнительно экономичных решений, в то время как Socket FM2-процессоры оказываются существенно более прожорливыми. Отдельно необходимо отметить высокое энергопотребление AMD A10-5800K. Очевидно, что этот APU выпущен компанией AMD с прицелом на покорение высоких рубежей производительности, а любая экономия была отметена напрочь.
Максимальная x86-нагрузка только подчёркивает кардинальные различия в потреблении предложений разных производителей. Любые процессоры Intel остаются экономичнее предложений AMD. Причём, даже самые медленные двухъядерные A4-5300 и A6-5400K потребляют больше представителей серии Core i3, которые качественно превосходят их в быстродействии. Старшие же A10 и A8, для которых AMD установила 100-ваттный тепловой пакет, в сравнении с интеловскими альтернативами вообще выглядят ужасными транжирами. Системы на их основе в сравнении с LGA 1155-платформами требуют почти вдвое больше электроэнергии, хотя их производительность при этом совсем не лучше. Впрочем, и 65-ваттные четырёхъядерные Trinity экономичностью не отличаются, хотя урезанный тепловой пакет для них выбран производителем явно не просто так, и по сравнению со 100-ваттными собратьями они позволяют экономить 20-30 Вт при полной нагрузке.
Не лучше для процессоров AMD ситуация и в случае графической нагрузки. Однако в данном случае их высокое энергопотребление можно хотя бы оправдать более высоким быстродействием.
Нет никаких принципиальных изменений и когда работой одновременно загружены вычислительные ядра и потоковые процессоры графического ядра. Процессоры A10-5800K и A8-5600K, для которых производителем установлена 100-ваттная граница TDP, оказываются недосягаемыми антилидерами по потреблению, превосходя все остальные варианты как минимум на 30-50 Вт и на практике. Платформа же на базе самого прожорливого интеловского Core i3-3225, оснащённого графикой Intel HD Graphics 4000, превосходит по потреблению лишь Socket FM2-системы с двухъядерными Trinity. В результате, аппетит Trinity с тепловым пакетом 65 Вт вряд ли можно охарактеризовать как скромный, даже по сравнению с тем же Core i3-3225. Без каких-либо расчётов понятно, что интеловские процессоры предлагают гораздо лучшее соотношение быстродействия и затрачиваемой на его достижение энергии. Они не только выгоднее с точки зрения эффективности, но и более универсальны при размещении в тесных корпусах со слабыми блоками питания и с низкопрофильными кулерами.
Выводы
Между традиционными CPU и APU нельзя ставить знак равенства. Идея гибридных процессоров зародилась совсем недавно, но к сегодняшнему дню эта идеология вполне успешно пробила себе дорогу на рынок, и это позволяет нам писать статьи, подобные данной, где мы подходим к APU не как к разновидности обычных CPU, а как к самобытным устройствам. И хотя AMD и Intel двигались в направлении APU разными путями, на сегодняшний день их продукты предлагают похожий набор возможностей: два или четыре x86-ядра, встроенный графический ускоритель с поддержкой DirectX 11, поддержку гетерогенных вычислений через OpenCL 1.1 и выделенные движки для декодирования или кодирования видео высокого разрешения. Однако, учитывая что у каждой из компаний есть свои приоритеты и свой уникальный технологический багаж, Trinity и Ivy Bridge оказались и принципиально различными продуктами, имеющими собственный набор плюсов и минусов, вытекающий из того, какие предыдущие наработки были использованы при создании того или иного дизайна. Поэтому в зависимости от тех качеств гибридных процессоров, которые мы будем ставить во главу угла, лучшими вариантами могут быть предложения как одного, так и другого производителя.
Например, с точки зрения традиционного x86-быстродействия лидерство уверенно продолжают удерживать продукты компании Intel. В среднем, старшие четырёхъядерные Socket FM2-процессоры серий A10 и A8 предлагают промежуточную между Core i3 и Pentium производительность, а младшие двухъядерные A6 и A4 серьёзно проигрывают процессорам серии Celeron. Этот дисбаланс AMD отчасти пытается скомпенсировать с помощью ценовой политики, но, тем не менее, это ей удаётся далеко не всегда. Большая проблема семейства Trinity, использующего x86-модули с микроархитектурой Piledriver, заключается в низкой производительности отдельных ядер, которая очень важна для многих общеупотребительных приложений.
Взамен же AMD может предложить существенно более высокую, нежели у конкурента, производительность графической части. Имея в своём распоряжении видеоядра класса Radeon HD 7000D с VLIW4-архитектурой, процессоры семейства Trinity серьёзно опережают любые Ivy Bridge при игровой нагрузке. Это в том числе касается и Core i3-3225, который снабжён наиболее производительным интеловским графическим ускорителем HD Graphics 4000. В играх Core i3-3225 способен соперничать лишь с AMD A6-5400K, а для борьбы с более быстрыми воплощениями Trinity его скорости графики явно не хватает. Это значит, что если Socket FM2-системы без дискретной видеокарты можно вполне корректно отнести к игровым платформам начального уровня, то для аналогичного решения на базе Core i3-3225 такая характеристика применима лишь с множеством оговорок. Все же остальные процессоры Intel семейств Core i3, Pentium и Celeron, которые снабжены более медленными вариантами графического ядра HD Graphics 2500 или HD Graphics, и вовсе, в современных игровых приложениях не способны гарантировать достаточное количество кадров в секунду даже при низком разрешении и с ухудшением качества.
Высокая мощность графических ядер AMD и их оптимизированная для потоковых алгоритмов архитектура выливается и в неожиданно хороший уровень быстродействия при гетерогенных вычислениях. Если приложение умеет перекладывать часть работы на графические ядра, то гибридные процессоры AMD могут быть способны на многое, вплоть до многократного превосходства в скорости работы над интеловскими CPU. Причём, речь в данном случае идёт не о каких-то экзотических и искусственных ситуациях. Число программ, поддерживающих OpenCL, планомерно увеличивается, сегодня их уже не нужно специально искать: многие популярные приложения для обработки видео или изображений приобретают соответствующую функциональность. Очевидно, процесс пошёл, и дальше таких программ будет становиться всё больше и больше.
При этом носители микроархитектуры Ivy Bridge всё ещё сохраняют за собой звание самых быстрых решений для простого транскодирования видеоконтента. Технология Quick Sync пока не имеет себе равных, а появившийся в Trinity симметричный ответ в виде движка VCE оказался медленнее в несколько раз. Плохо только то, что наличествует Quick Sync лишь в процессорах класса Core i3 (и старших), а число приложений, её использующих, не так уж и велико. Впрочем, и тут мы ожидаем скорого изменения ситуации: недавний выпуск Intel Media SDK 2013 открыл для программистского сообщества долгожданный простой путь к повсеместному внедрению Quick Sync.
Кроме того, у интеловских решений есть и ещё один несомненный плюс – они заметно более энергоэффективны. Современный 22-нм техпроцесс, применяемый для выпуска процессоров класса Ivy Bridge, а также многочисленные микроархитектурные оптимизации делают платформу LGA 1155 значительно экономичнее Socket FM2-систем аналогичного класса. Поэтому, когда речь заходит о сборке компактных систем, либо в тех случаях, когда одним из приоритетов является рациональная трата электроэнергии, процессоры Core i3, Pentium и Celeron более предпочтительны.