Обзор процессора AMD A10-7850K (Kaveri): шаг вперёд, два шага назад?

Автор: Gavric
Дата: 10.04.2014
Все фото статьи

Введение


В течение нескольких последних лет мы наблюдаем за тем, как процессорное подразделение компании AMD планомерно сужает своё присутствие в традиционных ПК, а сама компания твердит о важности мобильных и встраиваемых решений, но при этом умалчивает о планах в части дальнейшего развития десктопных продуктов. В реальности же мы видим, что сначала AMD полностью отдала своему конкуренту сегмент высокопроизводительных процессоров, и с этим мы уже давно смирились, а теперь речь уже заходит о том, что в её ассортименте, ориентированном на пользователей традиционных ПК, останутся исключительно бюджетные процессоры с интегрированной графикой. По крайней мере, именно это заложено в перспективный план: обновлений во флагманской серии FX больше (пока?) не предвидится, а фокус смещается на продвижение гибридных процессоров — APU (Accelerated Processing Units), совмещающих на одном полупроводниковом кристалле как вычислительные, так и графические ядра. И в свете этого главным процессорным продуктом AMD в 2014 году становится Kaveri – новый гибридный процессорный дизайн, развивающий идеи, заложенные в Trinity и Richland. Именно о Kaveri и пойдёт речь в этом обзоре, и мы будем смотреть на этот продукт критически – с позиции апологетов настольных компьютеров.


Конечно, в смещении интереса AMD в сторону процессоров со встроенным графическим ядром нет ничего страшного, в конце концов, львиная доля десктопных продуктов Intel имеет примерно такую же внутреннюю организацию. Но проблема в том, что AMD, в отличие от конкурента, совершенно не нацелена на покорение новых рубежей производительности, у неё теперь совсем иные приоритеты. В серии процессоров FX ставка делалась на возможности многопоточной обработки большим количеством вычислительных ядер, теперь же ядер будет существенно меньше, и основной упор вместо этого будет делаться на увеличении мощности интегрированного графического ускорителя. Выпуская Kaveri, AMD в первую очередь хочет добиться успеха в секторе недорогих мобильных компьютеров, а потому занимается улучшением удельной производительности в пересчёте на каждый ватт затраченной электроэнергии. Причём, оптимизация этого соотношения ведётся отнюдь не за счёт роста быстродействия, а путём снижения энергопотребления и тепловыделения, которые для ключевых моделей APU будет теперь вписываться в рамки 35 или даже 15 Вт.


Что же до пользователей настольных компьютеров, где тепловые пакеты процессоров беспрепятственно могут быть расширены до 95 Вт, то для них AMD подготовила специальные варианты Kaveri. Однако такие модели не отличаются высокой производительностью даже по мнению самого разработчика, а их преимущество кроется в неких «новых возможностях». Всё это значит, что Kaveri не способны внести на рынок десктопных систем какую-либо свежую струю. Эти процессоры выступают эволюционным развитием APU прошлых поколений, то есть, как и их предшественники, представляют собой недорогие варианты для настольных домашних, офисных или игровых систем начального уровня.


Тем не менее, посчитать, что Kaveri для нас совсем неинтересны, было бы неверным. В этих процессорах нашла применение очередная версия микроархитектуры Bulldozer – Steamroller, графическое ядро переведено на дизайн GCN, а также реализована глубокая гетерогенность, базирующаяся на спецификации HSA (Heterogeneous System Architecture). Несмотря на то, что все эти нововведения не могут сделать новые процессоры привлекательными для игроков или энтузиастов при всём желании, посмотреть на них в подробностях всё же любопытно. По крайней мере, мы сможем получить представление о том, в каком направлении движется AMD, и можно ли рассчитывать, что эта компания когда-нибудь восстановит разработку процессоров для производительных персональных компьютеров в числе своих первоочередных задач.


С начала этого года на рынок поставляется две модели процессоров Kaveri для настольных компьютеров – A10-7850K и A10-7700K. Нельзя сказать, что их поставки носят широкомасштабный характер, но, тем не менее, найти такие процессоры в магазинах не составляет большого труда. Мы решили познакомиться с новинкой на примере самой старшей модели: она обладает максимальными тактовыми частотами и содержит встроенное графическое ядро с наибольшим числом шейдерных процессоров. Иными словами, именно эта модификация представляет собой самый быстрый современный процессор AMD. При этом A10-7850K, как и A10-7700K, рассчитана на тепловой пакет 95 Вт. В теории, существует и третья, достаточно любопытная 65-ваттная энергоэффективная модель Kaveri в десктопном исполнении, A8-7600. Но от её тестирования нам пока пришлось отказаться, так как AMD сорвала её поставки в розничную сеть, и она всё ещё остаётся недоступной для обычных пользователей.

Микроархитектура Steamroller


Новая микроархитектура вычислительных ядер Kaveri — это, пожалуй, одно из самых интригующих обновлений, привносимых этим гибридным процессором. После того как предыдущие версии производительной микроархитектуры AMD, Bulldozer и Piledriver, не смогли сравниться по быстродействию с интеловскими Core, улучшение эффективности старших процессоров AMD стали связывать с новой микроархитектурой Steamroller. В ней разработчики обещали постараться ликвидировать главный недостаток «больших ядер» AMD — низкую однопоточную производительность.

Впрочем, даже если микроархитектура Steamroller и представляет собой значительный шаг вперёд по сравнению со своими предшественниками, толку от этого мало. AMD отказалась от её внедрения в производительные многоядерные процессоры, и Steamroller будет использоваться исключительно в четырёхъядерных Kaveri, которые позиционируются компанией как недорогие интегрированные решения. Тем не менее, сама AMD обещает, что на той же самой тактовой частоте новая микроархитектура может предложить примерно 20-процентное улучшение производительности по сравнению с Piledriver. Правда, при этом из-за усложнения дизайна и его мобильной ориентации максимальные тактовые частоты для Steamroller стали ниже, поэтому реальный прирост в скорости работы процессоров, построенных на новой микроархитектуре, оказался совсем небольшим. И здесь не помогло даже внедрение более современной 28-нм производственной технологии.

В итоге, Steamroller следует воспринимать как эволюционное развитие предыдущих микроархитектур Bulldozer и Piledriver – к такому выводу нетрудно прийти, если смотреть и на производительность, и на внутреннее строение. AMD продолжает своё движение по пути оптимизации базовой микроархитектуры небольшими шажками, не затрагивая заложенный c появлением Bulldozer фундамент. Как и ранее, в Steamroller применена всё та же процессорная структура с двухъядерными сплотками и разделяемым 2-мегабайтным кешем второго уровня на каждый такой модуль. Нет никаких нововведений и в системе команд: поддержки AVX2 инструкций в новой микроархитектуре так и не появилось.


Основные же изменения коснулись распределения разделяемых между ядрами одного модуля ресурсов. Дело в том, что изначальная концепция процессоров Bulldozer предполагала реализацию достаточно существенного набора функциональных блоков в двухъядерном модуле в единичном экземпляре. К числу таких разделяемых между ядрами узлов относились блоки выборки и декодирования инструкций, блок операций с плавающей запятой и кеш-память. Подобный подход позволял AMD добиться уменьшения сложности полупроводниковых кристаллов и снижения их тепловыделения, что в конечном итоге и позволяло компании создавать многоядерные процессоры, работающие на сравнительно высоких тактовых частотах. Но обратной стороной такого подхода становилось то, что при многопоточной нагрузке разделяемые ресурсы оказывались узким местом, приводящим к простоям исполнительных устройств и ограничивающим производительность. Как показала практика, наибольшие «заторы» возникали на этапе декодирования инструкций, и в Steamroller разработчики AMD решили исправить этот недостаток и удвоить количество декодеров.

Теперь каждое из ядер, входящих в двухъядерный модуль, получило собственный независимый декодер, способный обрабатывать до четырёх x86-инструкций за такт. К сожалению, первоначальная выборка при этом осталась в сфере ответственности общего на два ядра функционального узла, эффективность и результативность работы которого инженеры AMD попытались улучшить другими мерами. В частности, совершенствованию подверглись алгоритмы предсказания переходов (за счёт роста ёмкости буферов), а также с 64 до 96 Кбайт была увеличена вместимость общего на модуль кэша инструкций первого уровня, степень ассоциативности которого возросла с двух до трёх.


При этом следует понимать, что удвоение числа декодеров со всеми смежными мерами — это лишь ликвидация основного бутылочного горлышка микроархитектуры. Ожидать от Steamroller близкого к двукратному увеличения производительности явно не следует: узкие места всё ещё сохранились на этапах выборки и исполнения инструкций, и их частичное устранение намечено лишь в следующей итерации микроархитектуры – Excavator.

В Steamroller же к изменениям во фронтальной части исполнительного конвейера добавились лишь некоторые мелкие переделки, которые не оказывают существенного влияния на производительность. Так, была проведена балансировка ролей исполнительных устройств в блоке FPU с целью оптимизации их загрузки, а также оптимизирован интерфейс между кеш-памятью первого и второго уровня, что позволило увеличить скорость перемещения данных. Некоторые нововведения в Steamroller вообще направлены исключительно на улучшение экономичности. Например, L2-кеш получил деление на четыре области, имеющие независимое питание, что позволяет отключать его по частям, а в декодерах добавилась очередь микроопераций, при наполнении которой основная логика этих блоков также может обесточиваться.

К сожалению, вместе с увеличением производительности микроархитектура Steamroller существенно нарастила и свою сложность. Число транзисторов, задействованных в одном двухъядерном модуле, с переходом от Piledriver к Steamroller возросло более чем на 60 процентов. Связано это не только с внутренними изменениями в микроархитектуре, но и с вводом новых автоматизированных методов компоновки полупроводникового кристалла. В итоге, внедрение Steamroller заставило AMD отказываться от своей изначальной идеи — компоновки процессоров из большого числа высокочастотных, но простых ядер. Иными словами, выбранное направление развития микроархитектуры можно расценить и как некоторое изменение её основополагающей парадигмы, что на практике вылилось в нежелание AMD использовать Steamroller в многоядерных процессорах класса FX.

Но AMD преподносит Steamroller с большим оптимизмом и говорит о весомости внесённых в микроархитектуру улучшений, не заостряя внимание на том, какой они дались ценой. По данным компании, количество промахов при обращении к L1-кешу инструкций снизилось на 30 процентов, число неправильных предсказаний переходов уменьшилось на 20 процентов, а общая эффективность работы планировщика поднялась на 5-10 процентов. И всё это в конечном итоге приводит к улучшению загрузки исполнительных устройств примерно на четверть.

Обычно мы не принимаем на веру такие заявления производителей. Поэтому, чтобы практически проверить эффективность всех улучшений, сделанных AMD в новой микроархитектуре, мы решили сравнить практическую производительность четырёхъядерных процессоров Richland и Kaveri (построенных на микроархитектуре Piledriver и Steamroller соответсвенно) при их работе на одинаковой частоте 4,0 ГГц. В качестве средства численной оценки быстродействия были выбраны синтетические бенчмарки из диагностической утилиты Aida64 4.30.2907. Попутно на тех же диаграммах приводятся и результаты, демонстрируемые в тестах четырёхъядерным процессором Haswell, работающим на аналогичной частоте 4,0 ГГц с отключенной технологией Hyper-Threading. Для удобства восприятия все результаты нормированы по показателям производительности Richland.


Картина получается весьма унылая. Несмотря на все старания AMD никакого заметного прироста скорости не видно. Среднее увеличение производительности при переходе от Piledriver к Steamroller составляет не более 10 процентов. Причём, существуют и случаи, когда производительность новой микроархитектуры ниже, чем у старой. Такая ситуация наблюдается, в частности, в бенчмарке Queen, который фокусируется на выявлении результативности предсказаний переходов и штрафа, возникающего при ошибках в них. А это значит, что заявления AMD об улучшении эффективности входной части исполнительного конвейера, можно подвергнуть сомнению.

Наилучшее же увеличение производительности, обеспечиваемое внедрением микроархитектуры Steamroller, наблюдается в бенчмарке хеширования. Здесь для теста используется стандартный алгоритм SHA1 и целочисленные варианты векторных инструкций.

Попутно представленная диаграмма позволяет наглядно оценить, насколько AMD со своими микроархитектурами отстала от Intel. Разница в быстродействии Kaveri и Haswell, имеющих одинаковое количество вычислительных ядер и работающих на одной и той же тактовой частоте, – примерно двукратная. Иными словами, внедрение компанией AMD очередной версии своей микроархитектуры ничего не меняет, и с точки зрения вычислительной производительности чётырёхъядерные Kaveri могут рассматриваться лишь в роли конкурентов двухъядерных процессоров Core i3.

Но не будем спешить с окончательными выводами, и посмотрим, как обстоит дело с производительностью вещественночисленного блока FPU.


Здесь преимущество Kaveri над Richland на одинаковой тактовой частоте составляет в среднем 6-7 процентов. На фоне же Haswell процессоры AMD выступают совсем блекло, что совершенно неудивительно, ведь на самом деле в четырёхъядерниках Richland и Kaveri всего два блока FPU.

Всё это наглядно доказывает, что процессоры семейства Kaveri с точки зрения вычислительной x86-производительности интересны не более чем их предшественники. Что бы ни говорила AMD о сделанном микроархитектурном рывке и о возможности сопоставления новинок с четырёхъядерниками конкурента, все такие заявления разбиваются о суровую реальность. Впрочем, о практической производительности Kaveri в общеупотребительных приложениях мы ещё поговорим ниже, а пока давайте обсудим то, что у AMD получается гораздо лучше x86-ядер – встроенный графический ускоритель.

Графическое ядро Spectre


Интегрированное графическое ядро процессоров Kaveri, получившее кодовое имя Spectre, также как и вычислительные ядра, обновило свою архитектуру. Если в процессорах Richland графика базировалась на архитектуре VLIW4, то теперь встроенный GPU имеет новейшую архитектуру GCN 1.1. Это означает, что интегрированный в Kaveri GPU по своим возможностям приведён в соответствие с современными видеоускорителями: он основывается на той же архитектуре, что и видеокарты AMD семейства Volcanic Islands. Конечно, количество шейдерных процессоров в Spectre по сравнению с флагманскими видеокартами Hawaii значительно уменьшено, но, тем не менее, встроенный в Kaveri графический ускоритель относится к классу Radeon R7 и поддерживает все современные программные интерфейсы, включая DirectX 11.2, OpenGL 4.3 и проприетарный интерфейс Mantle.


Никаких принципиальных изменений при переносе архитектуры GCN из видеокарт в гибридные процессоры сделано не было, поэтому основным структурным элементом графики остались вычислительные кластеры (Compute Unit), имеющие по 64 совместимых со стандартом IEEE 2008 шейдерных процессора, массив которых наделён четырьмя векторными и 16 текстурными блоками. В максимальной конфигурации графическое ядро Kaveri может содержать до восьми таких вычислительных кластеров, плюс геометрический сопроцессор и до восьми блоков растровых операций, способных обрабатывать до 8 пикселей за такт или до 32 пикселей – в режиме без цвета.


Таким образом, суммарно графическое ядро Kaveri может иметь до 512 шейдерных процессоров, то есть по этой характеристике новый APU находится где-то между очень неплохими видеокартами среднего уровня Radeon R7 250 и Radeon R7 250X. Всё это позволяет AMD говорить о теоретической суммарной производительности GPU Spectre на уровне 737 Гфлопс. Однако следует напомнить, что игровое быстродействие встроенной в процессоры графики во многом ограничивается пропускной способностью шины памяти, а не мощностью шейдерных процессоров видеоядра. Поэтому, в действительности, производительность Spectre всё же ниже, чем у 100-долларовых дискретных видеокарт.


Впрочем, помимо интерфейса памяти, GPU из процессоров Kaveri по сравнению со своими дискретными собратьями не имеет никаких других архитектурных ограничений. Так, Spectre обрабатывает и растеризует до одного геометрического примитива за каждый такт, имеет увеличенную кэш-память для хранения параметров примитивов и улучшенную производительность геометрических шейдеров и аппаратной тесселяции, для чего в GCN сделаны улучшения в буферизации данных.

Однако главная особенность Kaveri, на которую особенно напирает AMD, это – возможность использования ресурсов графического ядра для вычислений с поддержкой модели разделяемой с x86-ядрами оперативной памяти. Для этой цели в видеоядре в полном объёме присутствует пул из восьми независимых движков асинхронных вычислений, которые могут работать параллельно с графическим командным процессором и обслуживать до восьми очередей команд каждый. Эти движки имеют прямой доступ к кеш-памяти и контроллеру памяти процессора, за счёт чего и реализуется набор технологий, упрощающий организацию гетерогенных вычислений HSA.


Фактически, движки асинхронных вычислений способны работать как отдельные вычислители, и это позволяет AMD на полном серьёзе представлять Spectre как дополнительные восемь процессорных ядер. Для этого компания оперирует собственным определением вычислительного ядра – AMD представляет его как программируемый аппаратный блок, способный выполнять в своём собственном контексте независимо от других ядер по крайней мере один процесс в виртуальной памяти. Но тут, конечно, нужно понимать, что такие вычислительные квазиядра из GPU требуют собственный программный код и могут быть задействованы лишь в специально разработанном программном обеспечении, осуществляющим параллельную обработку данных.

Говоря о смежных возможностях графического ядра Kaveri, нельзя не упомянуть и о том, что в нём, как и в современных видеокартах, присутствует звуковой сопроцессор TrueAudio, предназначенный для создания аппаратно ускоряемых динамических пространственных звуковых эффектов. Кроме того, как и раньше, в процессоре сохранились выделенные движки VCE и UVD для кодирования и декодирования видеоконтента высокого разрешения. При этом их возможности в очередной раз расширены. Номер версии VCE за счёт улучшения качества кодирования путём внедрения B-кадров в цветовом пространстве YUV420 и поддержки цветовой модели YUV444 увеличился до второго. А номер версии UVD возрос до четвёртого: здесь улучшилась устойчивость при обработке видеопотока с ошибками.

Немного о маркетинге: HSA


Раньше было принято ругать маркетинговый департамент компании AMD, который из рук вон плохо справлялся с продвижением новинок и новых технологий. Теперь же ситуация кардинально изменилась, маркетинг AMD умудряется даже пробуждать в пользователях интерес к тем возможностям, которых ещё нет в реальности. Именно такая история произошла и с HSA: в процессоры Kaveri всего лишь заложена аппаратная база для общего доступа к памяти всех типов ядер (и вычислительных, и графического), но AMD взялась рьяно продвигать новую технологию, демонстрируя впечатляющие графики и обещая гигантский рывок в производительности.


Однако на самом деле никакого HSA пока нет. Для внедрения и использования HSA-возможностей помимо аппаратной совместимости требуется создание программной инфраструктуры, а её не существует даже в самом минимальном виде. В первую очередь, AMD пока не выпустила HSA-совместимый драйвер, и поэтому говорить о каком-то общедоступном программном обеспечении сильно преждевременно. Конечно, программы, использующие HSA-возможности, в конце концов, появятся, но произойдёт это, очевидно, не завтра или послезавтра, а значительно позже – тогда, когда процессоры семейства Kaveri, скорее всего, будут уже неактуальны. Сейчас же поддержка HSA в Kaveri может быть интересна лишь разработчикам программ, которые могут получить в своё распоряжение аппаратное средство для отладки своих перспективных продуктов.

Все же существующие на данный момент приложения с поддержкой гетерогенных вычислений пользуются программным интерфейсом OpenCL 1.2, который никакого уравнивания в правах для разных типов ядер не предусматривает. Поэтому с точки зрения обычного пользователя Kaveri – это ровно такой же по возможностям гибридный процессор, как и его предшественники поколения Richland. Тем не менее, учитывая заложенную в Kaveri аппаратную поддержку HSA, пару слов о ней всё-таки следует сказать. Однако не забывайте, здесь мы говорим лишь о том, как всё должно будет работать в отдалённой перспективе.

Итак, основная идея гетерогенных вычислений заключается в том, что многие задачи могут выполняться на параллельных потоковых процессорах графических ядер быстрее и с меньшими затратами энергии, нежели на скалярных x86-ядрах. Комбинируя и те, и другие ресурсы, можно получить универсальную аппаратную базу для эффективного выполнения широкого спектра задач. Однако на ранних стадиях процессоры с гетерогенным дизайном не могли завоевать широкую популярность. Проблема заключалась в том, что для их использования нужны были специальные программы, создание которых вызывало у разработчиков большие трудности. Технологии же семейства HSA способны с одной стороны существенно упростить программирование алгоритмов, работающих в гетерогенной среде, а с другой – увеличить их производительность.


Первая составляющая HSA – технология hUMA (Heterogeneous Uniform Memory Access). В её рамках новые гибридные процессоры могут получить простой путь доступа ко всей системной памяти вне зависимости от того, какой частью APU сгенерирован соответствующий запрос. Иными словами, любое из ядер Kaveri (вне зависимости от того, ядро ли это с x86-архитектурой или графическое ядро) имеет равноценный и простой доступ непосредственно в кэш и системную память. Аппаратная реализация hUMA в Kaveri обеспечивает когерентность кеш-памяти и даёт графическому ядру возможность работать не только с физической, но и с виртуальной памятью в рамках 32-гигабайтного адресного пространства. Иными словами, hUMA убирает любые ограничения и любое разделение памяти на системную и видеопамять.

Вторая важная технология, базирующаяся на HSA и делающая Kaveri по-настоящему гетерогенным процессором, это hQ (Heterogeneous Queuing). Сейчас вся вычислительная нагрузка так или иначе проходит через процессорные ядра, в том числе и та, которая предназначена для решения на графическом ядре. За отправку задач на GPU и контроль их исполнения в любом случае отвечают x86-ядра, что вносит дополнительные задержки. Новый же подход к организации вычислений, hQ, разрешает графическому ядру взаимодействовать с приложением и другими ядрами не под управлением CPU, а напрямую, уравнивая ядра с различной природой в своих правах. Иными словами, hQ стирает грани между ролями CPU и GPU, уменьшает задержки и упрощает параллельную обработку данных разнородными ядрами. GPU, как и CPU, получает право создавать и отправлять вычислительные потоки на исполнение.

С теоретических позиций HSA выглядит многообещающе. AMD рассчитывает, что использование этой технологии станет обычным делом в приложениях для воспроизведения и обработки изображений и видео; в интерфейсах нового поколения, основанных на распознавании голоса, жестов и лиц; а также в играх, где HSA-возможности могут задействоваться при физических расчётах или при моделировании искусственного интеллекта.


Осталось только дождаться появления соответствующих программ, использующих оптимизированный под HSA интерфейс OpenCL 2.0, но оно предвидится не ранее следующего года.

Полупроводниковый кристалл Kaveri и новый техпроцесс


Рассмотрев составные части (CPU и GPU) гибридного процессора Kaveri, логично перейти к комплексному знакомству с ним. И вот на этом уровне, к сожалению, AMD может порадовать своих поклонников не слишком многим. Kaveri, как и их предшественники Trinity и Richland, собраны на базе двух двухъядерных процессорных модулей Steamroller и GPU. Иными словами, гибридные процессоры нового поколения сохраняют в максимальной конфигурации четырёхъядерный дизайн и принципиально превосходят предшественников лишь по оснащённости интегрированного графического ядра Radeon R7. Оно не только несёт новую архитектуру GCN 1.1, но и может располагать набором из 512 шейдерных процессоров, число которых стало на треть больше, чем было в максимальных версиях APU прошлого поколения.
На фоне того, что улучшений в микроархитектуре Steamroller не так много, процессоры Kaveri стали ещё более графически-ориентированными. Если в Richland на долю x86-части приходилось 58 процентов транзисторного бюджета, то в новом Kaveri эта доля снизилась до 53 процентов. Но в целом новый APU стал гораздо сложнее своего предшественника. Прошлые версии гибридных процессоров AMD состояли из примерно 1,3 млрд. транзисторов, полупроводниковый же кристалл Kaveri включает 2,41 млрд. транзисторов. А это даже больше количества транзисторов в процессорах Intel Haswell с графикой GT3, которое ограничивается величиной 1,8 млрд. штук. Так что Kaveri выступают прекрасной иллюстрацией того, что высокая сложность полупроводникового кристалла не обязательно конвертируется в высокую производительность, а вот производственные проблемы создаёт заметные.


Для массового выпуска Kaveri компания AMD прибегла к более современному техпроцессу с 28-нм нормами. Производственным партнёром была выбрана GlobalFoundries, сумевшая перенастроить своё оборудование для выпуска APU. Новый техпроцесс был специально оптимизирован для сверхплотного размещения транзисторов на кристалле и получил название SHP (Super High Performance). При этом от технологии SOI было решено отказаться. В результате полупроводниковый кристалл Kaveri удалось разместить на площади 245 мм2, то есть по физическому размеру он почти эквивалентен 32-нм кристаллу процессоров Richland.


Полупроводниковый кристалл Kaveri

Однако обратной стороной сверхплотного размещения транзисторов стала необходимость снижения их рабочей частоты. Максимальная частота CPU-части Kaveri не превышает 3,7 ГГц, а GPU работает на частоте не выше 720 МГц. Частоты же их предшественников Richland, производимых по 32-нм технологии с SOI, доходили до 4,1 ГГц в части CPU и до 844 МГц – в части GPU. То есть были выше примерно на 10-15 процентов. В качестве компенсации AMD обещает в новых APU некоторое снижение тепловыделения, и для настольных модификаций этих гибридных процессоров предполагаются тепловые пакеты 95/65/45 Вт. Richland же имели максимальное расчётное тепловыделение на уровне 100/65/45 Вт, но модели с 45-ваттным тепловым пакетом в широкую продажу не попадали. Впрочем, как показывает практика, с выпуском энергоэффективных Kaveri всё оказалось тоже не так просто, и пока модели с типичным тепловыделением меньше 95 Вт остаются недоступны.

В итоге, сегодняшний модельный ряд процессоров Kaveri для десктопов состоит всего из двух представителей: AMD A10-7850K и AMD A10-7700K. Обе модели имеют по четыре x86-ядра, но различаются частотами. A10-7850K имеет базовую частоту 3,7 ГГц, а AMD A10-7700K – 3,4 ГГц. Технология Turbo Core способна при низкой нагрузке повышать эти величины до 4,0 ГГц в первом случае и до 3,8 ГГц – во втором. Кроме того, процессоры различаются и количеством шейдерных процессоров. Их максимальное количество заложено лишь в модели A10-7850K, которая обладает 512 шейдерами. Во второй же модели из ряда A10, A10-7700K, возможности GPU урезаны на четверть: число шейдерных процессоров сокращено до 384, то есть до уровня Richland. Частота графического ядра у обеих моделей Kaveri установлена в 720 МГц.

Платформа Socket FM2+


Ещё одной новостью, сопряжённой с выходом процессоров Kaveri, стало появление специально предназначенной для них платформы Socket FM2+, вводящей в употребление новый процессорный разъём. Изначально вся эпопея с его обновлением была затеяна с целью добавления в платформу поддержки DDR4 SDRAM, но в процессе разработки что-то пошло не так, и контроллер памяти Kaveri такую возможность утратил, ограничившись двумя стандартными каналами DDR3 SDRAM. Впоследствии AMD отказалась и от поддержки DDR4 в следующем поколении APU компании, Carrizo, которое должно быть совместимо с Socket FM2+. Поэтому на деле получилось так, что новый процессорный разъём введён в употребление лишь с целью искусственного обновления парка материнских плат.


Вполне закономерно, что Socket FM2+ очень похож на Socket FM2 по внешнему виду и отличается от него лишь расположением контактов-ключей, физически не дающих установить новые процессоры Kaveri в старые материнские платы с Socket FM2. При этом новые платы с Socket FM2+ обратную совместимость со старыми процессорами сохраняют, и в них вполне допускается устанавливать представителей семейств Trinity и Richand. Нет никаких проблем и с использованием с Socket FM2+ платами старых процессорных систем охлаждения — здесь также сохранена полная совместимость.


Слева – Socket FM2; справа – Socket FM2+

Материнские платы с разъёмом Socket FM2+ доступны на рынке уже достаточно давно, и с поиском подходящей платформы для Kaveri у покупателей этих процессоров проблем явно не возникнет. Все такие платы основываются на новых наборах логики семейства Bolton (A88X и A78), которые по спецификациям практически не отличаются от своих предшественников Hudson (A85X и A75).


Новые возможности, предлагаемые материнскими платами с Socket FM2+, ограничиваются поддержкой графической шины PCI Express x16 3.0 и более скоростных вариантов DDR3-памяти — вплоть до DDR3-2400. Но и то и другое, на самом деле, идёт от самих процессоров Kaveri, в которых AMD обновила контроллер шины PCI Express и подтянула параметры контроллера памяти. То есть, при установке в плату с разъёмом Socket FM2+ процессоров прошлых поколений, поддержки графической шины PCI Express x16 третьей версии и DDR3-2400 SDRAM не будет.

Есть лишь одна новая возможность, появившаяся непосредственно в наборах логики A88X и A78. Это – обновлённый SATA RAID контроллер, в котором для массивов уровня RAID 0, собранных из твердотельных накопителей, добавилась поддержка команды TRIM.

Тестовый процессор: A10-7850K


Для проведения настоящего тестирования мы получили в своё распоряжение старший десктопный APU поколения Kaveri – A10-7850K. Его характеристики в сравнении с флагманским гибридным процессором Richland выглядят следующим образом:


Как видно из таблицы, старшая модель линейки Kaveri дороже A10-6800K, но при этом предлагает не слишком много преимуществ. Фактически, она лучше лишь с точки зрения мощности GPU, который не только переведён на новую архитектуру, но и располагает увеличенным количеством шейдерных процессоров. Правда, ограничивать графическую производительность A10-7850K будет не мощность графического ядра, а пропускная способность памяти. Ведь не даром дискретный видеоускоритель Radeon R7 250, который обладает даже меньшим массивом из 384 шейдеров, снабжается GDDR5 SDRAM с пропускной способностью 73,6 Гбайт/с. А у A10-7850K при условии его комплектования двухканальной DDR3-2133 максимальная пропускная способность шины памяти составляет всего лишь 34,1 Гбайт/с.


Частота графики при 3D-нагрузке составляет 720 МГц, а в 2D-режиме в целях экономии она снижается до 350 МГц. Надо сказать, что графика в Richland использовала более высокие частоты, поэтому разница в теоретической производительности AMD A10-7850K и AMD A10-6800K составляет примерно 13 процентов в пользу нового APU (737 против 648 Гфлопс).


С производительностью же вычислительной части, очевидно, дело будет обстоять несколько хуже. Мало того, что новая микроархитектура Steamroller даёт лишь совсем небольшое улучшение в количестве исполняемых за такт инструкций, так ещё и частоты A10-7850K ощутимо ниже, чем у его предшественника. При этом AMD не стесняется устанавливать на свою новинку цену на уровне младших моделей Core i5, что, исходя из всего сказанного выше, кажется слишком много. Впрочем, может быть мы что-то упускаем из вида?


Согласно показаниям диагностической утилиты CPU-Z, A10-7850K при полной нагрузке на все ядра работает с частотой 3,7 ГГц при номинальном напряжении 1,328 В, которое почти не отличается от привычного напряжения питания гибридных процессоров AMD прошлых поколений. Технология Turbo Core работает у Kaveri вполне ожидаемо, поднимая его частоту до 4,0 ГГц при нагрузке на один из двух модулей Steamroller. Приятно, что AMD в Kaveri смогла окончательно разобраться с формулой частоты CPU, и в процессе тестирования при реальной процессорной нагрузке мы не сталкивались со снижением частоты ниже штатных 3,7 ГГц – раньше, как вы помните, такие ситуации возникали. В моменты же простоя при работе энергосберегающих технологий частота A10-7850K падает до 1,7 ГГц. Интегрированный северный мост процессора работает на более низкой, нежели сам CPU, частоте. Она у рассматриваемой модели составляет 1,8 ГГц.

Поставляется процессор A10-7850K во вполне привычной для APU компании AMD коробке, оформленной в красно-чёрных тонах. На коробке обозначено, что процессор относится к серии Black Edition, и это правда – коэффициенты умножения у него разблокированы, так что простой разгон как CPU-, так и GPU-части вполне возможен.


В комплект поставки с процессором входит простенький кулер, состоящий из алюминиевого радиатора и 70-мм вентилятора AVC DESC0715B2U с ШИМ-управлением скорости вращения.


К сожалению, кулер этот нельзя назвать сколь-нибудь подходящим для серьёзных нагрузок. На максимальной скорости, достигающей 4100 оборотов в минуту, его вентилятор ведёт себя шумновато, да и вся эта конструкция справляется с охлаждением A10-7850K только при его работе в штатном режиме.

Как мы тестировали


Процессор AMD A10-7850K, выступающий главным героем настоящего обзора, мы сравнивали не только с его предшественником, но и с конкурирующими предложениями компании Intel, продающимися за сравнимый бюджет. Это значит, что помимо старшего Kaveri из продукции AMD в тестировании приняла участие максимальная модель Richland – A10-6800K. А из интеловских CPU нам пришлось выбрать сразу два варианта Haswell: самый быстрый на данный момент двухъядерник Core i3-4340 и младший четырёхъядерник Core i5-4430. Имейте в виду: по своей стоимости A10-7850K близок к четырёхъядерным процессорам конкурента, но с точки зрения производительности вычислительных ядер мы ожидаем, что он сможет тягаться лишь с Haswell двухъядерной конфигурации.

Во время тестирования графических возможностей A10-7850K нам также пришлось прибегнуть к использованию набора из дискретных видеоускорителей. В их число вошли серийные видеокарты Radeon R7 240 и Radeon R7 250 в вариантах с DDR3 и GDDR5 памятью, производимые компаниями ASUS и Gigabyte.

В итоге, состав тестовых систем включал следующие программные и аппаратные компоненты:

Процессоры:

AMD A10-7850K (Kaveri, 4 ядра, 3,7-4,0 ГГц, 2x2 Мбайт L2);
AMD A10-6800K (Richland, 4 ядра, 4,1-4,4 ГГц, 2x2 Мбайт L2);
Intel Core i5-4430 (Haswell, 4 ядра, 3,0-3,2 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i3-4340 (Haswell, 2 ядра + HT, 3,6 ГГц, 2x256 Кбайт L2, 4 Мбайт L3).

Процессорный кулер: NZXT Havik 140.
Материнские платы:

ASUS A88X-PRO (Socket FM2+, AMD A88X);
Gigabyte Z87X-UD3H (LGA 1150, Intel Z87 Express).

Память: 2 x 8 GB DDR3-2133 SDRAM, 9-11-11-31 (G.Skill [TridentX] F3-2133C9D-16GTX).
Видеокарты:

ASUS R7250-1GD5 (Radeon R7 250, 1 Гбайт/128-бит GDDR5, 1000-1050/4600 МГц);
ASUS R7240-2GD3-L (Radeon R7 240, 2 Гбайт/128-бит DDR3, 730-780/1800 МГц);
Gigabyte GV-R725OC-2GI (Radeon R7 250, 2 Гбайт/128-бит DDR3, 1000-1050/1800 МГц);
NVIDIA GeForce GTX 780 (3 Гбайт/384-бит GDDR5, 863-902/6008 МГц).

Дисковая подсистема: Intel SSD 520 240 GB (SSDSC2CW240A3K5).
Блок питания: Corsair AX760i (80 Plus Platinum, 760 Вт).
Операционная система: Microsoft Windows 8.1 Enterprise x64;
Драйверы:

AMD Chipset Drivers 13.12;
AMD Catalyst 14.3 Beta 1 Driver;
Intel Chipset Driver 9.4.0.1027;
Intel HD Graphics Driver 15.33.18.64.3496;
Intel Management Engine Driver 9.0.2.1345;
Intel Rapid Storage Technology 12.9.0.1001;
NVIDIA GeForce 335.23 Driver.

Обратите внимание, измерение x86-производительности процессоров мы проводили с использованием видеокарты NVIDIA GeForce GTX 780 Ti. Что же касается тестов со встроенной в процессоры графикой, то им посвящены отдельные разделы данной статьи.

Производительность CPU



Общая производительность

Для оценки производительности процессоров в общеупотребительных задачах мы традиционно используем тест Bapco SYSmark 2012, моделирующий работу пользователя в распространённых современных офисных программах и приложениях для создания и обработки цифрового контента. Идея теста очень проста: он выдаёт единственную метрику, характеризующую средневзвешенную скорость компьютера. С выходом Windows 8 бенчмарк SYSmark 2012 обновился до версии 1.5, и мы теперь используем именно эту адаптированную версию.


А вы ждали чего-то другого? Как было показано выше, микроархитектурные улучшения в x86-ядрах процессоров Kaveri дают крайне незначительное улучшение удельной производительности по сравнению с их предшественниками. А вот частота у A10-7850K заметно ниже, чем у A10-6800K. В результате мы и получаем именно такую картину: новый Socket FM2+ процессор работает в традиционных общеупотребительных приложениях хуже, чем старый. Говорить при таком положении дел хоть о каком-то соперничестве с современными Core i3 и Core i5 совершенно невозможно. Тот итоговый показатель производительности, который выдал в SYSmark 2012 новый четырёхъядерный процессор AMD A10-7850K, превосходят даже интеловские Pentium.

Более глубокое понимание результатов SYSmark 2012 способно дать знакомство с оценками производительности, получаемое в различных сценариях использования системы. Сценарий Office Productivity моделирует типичную офисную работу: подготовку текстов, обработку электронных таблиц, работу с электронной почтой и посещение Интернет-сайтов. Сценарий задействует следующий набор приложений: ABBYY FineReader Pro 10.0, Adobe Acrobat Pro 9, Adobe Flash Player 10.1, Microsoft Excel 2010, Microsoft Internet Explorer 10, Microsoft Outlook 2010, Microsoft PowerPoint 2010, Microsoft Word 2010 и WinZip Pro 14.5.


В сценарии Media Creation моделируется создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео. Для этой цели применяются популярные пакеты компании Adobe: Photoshop CS5 Extended, Premiere Pro CS5 и After Effects CS5.


Web Development — сценарий, в рамках которого моделируется создание web-сайта. Используются приложения: Adobe Photoshop CS5 Extended, Adobe Premiere Pro CS5, Adobe Dreamweaver CS5, Mozilla Firefox 3.6.8 и Microsoft Internet Explorer 10.


Сценарий Data/Financial Analysis посвящён статистическому анализу и прогнозированию рыночных тенденций, которые выполняются в Microsoft Excel 2010.


Сценарий 3D Modeling всецело посвящён созданию трёхмерных объектов и рендерингу статичных и динамических сцен с использованием Adobe Photoshop CS5 Extended, Autodesk 3ds Max 2011, Autodesk AutoCAD 2011 и Google SketchUp Pro 8.


В последнем сценарии, System Management, выполняется создание бэкапов и установка программного обеспечения и апдейтов. Здесь задействуются несколько различных версий Mozilla Firefox Installer и WinZip Pro 14.5.


Худшую, чем Richland, производительность старший Kaveri показывает практически при любых типах нагрузки. Исключение из этого правила лишь одно – трёхмерное моделирование, да и то, превосходство A10-7850K над A10-6800K в этом сценарии составляет менее 3 процентов. Иными словами, если вас не волнует скорость работы встроенного графического ядра, Kaveri – явно неудачный выбор на фоне своего предшественника. Да и вообще, даже Core i3-4340, который стоит заметно дешевле A10-7850K, способен предложить существенно более высокую производительность в обычных приложениях, характерных для домашних или офисных компьютеров. Всё это недвусмысленно свидетельствует о том, что широкое признание Kaveri как добротному процессору для настольных систем явно не светит.

Игровая производительность

Как известно, производительность платформ, оснащенных актуальными процессорами, в подавляющем большинстве современных игр определяется мощностью графической подсистемы. Однако на Kaveri это не распространяется. Скорость его работы настолько низка, что разницу в частоте кадров в современных играх при использовании быстрой дискретной видеокарты можно увидеть даже при максимальных настройках качества. Поэтому тестирование в играх мы провели лишь единожды – с использованием FullHD-разрешения и высоких настроек качества. Наша высокопроизводительная видеокарта GeForce GTX 780 Ti позволяет увидеть существенные различия в процессорной скорости даже в этом случае.










Полученные в игровых тестах результаты ещё раз подтверждают всё сказанное выше. Вычислительная производительность A10-7850K хуже, чем предлагалась в A10-6800K. Процессор поколения Richland, хоть и основывается на микроархитектуре Piledriver, а не Steamroller, имеет на 10 процентов более высокую тактовую частоту и более агрессивную технологию Turbo Core. Этого вполне хватает, чтобы обеспечить большее количество кадров в секунду в играх при использовании дискретной видеокарты.

Впрочем, всё это в конечном счёте совсем неважно: ни один из современных APU компании AMD для использования в составе игровой системы с дискретной видеокартой совершенно не годится. Ни A10-7850K, ни A10-6800K не сравнимы по игровому быстродействию даже с двухъядерным Core i3-4340. Если вы регулярно читаете наши обзоры, то вряд ли это стало для вас сюрпризом: с невысокой игровой производительностью процессоров AMD мы сталкиваемся каждый раз, когда речь заходит о носителях микроархитектуры Bulldozer или её последователей.

Тесты в приложениях

Скорость финального рендеринга в программах трёхмерного моделирования мы оцениваем в Autodesk 3ds max 2014. В этом пакете мы измеряем время визуализации в mental ray специально подготовленной сложной сцены.


Случаев, где вычислительная производительность современных процессоров Kaveri не вызывает отрицательных эмоций, существует совсем немного. 3ds max 2014, пожалуй, можно отнести к числу приложений, где быстродействие A10-7850K сравнительно неплохо. Пусть новый четырёхъядерник AMD и не дотягивает по скорости до младшего четырёхъядерного Haswell, но он хотя бы не отстаёт от двухъядерного Core i3-4340. Кстати, здесь же можно увидеть положительное влияние микроархитектурных улучшений, сделанных в Steamroller: A10-7850K опережает A10-6800K на целых 18 процентов.

Измерение производительности в текущей версии Adobe Photoshop CC мы проводим с использованием собственного теста, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, включающий типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.


В Photoshop же складывается вполне обычная картина производительности. Новый A10-7850K работает не быстрее своего предшественника A10-6800K, от которого он отстаёт на 5 процентов, а в сравнении с процессорами Intel его быстродействие просто позорно. Даже двухъядерный Core i3-4340 опережает старшую четырёхъядерную модель Kaveri на 42 процента.

Производительность в современном пакете для нелинейного видеомонтажа Adobe Premiere Pro CC тестируется измерением времени рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов.


Здесь A10-7850K, построенному на микроархитектуре Steamroller, удаётся немного опередить носителя микроархитектуры Piledriver. Однако в целом ситуацию это не меняет. Четыре ядра от AMD работают заметно хуже современного двухъядерного процессора компании Intel с поддержкой технологии Hyper-Threading. Сопоставлять же AMD A10-7850K с процессором аналогичной стоимости, Core i5-4430, вообще бессмысленно: исходя из реальной производительности, это – CPU разных весовых категорий.

При тестировании в системе распознавания текста ABBYY FineReader 11.0 мы проводим перевод объёмного предварительно просканированного документа, содержащего большое количество формул и графической информации, в текстовый формат.


Мы последовательно тестировали новый Kaveri в очень разных программах, решающих совершенно непохожие задачи. Однако почти нигде нам так и не удалось увидеть, чтобы A10-7850K смог бы показать производительность, сравнимую с Core i5 или хотя бы с Core i3. В частности, при оптическом распознавании символов старший Kaveri проигрывает Core i3-4340 в скорости работы 17 процентов, а Core i5-4430 – 28 процентов. Также новый A10-7850K показывает традиционно худшую производительность, чем его Socket FM2-предшественник, A10-6800K.

Производительность процессоров при криптографической нагрузке измеряется встроенным тестом популярной утилиты TrueCrypt, использующим «тройное» шифрование AES-Twofish-Serpent. Следует отметить, что данная программа не только способна эффективно загружать работой любое количество ядер, но и поддерживает специализированный набор инструкций AES.


А вот она, единственная диаграмма в этом разделе, посвящённом x86-производительности Kaveri, которую могут взять на вооружение поклонники продукции компании AMD. A10-7850K здесь не только демонстрирует на 12 процентов лучшее быстродействие, нежели A10-6800K, но и опережает конкурирующие процессоры Intel.

Для измерения быстродействия процессоров при компрессии информации мы пользуемся архиватором WinRAR 5.0, при помощи которого с максимальной степенью сжатия архивируем папку с различными файлами общим объёмом 1.7 Гбайт.


Не даёт поводов для оптимизма и скорость архивации. Новая микроархитектура Steamroller не компенсирует произошедшее в Kaveri снижение тактовой частоты, поэтому A10-7850K затрачивает на сжатие того же объёма файлов больше времени, чем A10-6800K. Отставание же старшего гибридного процессора AMD от интеловских CPU того же класса доходит до полуторакратного размера.

Для оценки скорости перекодирования видео в формат H.264 использовался тест x264 FHD Benchmark 1.0.1 (64bit), основанный на измерении времени кодирования кодером x264 исходного видео в формат MPEG-4/AVC с разрешением 1920x1080@50fps и настройками по умолчанию. Следует отметить, что результаты этого бенчмарка имеют огромное практическое значение, так как кодер x264 лежит в основе многочисленных популярных утилит для перекодирования, например, HandBrake, MeGUI, VirtualDub и проч. Мы периодически обновляем кодер, используемый для измерений производительности, и в данном тестировании приняла участие версия r2389, в которой реализована поддержка всех современных наборов инструкций, включая и AVX2.


Кодирование видео – ещё одна задача наряду с финальным рендерингом и шифрованием, где процессору A10-7850K удаётся показать лучшее, чем A10-6800K, быстродействие. Более того, старший Kaveri почти дотягивает здесь по своей производительности до интеловского двухъядерника Core i3-4340. На фоне результатов в приложениях других типов – это весьма выдающийся результат для нового процессорного дизайна компании AMD.

Поскольку скорость перекодирования видео «голым» кодером x264 представляет скорее академический интерес, мы измерили и производительность при конвертировании при помощи популярной свободной утилиты Freemake Video Converter 4.1.0. Следует отметить, что эта утилита использует библиотеку FFmpeg, то есть, в конечном итоге также опирается на кодер x264, однако в ней сделаны определённые специфические оптимизации. При тестировании для создания максимальной нагрузки именно на вычислительные ядра процессоров технология CUDA отключалась, однако DXVA-оптимизации оставались активированы.


Freemake Video Converter пока не использует инструкции AVX2, поэтому здесь положение процессоров AMD, их не поддерживающих, ещё лучше. Четырёхъядерник A10-7850K опережает не только своего предшественника, но и двухъядерный CPU семейства Haswell, Core i3-4340. Впрочем, уровень этого преимущества невелик, поэтому говорить, что четырёхъядерные процессоры AMD с очередным обновлением микроархитектуры стали лучше двухъядерников Intel с точки зрения производительности x86-ядер, не приходится.

Производительность GPU


Итак, с самой неприятной для Kaveri частью тестирования покончено. Мы убедились в том, что скорость работы его x86-ядер не выдерживает никакой критики, и теперь попробуем посмотреть на новый APU с другой стороны – со стороны графической составляющей. Здесь A10-7850K должен дать нам поводы для оптимизма. Его графическое ядро имеет очень высокую по меркам процессоров с интегрированным GPU теоретическую производительность. Более того, AMD обещает, что Kaveri может позволить обойтись вообще без какой-либо дискретной видеокарты даже при использовании Socket FM2+ платформ в роли игровых систем. Согласно данным, распространяемым компанией, этот гибридный процессор способен обеспечить приемлемый уровень графической производительности (больше 30 кадров в секунду в FullHD-разрешении) не только в большинстве сетевых проектов, но и в популярных однопользовательских играх.

Давайте посмотрим, насколько эти утверждения соответствуют действительности. Для полноты картины в этом разделе A10-7850K мы сравнивали не только с прочими процессорами с интегрированными видеоускорителями, но и с относительно недорогими дискретными видеокартами: Radeon R7 240 и Radeon R7 250 в вариантах c DDR3 и GDDR5 SDRAM.

Для предварительной оценки относительного быстродействия графического ядра гетерогенного процессора Kaveri мы прибегли к синтетическому бенчмарку Futuremark 3DMark. Из состава пакета использовалось два подтеста: Cloud Gate, предназначенный для определения DirectX 10-производительности типовых домашних компьютеров, и более ресурсоёмкий Fire Strike, нацеленный на DirectX 11-игровые системы.




В том, что графическое ядро процессора A10-7850K имеет хорошую производительность, AMD была права. Как видно по результатам, оно способно составить достойную конкуренцию дискретным графическим картам, оснащаемым DDR3-памятью, не говоря уже об интегрированных GPU всех типов. Наиболее показательны в этом плане индексы производительности, полученные в наиболее требовательном 3DMark Fire Strike. Графическое ядро A10-7850K более чем вдвое опережает GPU класса GT2 из Haswell, в полтора раза превосходит встроенную графику Radeon HD 8670D из процессора A10-6800K и даже немного опережает дискретную видеокарту Radeon R7 250 с DDR3 памятью. Это вполне закономерно, ведь количество шейдерных процессоров у старшей версии Spectre доведено до 512, в то время как Richland и Radeon R7 250 довольствуются массивом из 384 шейдеров.

Однако, судя по всему, сравнительно невысокая пропускная способность двухканальной DDR3 SDRAM, используемой в Socket FM2+ системах, не даёт раскрыться потенциалу графического ядра A10-7850K в полной мере. Видеокарта Radeon R7 250, оснащённая GDDR5 памятью, заметно обходит A10-7850K по производительности, несмотря на то, что её графический движок по спецификациям явно слабее. Совершенно очевидно, что если AMD захочет продолжать наращивать мощность встроенной графики, она в первую очередь должна озаботиться либо переходом на подсистемы памяти с принципиально большей пропускной способностью, либо внедрением в процессор какого-либо объёмного высокоскоростного кэша, как это, например, сделано у конкурента в Intel Iris Pro Graphics.

Впрочем, 3DMark – это сугубо синтетический тест, и делать какие-то общие выводы, опираясь лишь на его показатели, было бы не совсем верным. Потому давайте посмотрим, как проявляют себя встроенные графические ядра в реальных играх. Тесты в них запускались в двух режимах: при полноценном FullHD-разрешении 1920x1080 с низкими или средними настройками качества и при разрешении 1280x720 с выбором среднего или высокого качества. Полноэкранное сглаживание, естественно, не применялось.




Battlefield 4 – один из самых популярных многопользовательских шутеров, который создаёт достаточно серьёзную нагрузку на графические ресурсы. Тем не менее, интегрированное в A10-7850K графическое ядро демонстрирует в нём свою полную состоятельность. Оно вполне способно обеспечить приемлемую играбельность в FullHD-разрешении, а с определёнными оговорками можно даже попробовать задействовать средние настройки качества. Никакие другие интегрированные GPU такого уровня быстродействия не предлагают.

Если же снизить разрешение до уровня 720p, то доступным для A10-7850K станет и высокое качество изображения. Впрочем, обратите внимание, здесь A10-7850K всё-таки уступает дискретным видеокартам класса Radeon R7 250, вне зависимости от того, какой памятью они снабжены. Это наводит на мысль о том, что слабым местом Spectre является не только общая с процессорной частью шина памяти, но и невысокая рабочая частота.




F1 2013 — компьютерная игра в жанре гоночного автосимулятора, разработанная компанией Codemasters и базирующаяся на технологии EGO 3.0, используемой также в семействах DiRT и GRiD. Подобные игры не отличаются слишком высокими требованиями к графической производительности системы, поэтому даже на интегрированной графике F1 2013 можно использовать с высокими настройками качества. И хотя в этом случае графика A10-7850K проигрывает дискретным видеоускорителям класса Radeon R7 250, частоту кадров она выдаёт более чем достаточную. Впрочем, надо признать, что для F1 2013 подойдут и процессоры Haswell с графическим ядром GT2 – они в FullHD-разрешении отстают от A10-7850K всего на 5 процентов. Здесь играет роль то, что F1 2013 процессорозависима, а с быстродействием скалярных x86-ядер дело у Kaveri обстоит, мягко говоря, не очень хорошо.




Metro: Last Light – далеко не новый шутер от первого лица, но его всё ещё можно отнести к числу наиболее требовательных к аппаратным компонентам компьютера. Поэтому здесь мы сталкиваемся с тем, что мощности графики A10-7850K для обеспечения приемлемой частоты кадров в FullHD-разрешении хватает далеко не всегда. Даже при самом минимальном качестве изображения новый APU компании AMD вызовет желание снизить разрешение, например, до 720p, где настройки изображения можно будет улучшить уже до среднего уровня. Судя по всему, корень проблемы, возникшей у A10-7850K с Metro: Last Light в FullHD, кроется в недостаточной полосе пропускания памяти. Так, результат DDR3-версии Radeon R7 250 ещё ниже, а преимущество A10-7850K над A10-6800K составляет всего лишь 6 процентов несмотря на всю серьёзность архитектурных различий между их GPU.




Последний приключенческий боевик от третьего лица, вышедший в серии Tomb Raider, предлагает чрезвычайно насыщенный, реалистичный и богатый графическими эффектами игровой мир. Тем не менее, игра с минимальными настройками неплохо идёт и на интегрированной графике, выдавая приемлемый уровень fps на гибридных процессорах AMD даже в FullHD разрешении. Заслуга же Kaveri здесь в том, что в разрешении 1980x1080 он позволяет выставить даже среднее качество изображения, частота же кадров при этом остаётся на приемлемом уровне. Впрочем, графическая карта Radeon R5 250, располагающая всего 384 шейдерными процессорами, но при этом снабжённая GDDR5 памятью, работает быстрее A10-7850K в полтора раза. Отличие же в производительности нового флагманского APU и его предшественника поколения Richland составляет лишь 6 процентов, что в очередной раз приводит нас к выводу о том, что 512 шейдерных процессоров в Kaveri явно избыточны, а инженерам AMD следовало бы в первую очередь задуматься об оптимизации подсистемы памяти.




Популярнейший многопользовательский танковый аркадный симулятор World of Tanks – одна из тех игр, уровень быстродействия в которой волнует очень многих игроков. И здесь A10-7850K показывает себя достаточно неплохо. Фактически, можно говорить, что мощности встроенной в этот APU графики будет достаточно для комфортной игры в FullHD-разрешении при средних настройках качества. Однако отличие в графической производительности Kaveri от старшего процессора Richland вновь весьма незначительно. И это значит, что главная проблема встроенного в A10-7850K графического движка – недостаточная пропускная способность шины памяти – всплывает и здесь. Так, дискретная видеокарта Radeon R7 250 с меньшей вычислительной теоретической производительностью, но быстрой GDDR5-памятью обеспечивает примерно на 38 процентов более высокую скорость.

Подводя итог тестам графической производительности Kaveri в игровых приложениях, отметим, что скорость A10-7850K действительно оказалась заметно выше скорости всех прочих процессоров с интегрированной графикой. Внедрение архитектуры GCN и увеличение числа шейдерных процессоров позволило добиться примерно 10-процентного преимущества встроенного GPU процессора A10-7850K над A10-6800K. И этого оказалось достаточно для того, чтобы многие игры смогли работать в Socket FM2+ системе на базе A10-7850K без дополнительной видеокарты в FullHD-разрешении даже со средними настройками качества.

Однако, к сожалению, графический движок нового гибридного процессора компании AMD нельзя назвать всеядным. Как показывает практика, некоторые требовательные шутеры в FullHD-разрешении всё-таки просаживают производительность Kaveri даже при самых минимальных настройках. Причём, проблема в этом случае заключается не в недостаточной мощности графического ядра, а в том, что дизайн Kaveri не обеспечивает его памятью с удовлетворительным быстродействием. Двухканальная DDR3 SDRAM сдерживает графический потенциал встроенного GPU Spectre и не даёт ему показать всё, на что он способен.

Гетерогенная производительность


Раньше, говоря о производительности гибридных процессоров, раздельным тестированием CPU и GPU можно было бы и ограничиться. Теперь же ситуация изменилась, так как появился целый пласт задач, которые могут активно задействовать одновременно ядра разного типа. Такие гетерогенные приложения пользуются фрейморком OpenCL 1.1, предлагающим средства для переноса части параллельной вычислительной нагрузки на шейдерные конвейеры графического процессора. AMD считает, что большинство задач для обработки и создания медийного контента вполне способно на распределение нагрузки по всем, предоставляемым современными APU, вычислительным ресурсам, за счёт чего скорость их решений может быть серьёзна увеличена. Собственно, концепция HSA, которая в перспективе может быть внедрена в практическое использование, должна сделать такое совместное использование вычислительных ресурсов CPU и GPU более простым и доступным.

Но на данный момент до внедрения HSA ещё далеко. Тем не менее приложения, которые всё же используют мощности графического ядра для вычислений через OpenCL 1.1, существуют. В их число входят как и свободно распространяемые программные продукты


…так и коммерческое программное обеспечение.


В идеале, мы бы не хотели прибегать к отдельным тестам производительности в задачах, использующих OpenCL. Было бы гораздо лучше, если бы поддержка гетерогенных процессоров появилась в общеупотребительных приложениях, в том числе и тех, которые мы используем для обычного тестирования. Однако такого пока нет: гибридные вычисления внедрены далеко не везде, причём в подавляющем числе случаев OpenCL-ускорение применяется лишь для реализации каких-то конкретных операций, и, чтобы его увидеть, необходимо придумывать специальные тесты. Поэтому исследование гетерогенной производительности стало отдельной и независимой частью нашего материала.

Говоря о том приросте, который может дать вовлечение GPU в вычисления, AMD любит хвастаться результатами синтетических бенчмарков. Оно и понятно: одно дело – переделка уже имеющегося кода, а другое - разработка специальных алгоритмов для решения на параллельных процессорах графического ядра.

Наиболее известным тестом OpenCL-производительности выступает бенчмарк Basemark CL, которым мы и воспользовались при проведении нашего тестирования. Этот тест измеряет производительность APU при решении задач трёх типов: при обработке изображений (при шумоподавлении, сглаживании и увеличении резкости), при физическом моделировании (гидродинамических и волновых процессов, а также мягких субстанций) и при построении фракталов.


То, что специально подобранные задачи при выполнении на параллельных процессорах графического ядра могут получать гигантский прирост производительности, не вызывает никакого удивления. Собственно, Basemark CL и призван показать тот вычислительный потенциал, который скрыт в GPU современных интегрированных процессоров. И у процессоров AMD с мощным GPU он, очевидно, выше. При включении OpenCL-оптимизаций A10-7850K опережает процессоры Intel почти в два раза. Именно на подобные числа и опирается AMD. В мире, где большинство ресурсоёмких приложений будет работать не только на x86-ядрах, но и на параллельных шейдерных процессорах GPU, процессоры AMD могут оказаться лучше предложений конкурента. Вопрос лишь в том, окажемся ли когда-нибудь в этом мире мы.

Давайте теперь посмотрим на ситуацию, складывающуюся в реальных общеупотребительных программах. По традиции тестирование гетерогенных приложений мы начинаем с WinZIP, в прошлой версии которого появилась поддержка OpenCL. Впрочем, сразу же стоит отметить, что, как и в большинстве других случаев из реальной жизни, ускорение средствами графического ядра в WinZIP работает лишь изредка, при сжатии файлов объёмом более 8 Мбайт. Мы же для целей тестирования специально файлы не подбирали, а измеряли время архивации директории с дистрибутивом пакета Adobe Photoshop CC.


OpenCL-ускорение в WinZIP малозаметно и по сути ничего не меняет. Как интеловские процессоры работали быстрее в архиваторах, так и продолжают работать с включением OpenCL-поддержки. Более того, прирост скорости у процессоров Haswell даже больше, чем у Kaveri и Richland.

Экспериментальная поддержка OpenCL появилась в последних версиях офисного пакета Libre Office. В частности, в приложении Calc формульные расчёты могут выполняться с использованием мощностей GPU. Для целей тестирования мы измеряли время пересчёта таблицы с финансовыми данными.


В Libre Office Calc OpenCL-оптимизация пока не отшлифована окончательно, поэтому во многих случаях время производительность при переносе вычислений на GPU не повышается, а падает. Так и произошло в нашем случае. При этом ни при включении поддержки OpenCL, ни при её выключении, процессорам Kaveri не удаётся обойти по скорости работы интеловские Haswell.

Формальная поддержка OpenCL появилась и в популярном графическом редакторе Adobe Photoshop CC. Правда, на самом деле гетерогенные возможности APU используются лишь в работе нескольких фильтров. В частности, AMD рекомендует измерять производительность при выполнении операции Smart Sharpen, которую мы и проделали с 24-мегапиксельным изображением.


Тут всё работает как надо. Скорость работы фильтра Smart Sharpen при задействовании вычислительных мощностей GPU возрастает как на процессорах AMD, так и на интеловских CPU. При этом прирост производительности, который наблюдается в системе на базе Kaveri, выше, чем во всех остальных системах, но в итоге даже с OpenCL-оптимизациями A10-7850K проигрывает и Core i5-4430, и Core i3-4340. Значение быстрых x86-ядер для Photoshop переоценить очень сложно.

Ещё один пример популярного приложения, поддерживающего OpenCL, — это профессиональная программа для редактирования и монтажа видео Sony Vegas Pro 12. При выполнении в ней рендеринга видео нагрузка может распределяться по разнородным ресурсам гибридных процессоров.


Ситуация полностью аналогична предыдущему случаю. Гибридные процессоры AMD получают от включения в Sony Vegas OpenCL-алгоритмов существенный прирост, достигающий 60 процентов, однако это их не спасает от поражения. Во-первых, неплохо ускоряются и интеловские Haswell, графическое ядро которых также имеют поддержку OpenCL, а, во-вторых, даже при задействовании для вычислений встроенных GPU, производительность x86-ядер продолжает играть огромное значение. Иными словами, пока идея AMD о том, что быстрое графическое ядро и программные оптимизации позволят компании превзойти конкурента в производительности в приложениях, не работает.

Попутно хочется затронуть и ещё один аспект, связанный с переносом с x86-ядер на GPU алгоритмов транскодирования видео высокого разрешения. Отдельно обсудить этот пример следует потому, что в процессорах Intel имеется специальный движок Quick Sync, направленный на аппаратное ускорение операций этого типа. У AMD формально существует симметричный ответ – движок VCE, однако на практике он не используется, а существующие утилиты для перекодирования видео опираются на OpenCL-оптимизации. Для проверки того, какой прирост в скорости можно получить в этом случае, мы воспользовались программой MediaCoder 0.8.28. Оценка производительности проводилась с использованием исходного 1080p@50fps файла в AVC-формате из бенчмарка x246 FHD Benchmark 1.0.1, имеющего битрейт около 30 Мбит/с.


Задействование возможностей графического ядра через OpenCL при перекодировании видео позволяет процессорам AMD получить некоторый прирост в быстродействии. Однако конкурировать с Intel Quick Sync бесполезно. Эта аппаратная технология имеет очень высокую эффективность, которая пока недостижима никакими другими средствами.

В итоге, можно заключить, что даже в том существующем программном обеспечении, которое способно переносить часть нагрузки на шейдерные процессоры графического ядра, новые процессоры AMD Kaveri не достигают той производительности, которую могут предложить интеловские Haswell аналогичной стоимости. В теории, внедрение HSA может изменить эту расстановку сил, однако когда оно произойдёт на самом деле, и какой возымеет эффект в реальности, прогнозировать очень сложно.

Энергопотребление


Как показывают тесты, смена поколений гибридных процессоров компании AMD с Richland на Kaveri повлекла за собой не очень заметный прогресс в производительности. Но, кажется, с энергопотреблением и тепловыделением ситуация должна быть совсем иной. Во-первых, AMD при разработке нового процессорного дизайна ставила перед собой другие, более жёсткие, цели по TDP. Во-вторых, при производстве Kaveri применяется более совершенный техпроцесс. И, в-третьих, частоты новых процессоров класса A10 стали ниже, чем у их предшественников. Всё это даёт надежду на то, что новые гибридные APU смогут соперничать с конкурирующими предложениями хотя бы по экономичности. Проверим.

На следующих ниже графиках, если иное не оговаривается отдельно, приводится полное потребление систем (без монитора), измеренное на выходе из розетки, в которую подключен блок питания тестовой системы, и представляющее собой сумму энергопотребления всех задействованных в ней компонентов. В суммарный показатель автоматически включается и КПД самого блока питания, однако учитывая, что используемая нами модель БП, Corsair AX760i, имеет сертификат 80 Plus Platinum, его влияние должно быть минимально. Во время измерений нагрузка на вычислительные ядра процессоров создавалась 64-битной версией утилиты LinX 0.6.5 с поддержкой набора инструкций AVX, FMA и AVX2. Для создания нагрузки на графические ядра применялась утилита Furmark 1.13.0. Для правильной оценки энергопотребления в различных режимах мы активировали турбо-режим и все имеющиеся энергосберегающие технологии: C1E, C6, Enhanced Intel SpeedStep и Cool'n'Quiet.


Потребление современных процессоров в состоянии простоя близко к нулю, так что показатели, приведённые на графике выше, касаются скорее платформ в целом, нежели исследуемых APU. И здесь между платформами LGA 1150, Socket FM2 и Socket FM2+ практически нет различий. Все они демонстрируют хорошую экономичность при отсутствии нагрузки.


Зато при появлении процессорной нагрузки картина возвращается в привычное русло. Процессоры AMD потребляют больше конкурирующих предложений компании Intel, а производительность при этом показывают меньшую. Иными словами, Kaveri так и не смог приблизится к Haswell по показателю удельной x86-производительности в пересчёте на каждый ватт затраченной электроэнергии. Однако движение в правильном направлении не увидеть невозможно. По сравнению со старшим Richland потребление A10-7850K снизилось на целых 11 Вт.


Примерно такое же положение дел наблюдается и при графической нагрузке. A10-7850K потребляет заметно больше процессоров с дизайном Intel Haswell, но существенно меньше своего предшественника серии Richland. Очень похоже, что не увеличение производительности, а снижение энергопотребления – именно та основная задача, которая решалась инженерами AMD при разработке Kaveri.

Особенно впечатляющую картину энергопотребления можно наблюдать при полной и одновременной нагрузке на все ресурсы APU.


Здесь A10-7850K удаётся продемонстрировать лучшую энергоэффективность не только по сравнению со своим предшественником, но и на фоне четырёхъядерного процессора конкурента, Core i5-4430. Более того, старший четырёхъядерный Kaveri вплотную приблизился по своему энергопотреблению к двухъядерному Haswell.

Но постойте… Получается, что потребление A10-7850K при нагрузке только на x86-ядра и в случае задействования и вычислительных, и графических ядер почти не отличается. Как такое может быть? Да очень просто! Оказывается, в Kaveri производитель жёстко ограничил максимальное энергопотребление. И если работа ложится на все ресурсы процессора одновременно, частоты CPU и GPU сбрасываются, и очень даже существенно.


Частота CPU-части сбавляется до 3,0 ГГц, а графическое ядро периодически «роняет» свою частоту со штатных 720 МГц до 650 МГц. Именно поэтому максимальное энергопотребление Socket FM2+ платформы на базе A10-7850K ограничивается в тестах величиной 116 Вт.

Снижение частот при нагрузке – хороший приём для удержания энергетических аппетитов APU в заданных рамках. Однако при этом сильно страдает пиковая гетерогенная производительность, которой, кстати, так гордится AMD. Факты нам говорят о том, что заявления о максимальной обобщённой производительности A10-7850K на уровне 856 Гфлопс – это ложь, так как графическое и вычислительные ядра Kaveri одновременно на своей номинальной частоте работать не могут. Реальный показатель пиковой производительности для A10-7850K из-за снижения частот находится в районе 760 Гфлопс.

И, кстати, увиденное нами падение частоты – явление, с которым, вполне возможно, вскоре придётся сталкиваться достаточно часто. Внедрение гетерогенных вычислений как раз и предполагает одновременное и совместное функционирование всех ресурсов гибридного процессора, то есть создаёт именно те условия, при которых ядра Kaveri на номинальных частотах не работают.

Разгон


Старшая модель Kaveri, A10-7850K, формально относится к числу оверклокерских моделей, обладающих разблокированными множителями, — на это недвусмысленно указывает литера K в конце модельного номера и слова «Black Edition», которые указаны на коробке с APU. Но в данном случае это скорее дань традиции, нежели реальная сильная сторона новинок. Новый применяемый для изготовления Kaveri 28-нм техпроцесс совершенно не способствует появлению у этих APU нераскрытого частотного потенциала, и, более того, именно из-за него рабочие частоты A10-7850K стали ниже, чем у A10-6800K. Поэтому новые гибридные процессоры должны гнаться хуже своих предшественников, которые оверклокерскими возможностями тоже не блистали.

Это подтвердилось и на практике. Максимальной частотой, при которой наш экземпляр A10-7850K, с одной стороны, сохранял стабильность, а с другой — не снижал свою скорость из-за превышения предельной температуры, оказалась 4,4 ГГц. Напряжение питания на процессоре при этом пришлось поднять до 1,44 В.


Вместе с традиционной процессорной частью A10-7850K позволяет разогнать и встроенное в нём графическое ядро. В процессе испытаний с увеличением напряжения на северном мосту процессора до 1,3 В нам удалось добиться стабильности GPU при повышении его частоты в BIOS материнской платы до 900 МГц.


Процессор A10-7850K позволяет слегка разогнать в том числе и память. Однако максимальный режим, поддерживаемый контроллером Kaveri – DDR3-2400, и это – аппаратное ограничение. Досадно, но высокоскоростные режимы DDR3 SDRAM, доступные в LGA 1150-системах, в новой платформе AMD не работают. А ведь они вполне могли бы заметно улучшить скорость графического ядра, которому ой как не хватает быстрой памяти…

В результате проведённых испытаний, при одновременном разгоне CPU, GPU и DDR3 SDRAM нам удалось добиться повышения показателя 3DMark Fire Strike до 1785 балов. То есть, итоговая производительность разогнанной системы по сравнению с её изначальным состоянием выросла на 15 процентов.


Получается, что в целом процессоры Kaveri для оверклокерских экспериментов подходят не слишком здорово. Их разгонный потенциал кажется ограниченным даже на фоне APU прошлого поколения, Richland, которые позволяли увеличение частоты процессорной части где-то до 4,7-4,8 ГГц, а разгон графического ядра – до 1,2 ГГц. Новый же микроархитектурный дизайн ядер и 28-нм техпроцесс не только не дали никаких улучшений в оверклокерском потенциале, но и заметно ухудшили его.

Выводы


Да, в Kaveri есть некий набор новых технологий и улучшений, например, реализована аппаратная база для внедрения HSA, но обо всём этом можно говорить лишь в будущем времени и в теоретическом ключе.
Продвигая Kaveri на рынок настольных систем, маркетинговый департамент AMD предъявляет сразу несколько козырей. В их числе: имеющая более высокую чем раньше эффективность микроархитектура Steamroller; построенное на архитектуре GCN быстрое графическое ядро; поддержка спецификации HSA, которая должна посодействовать переходу индустрии на гетерогенные вычисления; и всё это вместе – по доступной цене.


Но на самом деле все эти козыри очень спорны. Новая микроархитектура Steamroller дала крайне незначительный прирост производительности, который полностью нейтрализовали пониженные частоты новых процессоров. В результате, старшие десктопные Richland с точки зрения x86-производительности работают даже быстрее, чем новые Kaveri.

Новое графическое ядро, безусловно, получило очень неплохую потенциальную мощность, однако она оказалась скована низкой пропускной способностью подсистемы памяти. В A10-7850K по сравнению с A10-6800K AMD имеется на треть больше потоковых шейдерных процессоров, а реальная игровая производительность выросла лишь на 10 процентов. Конечно, мы не можем отрицать, что GPU в Kaveri превосходит любые другие встроенные графические ядра десктопных процессоров. На сегодня графическая производительность A10-7850K не доросла до того уровня, чтобы позволить получить приемлемую производительность в FullHD-разрешении с низкими настройками качества во всех без исключения игровых проектах. Хотя, во многих популярных играх, в том числе и сетевых, A10-7850K выдаёт вполне приемлемую частоту кадров в 1920x1080 даже с выбором картинки среднего качества.

Что же касается HSA, то подразумевающиеся этой спецификацией технологии hUMA и hQ кажутся очень интересными и перспективными, но пока они существуют лишь на бумаге. Для того, чтобы мы смогли почувствовать их эффект на практике, должно пройти ещё немало времени. Тот же вариант гетерогенных вычислений, который возможен сегодня, не делает процессоры Kaveri быстрее конкурирующих предложений Intel. Во-первых, поддержка OpenCL в большинстве случаев реализуется в современных программах исключительно в каких-то частных случаях. Во-вторых, прирост скорости от её включения получают не только APU компании AMD, но и интеловские процессоры, что в общей картине относительной производительности ровным счётом ничего не меняет.

К сожалению, при всём этом AMD серьёзно завысила стоимость A10-7850K, противопоставив его младшим процессорам Core i5, которые на самом деле значительно быстрее почти во всех случаях, кроме тех, когда речь идёт об использовании встроенной графики. Возможно, устанавливать A10-7850K может быть интересно в компактных игровых системах начального уровня.