Phenom переходит на степпинг B3: ошибка TLB – в прошлом

Автор: Gavric
Дата: 31.03.2008
Все фото статьи

Введение


Вряд ли есть основания называть оптимистичными наши предыдущие обзоры четырёхъядерных процессоров AMD Phenom: к сожалению, AMD не смогла добиться паритета между своими и конкурирующими продуктами, идя по пути микроархитектурных усовершенствований, поэтому имевшиеся до настоящего времени на рынке CPU семейства Phenom проигрывали процессорам Core 2 Quad по быстродействию и уровню тепловыделения. Кроме того, AMD не смогла обеспечить и работоспособность Phenom на приемлемых тактовых частотах. Однако самым обидным недостатком новых четырёхъядерных CPU от AMD стало наличие в них серьёзной ошибки, так называемой «ошибки TLB», программное исправление которой значительно снижало производительность систем. И хотя проявлялась эта проблема в обычных настольных системах чрезвычайно редко, не повредить имиджу Phenom она не могла. Тем более что на серверном рынке эта проблема проявила себя, что называется «в полный рост», заставив AMD даже приостановить на время поставки четырёхъядерных процессоров Opteron с кодовым именем Barcelona.

Именно поэтому на скорейшее исправление пресловутой ошибки TLB «в железе» были брошены все инженерные силы – и это исправление не заставило себя долго ждать. Сегодня AMD официально объявляет о выпуске процессоров семейства Phenom, основанных на новом степпинге B3, который лишен пресловутой проблемы. Других усовершенствований новое ядро пока что не несёт, но, тем не менее, с его выпуском AMD несколько корректирует потребительские качества своих процессоров: немного подрастают тактовые частоты, немного снижается цена. И, в результате, обновлённые Phenom начинают выглядеть по-новому, привлекательнее, чем раньше.

Анонсируемая линейка процессоров Phenom степпинга B3 включает в себя четыре модели – 9550, 9650, 9750 и 9850 Black Edition. Младшие модели заменяют собой Phenom 9500 и Phenom 9600, две же старшие – поднимают планку тактовой частоты до 2,4 и 2,5 ГГц соответственно. Заметим, что последние две цифры «50» в процессорном номере указывают именно на принадлежность процессоров к новому степпингу, свободному от ошибки TLB. Тем не менее, новые Phenom при работе на одинаковых тактовых частотах со старыми моделями (с отключенным программным исправлением ошибки TLB) не должны демонстрировать никаких отличий с практической точки зрения. Преимущества нового степпинга заключаются исключительно в отсутствии необходимости использования патча, снижающего производительность, тем более, что его включение или отключение может требовать достаточных усилий и квалификации. В то время как большинство производителей материнских плат реализовало возможность активации или деактивации патча через BIOS Setup; Windows Vista SP1, который также содержит исправление ошибки, такого выбора уже не предоставляет, задействуя исправление вне зависимости от желания пользователя. И в этом случае избавиться от нежелательного эффекта снижения производительности в ущерб некоторой надёжности системы обладатели процессоров старого степпинга B2 могут лишь путём использования специализированных утилит, например, AMD Overdrive.

Кроме того, сегодня же компания AMD официально объявляет о выпуске своих трёхъядерных процессоров, известных ранее под кодовым именем Toliman. Пока что эти процессоры будут распространяться среди OEM партнёров компании и не будут доступны в рознице, поэтому их рассмотрение мы отложим на некоторое время – к тому же, пока они будут основываться на старом степпинге B2. Упомянуть же о трёхъядерных Phenom нас заставил тот факт, что AMD в очередной раз решила слегка изменить схему обозначения собственных CPU: четырёхъядерные Phenom теперь будут наименоваться "Phenom X4", трёхъядерные – "Phenom X3", а двухъядерным процессорам останется старое название "Athlon X2".


AMD Phenom X4 9850 Black Edition


Для тестирования возможностей нового степпинга B3 компания AMD прислала нам свой процессор Phenom X4 9850 Black Edition. Это – новый старший представитель в линейке четырёхъядерных процессоров AMD, ориентированный на работу при частоте 2,5 ГГц, на 200 МГц превышающей частоту старшего процессора степпинга B2. Таким образом, компания AMD сумела, наконец, достигнуть своими четырёхъядерными CPU тактовой частоты, на которой работают младшие процессоры семейства Intel Core 2 Quad. Впрочем, этот рост частоты – экстенсивный, он обусловлен простым совершенствованием технологического процесса, так что новые процессоры с тактовыми частотами 2,4-2,5 ГГц имеют и более высокий уровень типичного тепловыделения, достигающий 125 Вт.


Помимо возросшей тактовой частоты и нового степпинга, Phenom X4 9850 выделяется и ещё одной особенностью: увеличенной до 2,0 ГГц частотой встроенного в процессор северного моста. Эта частота является определяющей для кэша третьего уровня и контроллера DDR2 SDRAM, поэтому можно ожидать, что Phenom X4 9850 работает с памятью несколько эффективнее предшественников. Впрочем, на формальных характеристиках поддерживаемой памяти это не сказалось: Phenom X4 9850 совместим с двухканальной DDR2-533/667/800/1066 SDRAM и поддерживает уже знакомые нам Ganged и Unganged режимы.

Полный список спецификаций Phenom X4 9850 Black Edition представлен ниже.


Необходимо упомянуть, что работа встроенного в процессор северного моста на частоте 2,0 ГГц – прерогатива исключительно Phenom X4 9850. Все остальные процессоры Phenom, включая и основанные на степпинге B3, оборудованы северным мостом, функционирующим на частоте 1,8 ГГц. Это же относится и шине HyperTransport 3.0: у Phenom X4 9850 она работает на 2,0 ГГц, в то время как остальные модели четырёхъядерных процессоров AMD используют 1,8-гигагерцовую шину.


Чтобы внести большую ясность в полную номенклатуру имеющихся на сегодняшний день моделей Phenom X4, приведём ещё одну небольшую таблицу.


Отметим, что поскольку Phenom X4 9850 относится к серии Black Edition, его ещё одной отличительной чертой является незафиксированный множитель, открывающий простор для разгона. Кстати, не-Black Edition модификацию этого процессора AMD пока выпускать не собирается.

Поскольку новый степпинг B3 не имеет никаких принципиальных отличий от B2, помимо исправления «ошибки TLB», все материнские платы, совместимые со старыми Phenom X4, могут работать и с новыми модификациями этого процессора.

Ошибка TLB и её исправление


Описание пресловутой «ошибки TLB» нетрудно обнаружить в технической документации AMD, где она выступает в качестве ERRATA 298.


Суть проблемы сводится к тому, что при определённом трагическом стечении обстоятельств находящиеся в L2 кэше элементы таблицы трансляции адресов страниц, используемой операционной системой для преобразования виртуального адресного пространства в физические адреса, могут дублироваться в L3 кэше с неправильными установками флагов. А это как минимум противоречит эксклюзивной архитектуре кэш-памяти, а как максимум – может приводить к повреждению данных, если неправильная запись из общего разделяемого L3 кэша начнёт использоваться другим процессорным ядром. Согласно официальным документам, происходит такое дублирование лишь в одном достаточно редком случае: если во время изменения в L2 кэше состояния битовых флагов записи, относящейся к таблице трансляции адресов страниц, другой процесс вытесняет эту же запись в кэш третьего уровня.

Реализованный по горячим следам патч, включающийся в BIOS Setup, решает указанную проблему кардинально: он просто запрещает кэширование таблицы адресов страниц. В результате, при каждом неуспешном поиске в TLB (Translation Lookaside Buffer), где хранится небольшое количество данных о прямых отображениях из виртуальной памяти в физическую, процессор вынужден обращаться к хранящейся в основной памяти и некэшируемой таблице страниц. Это, естественно, сильно увеличивает латентность подсистемы памяти, поэтому отказ от кэширования таблицы страниц нельзя назвать хорошим решением.

Даже самые простые синтетические тесты, измеряющие скорость подсистемы памяти, способны выявить драматически снижающееся быстродействие при активизации описанного топорного TLB-патча. Например, ниже мы приводим результаты измерения скорости работы подсистемы памяти, сделанные нами в системе с процессором Phenom X4 9600 степпинга B2 с включённым и выключенным патчем.


TLB-патч выключен


TLB-патч включён

Как видно по скриншотам, включение патча приводит к более чем 50-процентному росту латентности. Ухудшаются и результаты измерения практической пропускной способности. Как было нами показано в статье «Комплект для фанатов AMD: Phenom 9600 Black Edition + DFI LANParty UT 790FX-M2R», это находит отражение и в реальных приложениях, где производительность падает в среднем на 10 %, но в отдельных случаях может снижаться и более чем на 30 %.

Хотя число примеров, когда «ошибка TLB» приводит к серьёзным последствиям, весьма ограничено, и имеют шансы встретиться с ней лишь фатально невезучие пользователи настольных компьютеров, использующие специфическое программное обеспечение, аппаратное исправление ERRATA 298 стало для AMD одной из самых насущных задач.

Новый степпинг B3 решает проблему аппаратно, не снижая производительности и не принося в жертву кэширование таблицы страниц. По утверждениям представителей AMD, быстродействие обновлённых процессоров должно соответствовать производительности представителей степпинга B2 с выключенным патчем. Это можно подтвердить и результатами синтетических тестов: Phenom X4 9850 с пониженной до 2,3 ГГц тактовой частотой и встроенным северным мостом, работающим на 1,8 ГГц, выдаёт примерно те же показатели, что и Phenom 9600 с отключенным патчем.


Тем не менее, небольшие различия в показателях всё-таки можно отметить. Так, новый степпинг обеспечивает слегка худшую латентность при работе с памятью. Очевидно, что это несоответствие объясняется изменившимися алгоритмами работы с записями таблицы адресов страниц в кэш-памяти, которые не содержат теперь никаких потенциальных опасностей для данных. Впрочем, при сравнении производительности процессоров степпингов B2 и B3 в реальных приложениях это практически незаметно.

К сожалению, представители AMD не смогли объяснить нам, как же конкретно была решена проблема с «ошибкой TLB» в степпинге B3. Однако имеющаяся косвенная информация позволяет с некоторой доли вероятности говорить о том, что теперь при изменении ядром процессора флагов состояния элементов таблицы страниц, хранящихся в L2 кэше, они, по завершении этой операции, принудительно отправляются в кэш третьего уровня. Именно этим может и объясняться наблюдаемое незначительное увеличение латентности.

Что даёт ускорение контроллера памяти


Как мы указывали в предыдущих статьях, процессоры семейства Phenom обладают встроенным северным мостом, включающим контроллер памяти и L3 кэш, работающем на собственной частоте и напряжении, не зависящих от частоты и напряжения основной части процессорного ядра. Это сильно отличает Phenom от процессоров предыдущего поколения Athlon 64, в которых контроллер памяти работал на той же частоте, что и само ядро. Использование отдельной частоты для встроенного северного моста даёт возможность тактовать память независимо от процессорного ядра, что позволяет избавиться от «плавающих» от модели к модели частот DDR2 SDRAM. Контроллер памяти Phenom, вне зависимости от штатной частоты процессора, всегда правильно выставляет частоты для стандартных типов DDR2.

Во всех существующих процессорах Phenom, кроме старшей модели 9850, контроллер памяти и L3 кэш работали на частоте 1,8 ГГц. Phenom X4 9850 Black Edition отодвинул эту величину на 200 МГц, в нём частота встроенного северного моста выросла до 2,0 ГГц.


Соответственно, можно ожидать, что подсистема памяти этого CPU получила дополнительный прирост быстродействия. Мы решили отдельно обратить внимание на этот вопрос и сравнить скорость работы подсистемы памяти системы на базе Phenom X4 9850 Black Edition при работе северного моста CPU на штатной частоте 2,0 ГГц и при понижении этой частоты до используемых в младших моделях 1,8 ГГц.


Частота северного моста = 2,0 ГГц


Частота северного моста = 1,8 ГГц

Результаты измерения практических характеристик подсистемы памяти говорят сами за себя. Увеличение частоты встроенного в процессор северного моста действительно положительно сказывается как на производительности L3 кэша, так и на скорости работы памяти.

Это, естественно, находит отражение и на быстродействии в реальных задачах, об этом говорит проведённое нами экспресс-тестирование.


В то же время надеяться на то, что частота северного моста ощутимо влияет на производительность, не следует. Уровень прироста быстродействия составляет не более 3 % в самом благоприятном случае. В среднем же, за счёт 200-мегагерцовой прибавки к скорости контроллера памяти и L3 кэша, удаётся выиграть не более 1 % в результатах тестов.

Разгон


Ещё один вопрос, который интересует энтузиастов в свете появления нового степпинга процессоров Phenom, это, безусловно, его частотный потенциал, который можно раскрыть через разгон. И хотя AMD всячески подчёркивает, что в новых процессорах его увеличению внимание не уделялось, надежда всё-таки оставалась.

Тем не менее, как показало практическое испытание Phenom X4 9850 Black Edition, чуда не произошло. Четырёхъядерные процессоры нового степпинга B3 разгоняются примерно так же, как и их предшественники степпинга B2. Так, увеличив напряжение питания нашего тестового экземпляра со штатных 1,3 В до 1,4 В, мы смогли достичь лишь частоты 2,7 ГГц. В таком состоянии при использовании для отвода тепла от CPU воздушного кулера Zalman CNPS9700 LED система демонстрировала абсолютную стабильность.


Разгон, как видно из скриншота, проводился увеличением множителя, так как в процессорах серии Black Edition, к которой относится и Phenom X4 9850, он не зафиксирован. Впрочем, возможность его изменения вряд ли может поднять интерес к этому процессору со стороны оверклокеров, так как полученный 8-процентный прирост частоты выглядит, мягко говоря, несерьёзно. Особенно, если вспомнить, как способны разгоняться конкурирующие процессоры Core 2 Quad.

К сожалению, улучшить достигнутый результат мы не смогли даже с дополнительным увеличением напряжения питания процессорного ядра и встроенного северного моста. Таким образом, какие-то значительные подвижки в части роста частотного потенциала четырёхъядерных процессоров AMD можно ожидать лишь только после перевода их производства на 45-нм технологический процесс.

Как мы тестировали


Честно говоря, целесообразность тестирования Phenom X4 9850 Black Edition в рамках этой статьи можно поставить под сомнение. Наши предыдущие обзоры уже рассеяли всякие иллюзии по части уровня производительности Phenom, а кроме того, мы уже выяснили, что для полноценного соперничества с младшими моделями четырёхъядерных процессоров Intel Core 2 Quad частоты Phenom должны быть повышены как минимум до 2,7-2,8 ГГц. Ничем таким Phenom X4 9850 похвастать не может.

Тем не менее, тесты – одна из традиционных частей обзоров процессоров, поэтому пренебрегать ей мы всё же не решились. Phenom X4 9850 Black Edition мы решили сравнить с четырёхъядерными процессорами Intel, предлагаемыми в той же ценовой категории. Сегодня Intel готов предложить два таких процессора – Core 2 Quad Q6600 и более новый Core 2 Quad Q9300, входящий в семейство Penryn. Обратите внимание, Phenom X4 9850 и Core 2 Quad Q9300 работают на одинаковой тактовой частоте 2,5 ГГц, что может рассматриваться в качестве хоть какой-то интриги в тестировании.

Кроме того, среди результатов тестов вы найдёте показатели быстродействия более дешёвого Phenom X4 9750 и старшего процессора степпинга B2, Phenom X4 9600, для которого на графиках будет указано по два результата – без патча и с ним.

Ниже следует подробное описание тестовых систем.

Платформа AMD:

Процессоры:

AMD Phenom X4 9850 (Socket AM2+, 2,5 ГГц, 4 x 512 Кбайт L2, 2 Мбайта L3, Agena).
AMD Phenom X4 9750 (Socket AM2+, 2,4 ГГц, 4 x 512 Кбайт L2, 2 Мбайта L3, Agena).
AMD Phenom X4 9600 (Socket AM2+, 2,3 ГГц, 4 x 512 Кбайт L2, 2 Мбайта L3, Agena).


Материнская плата: DFI LANParty UT 790FX-M2R (Socket AM2+, AMD 790FX).
Память: 2 Гбайта DDR2-1066 с таймингами 5-5-5-15-2T (Corsair Dominator TWIN2X2048-10000C5DF).
Графическая карта: OCZ GeForce 8800GTX (PCI-E x16).
Дисковая подсистема: Western Digital WD1500AHFD (SATA150).
Операционная система: Microsoft Windows Vista x86.

Платформа Intel:

Процессоры:

Intel Core 2 Duo Q9300 (LGA775, 2,5 ГГц, 1333 МГц FSB, 2 x 3 Мбайт L2, Yorkfield);
Intel Core 2 Duo Q6600 (LGA775, 2,4 ГГц, 1066 МГц FSB, 2 x 4 Мбайт L2, Kentsfield).


Материнская плата: ASUS P5E (LGA775, Intel X38, DDR2 SDRAM).
Память: 2 Гбайта DDR2-1066 с таймингами 5-5-5-15 (Corsair Dominator TWIN2X2048-10000C5DF).
Графическая карта: OCZ GeForce 8800GTX (PCI-E x16).
Дисковая подсистема: Western Digital WD1500AHFD (SATA150).
Операционная система: Microsoft Windows Vista x86.

Производительность



3D игры















Кодирование медиаконтента









Финальный рендеринг





Другие приложения








Все использовавшиеся нами тестовые приложения солидарны в одном: новый Phenom X4 9850 Black Edition работает все ещё медленнее, чем самые младшие четырёхъядерные процессоры Intel. Так что о прямой конкуренции между четырёхъядерниками производства AMD и Intel речь вести пока ещё рано.

Выводы


Нельзя сказать, что четырёхъядерные процессоры AMD, основанные на новом степпинге B3, смогли нас приятно удивить. По сравнению с четырёхъядерными процессорами Intel, они продолжают выглядеть совершенно неубедительно, отставая от них по производительности, энергопотреблению и разгонным характеристикам.

Тем не менее, нельзя не подчеркнуть тот факт, что AMD встала на правильный путь и попыталась улучшить линейку Phenom X4 всеми доступными на данный момент средствами. Так, оперативно исправлена проблема TLB, сильно вредившая имиджу всех CPU с микроархитектурой K10. Кроме того, по возможности, увеличены тактовые частоты предлагаемых процессоров – старшие модели Phenom X4 даже смогли догнать по своей частоте младших представителей линейки Core 2 Quad. К сожалению, о паритете с точки зрения производительности речь пока не идёт, но отставание предложений AMD, несомненно, сократилось.

Но самое важное – это то, что AMD обоснованно скорректировала свою ценовую политику. В частности, официальная цена на AMD Phenom X4 9850 Black Edition установлена на уровне 235 долларов, что ниже стоимости самого дешёвого четырёхъядерного процессора, предлагаемого Intel. AMD Phenom X4 9750 при этом будет стоить 215 долларов, а младший процессор, Phenom X4 9550, оценён в 195 долларов. Таким образом, AMD наконец-то избавилась от необоснованных иллюзий и намерена предлагать свои Phenom X4 по справедливым, соответствующим уровню их производительности ценам.

Разумеется, на первых порах московские розничные цены на новые процессоры Phenom окажутся выше официальных цен AMD, однако то же самое можно сказать и про цены на процессоры Intel – а значит, разрыв в стоимости в пользу AMD, скорее всего, сохранится.

А это значит, что четырёхъядерные процессоры AMD приобретают некоторую актуальность в качестве основы для недорогих многопоточных систем, которые могут быть интересны определённой категории пользователей, например, как недорогие компьютеры для рендеринга или для обработки и кодирования медиаконтента.

В заключение заметим, что начинающие сегодня распространяться среди OEM-партнёров AMD трёхъядерные процессоры могут иметь лучший маркетинговый потенциал, чем Phenom X4 в его сегодняшнем виде. Ведь их цены, несмотря на значительную вычислительную мощность (в многопоточных задачах), ещё более демократичны: Phenom X3 8600, работающий на частоте 2,3 ГГц, по официальному прайс-листу AMD будет стоить 175 долларов, а Phenom X3 8400 с частотой 2,1 ГГц – порядка 150 долларов. Однако наше знакомство с трёхъядерными Phenom X3 состоится несколько позднее, когда эти процессоры будут переведены на степпинг B3 и начнут распространяться в розницу.

Уточнить наличие и стоимость процессоров AMD Phenom

Другие материалы по данной теме


Младший из Yorkfield: обзор Core 2 Quad Q9300
Современные двухъядерные процессоры: сравнительное тестирование
Celeron E1200: двухъядерный процессор за смешные деньги