Двухпроцессорные Socket A системы на базе чипсета AMD 760MP

Автор: Gavric
Дата: 25.09.2001
Все фото статьи

Введение


Тестирование серверных платформ является для нашей лаборатории достаточно тяжелой проблемой. Смоделировать задачи, выполняемые обычно серверами, пусть даже и небольшими, в условиях тестовой лаборатории достаточно сложно. В первую очередь, сказывается специфичность и разноплановость серверных приложений, но также не меньшую головную боль доставляет моделирование сетевой нагрузки. Именно поэтому статей о тестировании многопроцессорных серверов на нашем сайте практически нет, и всякий раз, прежде чем взяться за эту работу, мы проводим не один день в тяжелых раздумьях. Тем не менее, из всякого правила есть исключения. В нашем случае этим исключением стала новая двухпроцессорная платформа от AMD, построенная на основе набора логики AMD 760MP с использованием процессоров Athlon MP. В силу ряда причин мы не могли пройти мимо этой платформы и попробовали ее в деле. Естественно, тестирование мы проводили все же не совсем серверными задачами, а рассматривали новинку в роли двухпроцессорной рабочей станции. Но даже этого оказалось вполне достаточно для того, чтобы понять тот инновационный подход, который AMD применила в своей новой SMP-системе.
Основным обстоятельством, побудившим нас уделить внимание тестированию системы на базе чипсета AMD 760MP, стало кардинальное отличие SMP-системы от AMD от соответствующих интеловских систем. Примененная в процессорах семейства Athlon системная шина EV6, лицензированная у Alpha, позволила AMD создать двухпроцессорную систему с соединением между северным мостом чипсета и процессорами с топологией точка-точка. В системах же, построенных на процессорах от Intel, системная шина разделяется между процессорами, что приводит к различного рода коллизиям, которых система от AMD начисто лишена. Именно поэтому двухпроцессорные системы на базе Athlon выглядят гораздо более перспективными и просто логичными, естественно, с теоретических позиций. Как обстоит дело на практике, мы как раз и увидим ниже.
Итак, подводя предварительный итог, еще раз поясним, что в этой статье в первую очередь будут затронуты следующие вопросы:

Новый процессор Athlon MP на ядре Palomino и его применимость в SMP-системах
Набор системной логики AMD 760MP и MOESI протокол

Помимо этих теоретических проблем, мы также уделим внимание и прикладным аспектам функционирования Dual Socket A систем.
Итак, приступим…

Athlon MP


Спустя два года после выхода первых процессоров чрезвычайно успешного семейства Athlon, AMD осуществляет переход на новое, четвертое по счету процессорное ядро с кодовым именем Palomino. Самое первое ядро, K7, выпускалось по технологии 0.25 мкм; с внедрением следующего ядра, K75, был осуществлен переход на технологический процесс 0.18 мкм и использование медных соединений; благодаря Thunderbird Athlon обрел встроенный в ядро кеш второго уровня и новую Socket A упаковку; и, вот, наконец, появился Palomino… Основной причиной, подтолкнувшей AMD к выпуску нового ядра стала необходимость продолжать наращивать частоты Athlon без смены технологического процесса на 0.13 микронный. Поскольку возможности Thunderbird таковы, что предельными частотами для этого ядра являются 1.4-1.5 ГГц, AMD требовалось разработать еще одно «переходное ядро», которое позволило бы компании заполнить диапазон от 1.5 ГГц до 2 ГГц. Именно таким ядром и стал Palomino, полученный из Thunderbird простым редизайном, в результате которого тепловыделение процессора понизилось примерно на 20%. При этом следует отметить, что, тем не менее, Palomino получил и некоторые новые возможности, значение которых, правда, не стоит преувеличивать.
В первую очередь Palomino нашел свое применение в новой линейке мобильных процессоров от AMD, Athlon 4. Затем, это ядро попало и в новые серверные CPU семейства Athlon MP, связанные с этой статьей самым непосредственным образом. Остановимся подробнее на характеристиках Athlon MP:

Кодовое имя процессорного ядра Palomino. Выпускается по технологии 0.18 мкм с использованием медных соединений на заводе Fab30 в Дрездене.
Кеш первого уровня 128 Кбайт (по 64 Кбайта на данные и инструкции); кеш второго уровня, встроенный в ядро и работающий на его частоте, 256 Кбайт. Кеш второго уровня эксклюзивный.
Частоты 1 и 1.2 ГГц. Процессоры с частотами 1.4 и 1.53 ожидаются в середине октября.
Системная шина EV6. Частота шины 266 Мгц. Физический интерфейс Socket A.
Поддержка технологии SmartMP (двухпроцессорных конфигураций).
Поддержка набора инструкций 3DNow! Professional (107 SIMD инструкций).
Размер ядра 128 кв. мм. Число транзисторов 37.5 млн.

Итак, как видно из преведенной спецификации, Athlon MP обладает слегка большим, чем обычные Athlon (Thunderbird), ядром. Откуда же взялись дополнительные полмиллиона транзисторов (или 8 кв. мм) в Palomino? Частично ответ на этот вопрос можно найти и в спецификации.
Athlon MP, будучи построенным на ядре Palomino, поддерживает набор инструкций 3DNow! Professional. Предыдущие же модели Athlon с более старым ядром Thunderbird обладают поддержкой более узкого набора команд 3DNow! Новый и более широкий набор SIMD-команд с приставкой Professional включает 52 новые инструкции, обеспечивающие совместимость набора 3DNow! Professional с набором команд SSE, поддерживаемым Pentium III. Фактически это означает, что Athlon MP способен выполнять не только приложения, оптимизированные под 3DNow!, но и использующие SSE-инструкции. К сожалению, набор SSE2, реализованный Intel в процессорах семейства Pentium 4, AMD в Palomino включить не успела, однако, вполне возможно, что в будущих процессорных ядрах у AMD появится и поддержка SSE2.
Помимо изменений, лежащих на поверхности, есть в Palomino и более глубокие нововведения. Например, data prefetch mechanism. Основная идея данного механизма проста: процессор пытается предсказывать заранее, какие данные из основной памяти ему могут потребоваться впоследствии и выбирает эти данные в кеш. Если механизм сработал правильно, то это в дальнейшем может положительно сказаться на скорости обработки данных. Таким образом, благодаря data prefetch mechanism Athlon MP пытается использовать процессорную шину и шину памяти более равномерно, смягчая пики и увеличивая загрузку в моменты ее простоя. В результате, data prefetch mechanism может значительно повлиять на увеличение производительности в приложениях, работающих с последовательными потоками данных, например, в задачах видеообработки, рендеринга или при обработке баз данных.
Также, в ядре Palomino AMD увеличила размер Translation Look-aside Buffers (TLB). Задача TLB заключается в кешировании транслируемых физических адресов памяти. Процесс трансляции необходим процессору при обращении к любым данным, хранящимся в основной памяти, а потому кеширование адресов существенно сокращает время, проходящее с момента запроса данных процессором до момента их получения. Согласно официальной информации от AMD, увеличение размера TLB, влекущее за собой увеличение вероятности быстрого получения оттранслированного адреса, может повысить производительность в high-end software applications.
Последним, но далеко не самым незначительным нововведением в Palomino, присутствующем также и в Athlon MP, является наличие вмонтированного в ядро температурного датчика. Он позволяет осуществлять более точный мониторинг физического состояния процессора и его защиту от перегрева, что, несомненно, имеет больше значение для серверов. Однако, к сожалению, этот температурный датчик хорошо выполняет свою работу не всегда, что недавно было показано dr. Thomas Pabst.
Подводя промежуточный итог, можно говорить о том, что Athlon MP фактически не имеет никаких специфических «серверных» характеристик. Этот процессор, по сути, не отличается от мобильного Athlon 4 и desktop Athlon XP, следовательно, серверную ориентацию платформ на базе AMD 760MP надо искать не в используемых процессорах.

AMD 760MP


И действительно, основные технологии, благодаря которым Dual Socket A платформы по праву можно назвать действительно серверными, сосредоточены в наборе системной логики AMD 760MP. Хотя этот чипсет и имеет название, близкое к обычному AMD 760, различаются они кардинально. AMD 760MP обладает двумя важными функциями, благодаря которым двухпроцессорные системы на его основе имеют высокую производительность. Это – системная шина с топологией точка-точка и поддержка MOESI протокола. Обе эти технологии уникальны в своем роде и в двухпроцессорных системах, построенных на базе процессоров от Intel, не поддерживаются. С одной стороны это значительно усложняет сам чипсет AMD 760MP, но с другой позволяет получить значительный выигрыш в быстродействии при выполнении задач, интенсивно работающих с данными.
В отличие от SMP систем, построенных на процессорах от Intel, в которых оба процессора подключаются к общей системной шине и разделяют между собой ее пропускную способность, каждому процессору Athlon MP в SMP системе, основанной на чипсете AMD 760MP, выделяется своя отдельная шина. При таком соединении типа точка-точка, в котором каждый из CPU общается с хостом (чипсетом) по собственной шине, каждый процессор может передавать до 2.1 Гбайт данных в секунду (при частоте системной шины 266 МГц) вне зависимости от того, что делает в этот момент времени другой процессор. Таким образом, оба процессора вместе как бы могут позволить себе использование общей шины с пропускной способностью 4.2 Гбайта в секунду. Напомню при этом, что в SMP системах, в которых используются процессоры семейства Pentium III, пропускная способность системной шины, разделяемая между обоими CPU равна все лишь 1.06 Гбайт в секунду. Несколько лучше обстоит дело в двухпроцессорных Xeon системах, однако и там пропускная способность разделяемой шины составляет всего 3.2 Гбайт в секунду.
Конечно же, у организации соединения процессоров и чипсета точка-точка есть и отрицательные стороны. В первую очередь, это трудность в реализации, заключающаяся в необходимости разводки собственной шины для каждого процессора. Однако, как мы видим, AMD смогла справиться с этой задачей, и AMD 760MP тому подтверждение. Тем не менее, сложность северного моста AMD 762, входящего в AMD 760MP просто поражает. Например, хорошей иллюстрацией может служить факт, что эта микросхема имеет 949 выводов, в то время как число контактов обычного чипа AMD 761 из чипсета AMD 760 составляет 569.
Однако сразу возникает вполне резонный вопрос: а нужна ли каждому процессору в SMP системах на базе процессоров Athlon отдельная шина? Ведь пропускная способность шины памяти, к которой в конечном итоге обращаются оба процессора в случае использования в системе PC2100 DDR SDRAM составляет всего 2.1 Гбайт в секунду? Но и на этот вопрос у AMD заготовлен сильный ответ. Говоря простым языком, процессоры в Dual Socket A системах умеют обмениваться данными между собой минуя оперативную память, что, например, в SMP системах с процессорами Intel невозможно в принципе.
Чтобы проиллюстрировать вышесказанное, посмотрим, как решается проблема с когерентностью данных в кешах процессоров в двухпроцессорных системах от Intel и AMD. Думаю, не стоит объяснять, какую головную боль доставляет разработчикам SMP систем вопрос обеспечения идентичности данных, хранимых в кешах обоих процессоров, в случае если оба CPU ведут обработку одного и того же массива информации. В частности, если одни и те же данные хранятся в кешах обоих CPU и один из процессоров изменяет их, то прежде чем система должна позволить второму процессору работать с этими данными, нужно позаботиться об обновлении содержимого его кеша. И, чтобы лучше проиллюстрировать красоту решения данной задачи, примененную AMD, посмотрим на недостатки аналогичного решения, предложенного Intel.
В SMP системах с разделяемой системной шиной на базе процессоров Pentium III и Pentium 4 каждый из процессоров мониторит системную шину на предмет обращения другого процессора к памяти. В случае, если второй процессор осуществляет запрос данных, измененных первым процессором, и находящихся в таком виде только в его кеше, первый процессор срочно записывает эти данные в память, и только потом чипсет осуществляет пересылку этих данных второму процессору. Таким образом, и тратится лишнее время на пересылку данных туда-обратно, да и дополнительно загружается системная шина. Но, к сожалению, по причине совместного использования одной шины двумя CPU, другого, более оригинального решения предложить нельзя.
Для определения валидности данных в памяти и кешах процессоров в двухпроцессорных системах с CPU от Intel используется специальный MESI протокол. Название MESI представляет собой аббревиатуру, образованную от четырех слов, обозначающих состояние строки данных, хранимых в кеше: Modified, Exclusive, Shared или Invalid. Таким образом, каждой строке данных, хранимых в кеше каждого процессора соответствует ее состояние:

Exclusive

Данные в соответствующей строке кеша такие же, как и в памяти
Другой процессор не имеет этих данных в своем кеше

Modified

Данные в строке кеша были модифицированы
Другой процессор не имеет этих данных в своем кеше

Shared

Данные в кеше обоих процессоров и в памяти идентичны

Invalid

Данные в кеше неправильные

Применение MESI протокола позволяет несколько разгрузить шину благодаря отказу от пересылок данных из кеша одного процессора в память и затем в кеш другого процессора во всех состояниях кроме Modified.
AMD же решила пойти дальше и отказаться от ненужных пересылок данных из кеша одного процессора в кеш другого через память. Благо, наличие собственной шины для каждого из процессоров в двухпроцессорной системе позволяет осуществлять пересылки данных непосредственно из одного кеша в другой, минуя память. Для этого, в Dual Athlon MP системах используется более совершенный MOESI протокол, позаимствованный из архитектур Sun и Alpha.
Суть MOESI протокола заключается во ведении еще одного состояния Owned. Это состояние возникает в случае, если строка кеша первого процессора имеет статус Modified, а второй процессор обращается к этой строке данных. В этом случае данные пересылаются напрямик из кеша первого процессора в кеш второго через северный мост, строка данных первого кеша помечается как Owned, а полученная строка данных в кеше второго процессора - как Shared. При этом обязанность по обновлению содержимого памяти в случае, если второй процессор не меняет данные в соответствующей строке своего кеша, возлагается на процессор со статусом Owned.
Использование MOESI протокола позволяет, таким образом, существенно разгрузить шину памяти, что в конечном итоге позволяет избавиться от кажущейся несбалансированности Dual Socket A систем из-за наличия двух процессорных шин с пропускной способностью 2.1 Гбайт в секунду, работающих с одной шиной памяти с аналогичным быстродействием.
Рассказав об архитектурных ухищрениях, примененных в двухпроцессорных Athlon платформах, перейдем к описанию характеристик набора логики AMD 760MP. Данный чипсет имеет традиционную структуру и состоит из двух микросхем: северного моста AMD 762 и южного моста AMD 766, уже знакомого нам по набору логики AMD 760. Соединение между мостами осуществляется при помощи шины PCI.
Северный мост чипсета поддерживает до двух Socket A процессоров, работающих с системной шиной с частотой 200 или 266 МГц. Следует отметить при этом, что несмотря на ориентацию на северный рынок только лишь процессоров Athlon MP, обладают возможностью работы в двухпроцессорных конфигурациях все Socket A CPU от AMD, включая не только семейство Athlon, но и Duron. Контроллер памяти, встроенный в северный мост поддерживает 266 или 200-мегагерцовую DDR SDRAM с ECC. Частота памяти синхронизирована в AMD 762 с частотой системной шины. При этом, AMD 760MP системы требуют использования Registered DIMM, но зато позволяют адресовать даже максимальный для 32-битных процессоров объем оперативной памяти – 4 Гбайта. Поддерживается в AMD 762 и шина AGP 4x. Также, следует отметить, что в сам северный мост чипсета AMD 760MP встроен PCI контроллер, обладающий поддержкой до семи PCI Bus Master устройств при использовании частоты шины 33 МГц или до двух PCI Bus Master устройств при работе в 66-мегагерцовом режиме. Однако, в случае применения южного моста AMD 766, шина PCI работает только лишь в 33-мегагерцовом режиме, что автоматически исключает возможность поддержки 66-мегагерцовых PCI-устройств. Но даже в этом случае, производители материнских плат, теоретически, могут разводить на своих платах на AMD 760MP 64-битные 33-мегагерцовые слоты.
По этой причине в ближайшее время AMD собирается выпустить новый южный мост для AMD 762, AMD 768. При использовании двух этих микросхем совместно, получающийся чипсет будет носить название AMD 760MPX и иметь другую, более продвинутую, архитектуру. AMD 768 будет соединяться с северным мостом посредством 64-битной 66-мегагерцовой шины PCI, что позволит использование PCI-контроллера чипсета в 66-мегагерцовом режиме. При этом, PCI контроллер для обычных 32-битных и 33-мегагерцовых устройств будет содержаться в микросхеме южного моста AMD 768. Все это хорошо видно на блок схеме ниже.
Заметим, что AMD будет единственным производителем наборов логики, поддерживающих двухпроцессорные Socket A конфигурации. VIA, изначально планировавшая создание своего аналога AMD 760MP, основанного на KT266, от этих намерений отказалось. К сожалению, проектирование наборов логики, поддерживающих системную шину с топологией точка-точка – дело чрезвычайно трудное и на данный момент справиться с этой задачей может только AMD, имеющая многолетний опыт разработки процессоров.

Платы


До тех пор, пока AMD не начала поставок производителям материнских плат набора логики AMD 760MPX, включающего новый южный мост, производство северных мостов AMD 762 носит пилотный характер. На практике это означает, что пока двухпроцессорные платы под Athlon MP выпускаются лишь единственным производителем. Этой компанией, которую AMD выбрала для представления своих первых двухпроцессорных систем, стал Tyan, хорошо известный на серверном рынке. В ноябре же, когда AMD приступит к массовому производству новых микросхем южного моста AMD 768, покупать наборы логики AMD 760MPX смогут все желающие. О намерении выпустить свои Dual Socket A материнские платы к концу года уже объявили такие именитые производители, как MSI, Gigabyte, ABIT и ASUS.
Что же касается плат, которые доступны для покупки сегодня, то их всего две. Это основанные на AMD 760MP Tyan Thunder K7, ориентированная на использование в производительных rack mount серверах, и более простая Tyan Tiger MP.
Первая плата, Tyan Thunder K7 (S2462) основана на референс-дизайне от AMD. Она оборудована двумя разъемами Socket A, поддерживающими любые процессоры от AMD с шиной 200 и 266 МГц, слотом AGP Pro, позволяющим установку видеоплат с потребляемой мощностью до 110 Вт, и пятью 64-битными 33-мегагерцовыми слотами PCI. Слоты DIMM, предназначенные для установки Registered PC2100/PC1600 DDR DIMM, имеющиеся на плате, наклонены под углом 25 градусов. Это позволяет собирать системы на плате Thunder K7 в корпусах высотой 1U, часто используемых, например, для web-серверов. Помимо этого, ориентацию данной платы именно на такие применения подчеркивает наличие интегрированной графической карты на чипе ATI RageXL, интегрированного двухканального Ultra160 SCSI контроллера и двух интегрированных сетевых контроллера от 3Com. То есть, Thunder K7 имеет весь набор интегрированных контроллеров, который может потребоваться для создания полноценного web-сервера.
Также, Tyan поставляет и более простой вариант этой платы, не оборудованный интегрированным SCSI контроллером.
Попутно заметим, что Thunder K7 требует ипользования специфичных блоков питания со специальной разводкой выводов. На данный момент такие блоки питания поставляются только двумя компаниями Delta и NMB Technologies. Первая выпускает 450-ваттные блоки, а вторая – 460-ваттные источники питания, пригодные для использования с Thunder K7.
Вторая Dual Socket A плата от Tyan, Tiger MP (S2460) обладает гораздо более простыми характеристиками. Собственно, на этой плате просто нет никакого дополнительного интегрированного оборудования, а потому Tiger MP может по праву использоваться в небольших серверах и рабочих станциях начального уровня. На плате имеется обычный слот AGP 4x, два 32-битных и четыре 64-битных 33-мегагерцовых слота PCI. Имеющиеся четыре слота для установки памяти поддерживают до трех гигабайт PC2100/PC1600 DDR DIMM, поддерживающие исключительно Registered DDR DIMM модули. Также, немаловажно, что Tiger MP не требует специальных блоков питания, что существенно расширяет область применимости данного продукта.
Думается, пояснять, что никакими возможностями для разгона процессоров платы от Tyan не обладают, смысла нет.
На настоящий момент средняя цена за Thunder K7 составляет $450, за аналогичную плату без SCSI контроллера - $370 и за Tiger MP - $230. Когда же на рынке начнут появляться AMD 760MPX материнские платы от других производителей, их цена будет лежать в пределах $200-$250, и по логике это должно будет дать существенный толчок продвижению двухпроцессорных платформ от AMD на массовый рынок.
То есть, сказать в данный момент, что Dual Socket A платформы готовы к завоеванию рынка серверов и рабочих станций, к сожалению нельзя. Первая трудность, с которой столкнутся желающие приобрести такую систему, это практически полное отсутствие выбора соответствующих материнских плат. Кроме того, существует и масса дополнительных ограничений, препятствующих популяризации AMD 760MP платформ. Это необходимость использования специальных блоков питания, отсутствие поддержки обычных DDR DIMM модулей и отсутствие полноценной поддержки 64-битной шины PCI. Однако, все эти проблемы должны быть решены к концу текущего года, и тогда Dual Socket A начнут полноценную борьбу за место под солнцем.

Как мы тестировали


После теоретического описания технологий, примененных AMD в своих двухпроцессорных платформах, любопытно будет посмотреть на функционирование таких систем на практике. К сожалению, мы пока не модем протестировать двухпроцессорные системы в серверных приложениях, но посмотреть, насколько хорошо себя чувствуют SMP конфигурации при использовании в качестве рабочих станций, мы в силах.
Мы протестировали двухпроцессорную систему на базе набора логики AMD 760MP, как укомплектованную двумя серверными процессорами Athlon MP, так и работающую с обычными Athlon на старом ядре Thunderbird. Наша тестовая Dual Socket A система была построена с использованием системной платы Tyan Thunder K7 и 512 Мбайт Registered PC2100 DDR SDRAM памяти.
Производительность такой системы мы сравнивали с быстродействием однопроцессорных систем, в которых используются процессоры AMD Athlon MP и Athlon, основанных на наборе логики AMD 760.
Также, в результаты тестов мы включили и показатели производительности систем с процессорами от Intel: однопроцессорной системы на чипсете Intel 850 с Pentium 4 2 ГГц и двухпроцессорной системы, построенной на базе Intel Pentium III-S на ядре Tualatin и набора логики ServerWorks ServerSet III LE.
К сожалению, мы не смогли протестировать двухпроцессорную систему, в которой используются процессоры Intel Xeon, в силу их крайне ограниченной распространенности. В то же время следует отметить, что такие системы все-таки нацеливаются на иную ценовую категорию и конкурировать с Dual Socket A платформами пока не будут.
В результате, конфигурации тестовых систем выглядели следующим образом:

Тестовые платформы
  Athlon MP 1.2 (Dual) Athlon 1.4 (Dual) Athlon MP 1.2 (Single) Athlon 1.4 (Single) Pentium 4 2.0 Pentium III-S 1.13 (Dual)
 Процессор 2 x AMD Athlon MP 1.2 2 x AMD Athlon 1.4 AMD Athlon MP 1.2 AMD Athlon 1.4 Intel Pentium 4 2.0 2 x Intel Pentium III-S 1.13
 Набор логики AMD 760MP AMD 760MP AMD 760 AMD 760 Intel 850 ServerWorks ServerSet III LE
 Системная плата Tyan Thunder K7 Tyan Thunder K7 EPoX EP-8K7A EPoX EP-8K7A ABIT TH7-II Supermicro SUPER P3TDLE
 Память 512MB PC2100 Registered DDR SDRAM 512MB PC2100 Registered DDR SDRAM 512MB PC2100 DDR SDRAM 512MB PC2100 DDR SDRAM 512MB PC800 RDRAM 512MB PC133 Registered SDRAM
 Видеокарта Gigabyte GV-GF3000DF (NVIDIA GeForce3) Gigabyte GV-GF3000DF (NVIDIA GeForce3) Gigabyte GV-GF3000DF (NVIDIA GeForce3) Gigabyte GV-GF3000DF (NVIDIA GeForce3) Gigabyte GV-GF3000DF (NVIDIA GeForce3) Matrox Millennium II
 Жесткий диск IBM DTLA-307015 IBM DTLA-307015 IBM DTLA-307015 IBM DTLA-307015 IBM DTLA-307015 IBM DTLA-307015

При тестировании мы использовали операционную систему Windows 2000 SP2.

Производительность


В первую очередь отметим, что основной целью настоящего тестирования являлось исследование работы процессоров от AMD именно в двухпроцессорном режиме. Поэтому, интересующихся вопросами производительности Athlon MP на ядре Palomino в унипроцессорной конфигурации, просим перейти к чтению обзора Pentium III-S на ядре Tualatin, где и Athlon MP уделено немалое внимание.
Как мы уже неоднократно говорили в обзорах различных двухпроцессорных материнских плат, использование двухпроцессорных систем имеет смысл либо в приложениях, реализующих несколько вычислительных цепочек, либо в операционных системах, поддерживающих SMP-конфигурации, при одновременной работе нескольких задач. Поэтому, тестирование двухпроцессорных систем в отдельно взятых программах, не поддерживающих двухпроцессорности, например, в большинстве 3D-игр, смысла не имеет, так как результаты там будут в точности такими же, как и получаемые на однопроцессорных системах. Именно этими соображениями мы и руководствовались при выборе тестов. Однако, перед тем как перейти к результатам, показанным испытуемыми системами в реальных задачах, взглянем на результаты популярного синтетического бенчмарка SiSoft Sandra 2001.
Алгоритм, используемый SiSoft Sandra 2001 для измерения производительности процессоров не зависит ни от используемого чипсета, ни от используемой памяти. Зато он позволяет создать две вычислительных цепочки и убедиться в том, что теоретически, в идеальном случае, система с двумя процессорами может работать почти вдвое быстрее однопроцессорной. Что же касается относительных результатов всех систем в данном тесте, то относиться к ним следует с определенной долей скептицизма. Дело в том, что Sandra является синтетическим бенчмарком и результаты, показанные платформами в нем могут плохо соотноситься со скоростями различных систем в реальных приложениях.
Тем не менее, заметим, что по данным этого теста, системы, в которых используется процессор Athlon 1.4 ГГц, оказываются быстрее систем с процессором Athlon MP 1.2 ГГц, что говорит о небольшой разнице в быстродействии процессорных ядер Thunderbird и Palomino. Скорость Pentium 4 2 ГГц оказывается близкой к скорости однопроцессорной системы с Athlon 1.4 ГГц, а производительность двухпроцессорной системы на Pentium III-S 1.13 ГГц радует результатом, близким к производительности Dual Athlon MP системы.
Гораздо более информативным является тест, измеряющий реальную пропускную способность подсистемы памяти, входящий в тот же тестовый пакет SiSoft Sandra 2001. В первую очередь следует отметить высокий результат, показанный системой с процессором Pentium 4. Эта система, основанная на наборе логики Intel 850 использует в своем составе RDRAM с пиковой пропускной способностью 3.2 Гбайт в секунду, поэтому ее результат превосходит показатели всех остальных систем. Также, отметим относительно низкий результат Dual Pentium III-S системы, построенной на чипсете ServerWorks ServerSet III LE. Однако, принимая во внимание, что данная система - единственная из протестированных, в которой используется старая PC133 SDRAM с пиковой пропускной способностью 1.06 Гбайт в секунду, показатель и этой платформы кажется закономерным.
Отдельного внимания заслуживает соотношение реальных пропускных способностей однопроцессорной и двухпроцессорной Socket A систем. Как мы видим, добавление в систему еще одного процессора приводит к росту реальной пропускной способности аж на 25%. Поскольку соединение процессоров и чипсета в платформах с чипсетом AMD 760MP выполнено с использованием топологии точка-точка, получается, что добавление еще одной процессорной шины помогает более рациональной загрузке шины памяти.
Далее мы посмотрим на производительность двухпроцессорной системы от AMD в типовых приложениях офисного и content creation типа. Традиционно, для получения таких данных используется тестовый пакет Winstone. Заметим сразу, что ждать большого выигрыша от наличия в системе второго процессора тут не следует, поскольку большинство из приложений, входящих в Business Winstone 2001 и Content Creation Winstone 2001 двухпроцессорности не поддерживает. Однако, поскольку Winstone 2001 моделирует именно реальную работу в этих приложениях, то есть запускает некоторые из них параллельно, переключаясь между ними, системы с двумя процессорами позволяют получить небольшой выигрыш в производительности.
Как видим, в этом тесте результаты всех систем очень близки.
В Content Creation Winstone 2001 показатели однопроцессорной и двухпроцессорной систем различаются несколько больше. Это и не удивительно. В состав приложений, при помощи которых выполняется тестирование в этом бенчмарке, входит некоторое число задач, умеющих создавать несколько параллельно работающих вычислительных цепочек, например, Adobe Photoshop 5.5.
Приложения для создания контента, как уже неоднократно отмечалось, очень чутко реагируют на пропускную способность шины памяти. Именно этот факт и объясняет значительное отставание Dual Pentium III-S системы, использующей PC133 SDRAM.
К сожалению, в настоящее время eTesting Labs Inc. не предлагает никаких бенчмарков, предназначенных для тестирования двухпроцессорных рабочих станций. Однако, такой тест был выпущен этой компанией в 1999 году. Это – Dual-Processor Inspection Test из Winstone 99, основанный на измерении производительности систем в задачах, поддерживающих создание нескольких вычислительных цепочек.
Как показывают результаты, в приложениях, поддерживающих двухпроцессорность, системы с двумя процессорами всегда работают эффективнее, чем однопроцессорные системы. Кстати, надо отметить, что эта ситуация может измениться в скором будущем. Дело в том, что пока современные процессоры не имеют никаких специальных свойств для поддержки работы многопоточных приложений. Однако, Intel давно ведет НИОКР в этом направлении, и процессорное ядро Northwoood уже будет иметь соответствующие аппаратные возможности. Хотя эта технология, носящая кодовое имя Jackson, будет пока активирована только в серверных CPU семейства Xeon, возможно что через некоторое время и процессоры ориентированные на использование в настольных компьютерах обретут ее поддержку.
Посмотрим теперь на производительность систем в конкретных приложениях, входящих в состав Dual-Processor Inspection Test.
Microstation SE - это типичное CAD/Design приложение, производительность в котором в основном зависит от двух факторов: от производительности блока операций с плавающей точкой CPU и скорости работы графической подсистемы. В результате, процессоры Athlon, блок FPU которых является наиболее производительным на сегодняшний день, опережают все системы на процессорах Intel. Однако, следует отметить и имеющееся отставание двухпроцессорных систем на базе Athlon и Athlon MP от аналогичных однопроцессорных систем. Объяснение это достаточно просто. К сожалению, AGP vxd-драйвер, поставляющийся с системами на AMD 760 и AMD 760MP не может работать так же эффективно с двухпроцессорным AMD 760MP, как с его однопроцессорным собратом.
Как это не кажется странным, в четвертой, древней, версии Adobe Photoshop система с двумя процессорами Pentium III-S оказывается впереди. Напомним, что в этой версии популярного графического редактора никакие наборы SIMD-инструкций не поддерживаются.
Скорость работы Visual C++ 6.0 измеряется в этом тесте при параллельной компиляции двух проектов. И снова двухпроцессорная система на Tualatin тут оказывается впереди.
Поскольку последняя версия FlaskMPEG имеет поддержку SMP, мы замерили скорость преобразования DVD-видеопотока в MPEG-4 в этом приложении. И снова Dual Pentium III-S оказался впереди, правда на этот раз не сильно. Тем не менее, это еще раз подчеркивает важность большого кеша второго уровня у процессоров, использующихся в серверах. Pentium III-S, обладающий L2 кешем размера 512 Кбайт, позволяет значительно разгрузить шины памяти и процессора от частых пересылок данных.
Для оценки быстродействия при финальном рендеринге в 3ds max 4 мы измерили время, за которое рендерится сцена Anisotropic Wheel, входящая в дистрибутив, в разрешении 800x600. Соответственно, меньшее время говорит о лучшем результате. Как уже неоднократно говорилось, скорость рендеринга в этом популярном приложении напрямую зависит от производительности FPU процессора. Кроме того, 3ds max 4 очень хорошо распределяет вычислительные потоки по нескольким процессорам. В результате, двухпроцессорные системы в этом тесте значительно опережают однопроцессорные, а Athlon-системы, имеющие более сильный FPU, опережают систему с процессорами Intel Pentium III-S.
Также, мы протестировали скорость работы различных платформ в 3ds max 4 при работе во ViewPorts. Для измерения производительности мы выбрали три наиболее показательных бенчмарка, описанных в наших материалах про тестирование в 3ds max под номерами 1 (общий стресс-тест), 4 (сложная геометрия) и 12 (wireframe). К сожалению, систему с двумя процессорами Pentium III-S из этого теста пришлось исключить из-за отсутствия поддержки AGP используемой в этой системе материнской платой на чипсете ServerWorks ServerSet III LE.
По сути, результаты тут повторяют ситуацию, которую мы уже видели в Microstation SE. Из-за недостаточно оптимизированной работы AGP-порта в системе на чипсете AMD 760MP, однопроцессорные системы, в которых использован набор логики AMD 760, обгоняют соответствующие двухпроцессорные. И даже вычислительные ресурсы второго процессора не могут в этой ситуации исправить положения. В итоге, лидирует в данном тесте система с процессором Intel Pentium 4 2 ГГц.
Для тестирования производительности в современной версии популярного графического редактора Adobe Photoshop 6.0.1 (с установленным Pentium 4 patch) мы воспользовались скриптом PSBench, запускающим около 20 различных фильтров и работающим с 50-мегабайтным изображением. При этом на графике приведено время работы, поэтому более низкий результат говорит о более высокой производительности.
И снова Dual Socket A системы показывают наиболее высокое быстродействие. Для детального анализа скорости работы различных фильтров приводим результаты PSBench подробно:

результаты PSBench
  Athlon 1.4 Athlon 1.4 (Dual) Athlon MP 1.2 Athlon MP 1.2 (Dual) Pentium 4 2.0 Pentium III-S 1.13 (Dual)
 Rotate 90 5 4,9 5,1 4,8 4,8 5,1
 Rotate 9 11,2 10,9 10,6 10,6 12,1 12,4
 Rotate .9 11,4 10,8 10,4 10,3 11,2 10,7
 Gaussian Blur 1 pixel 6 5,4 5,4 5,1 5,5 9,6
 Gaussian Blur 3.7 pixels 12,3 10,3 11,7 9 10,1 11,5
 Gaussian Blur 85 pixels 14,2 11,3 12,4 10,8 10,9 12,3
 50%, 1 pixel, 0 level Unsharp Mask 5,2 4,5 5,5 4,1 4,7 6,4
 50%, 3.7 pixel, 0 level Unsharp Mask 13 10,5 11,8 9,2 10,6 11,9
 50%, 10 pixel, 5 level Unsharp Mask 12,7 10,5 11,9 9,4 10,4 11,7
 Despeckle 6,8 5,8 7 5,7 9,6 8,6
 RGB-CMYK 19,5 18,4 21,2 19,9 18,3 19,1
 Reduce Size 60% 2,8 2,4 2,8 2,4 2,1 2,2
 Lens Flare 14,1 10,6 14,5 10,6 13,1 15,3
 Color Halftone 15,7 16,5 16,4 18,4 17,5 26
 NTSC Colors 7,1 6,9 8,3 7,5 7 8,9
 Accented Edges Brush Strokes 21,4 22,9 23,2 24,6 22,4 23,6
 Pointillize 35,4 22,7 39,7 25 35,3 25
 Water Color 42,3 44,4 45,4 46,7 46,4 45,8
 Polar Coordinates 25,2 16 20,7 13,6 23,4 18,7
 Radial Blur 96,6 67,2 103,3 62,5 87,2 59
 Lighting Effects 7,4 6,7 7,2 7 6,9 9,1

И в заключение, посмотрим на быстродействие Dual Socket A систем в Quake3, игре, поддерживающей SMP при ее включении консольной командой r_smp 1.
В очередной раз полученные результаты дают нам полное основание посетовать на некачественную реализацию поддержки AGP в AMD 760MP. В итоге, даже включение SMP не позволяет двухпроцессорным системам на AMD 760MP обогнать однопроцессорные системы на чипсете AMD 760, как это ни обидно. Будем надеяться, что все же эта ситуация будет исправлена в новых драйверах. Хотя, в принципе, большинство приложений, выполняющихся на двухпроцессорных платформах к производительности шины AGP относятся безразлично, и Quake3 в этом смысле является задачей нетипичной.

Выводы


Несмотря на то, что двухпроцессорные системы на базе набора логики AMD 760MP представляют собой пока лишь пробный шар на пути AMD на серверный рынок, компания сделала достаточно сильную заявку на успех в этом секторе рынка. К концу года, когда на рынке должны стать доступными процессоры Athlon MP с частотами 1.5 ГГц и выше и появятся относительно недорогие системные платы на базе нового чипсета AMD 760MPX, AMD имеет все шансы потеснить Intel как в секторе недорогих серверов, в которых сейчас используются процессоры Pentium III и Pentium III-S, так и в секторе более производительных систем, основанных на Xeon. Пока мы не беремся давать более конкретные предсказания, поскольку и Intel готовит достаточно интересные новинки для серверного рынка, но говорить о том, что у Intel появился серьезный конкурент, можно с полной уверенностью. Кроме того, нельзя забывать и о том, что стараниями AMD мы получили возможность увидеть в действии ряд технологий, позволяющих реально увеличить производительность SMP-систем.
В самое ближайшее время мы увидим, сможет ли AMD занять на серверном рынке такие же позиции, каких она добилась на рынке настольных систем. Но что планы компании обширны. До тех пор, пока в конце следующего года AMD не выпустит новое семейство 64-битных процессоров Hammer, компанией планируется выпуск серверной версии процессора Duron для дешевых SMP-систем, а также перевод Athlon MP на технологию 0.13 мкм.