Превю на AMD Radeon 6970
Всяка година на есен компаниите правят малки или големи обновявания на продуктовата си гама. Тази година от AMD обаче малко промениха обичайния график и започнаха средния клас, анонсирайки първо серията Radeon HD 6800. Едва преди дни настъпи оживление и във високия им клас – появи се Radeon HD 6900. В това превю ще стане дума накратко за особеностите на новите графични адаптери, като скоро се надявам да ви предложа един доста по-подробен материал по темата.
Radeon HD 6800 a.k.a. Barts
Barts е по-малкият от двата чипа като е прицелен доста точно според ”sweet spot” стратегията на компанията. Площта на чипа е 255 кв.мм., като в него има 1,7 млрд транзистора. Радеон 6800 въпреки че името му подсказва висок клас поред последните 3 поколения на компанията (3800, 4800, 5800) всъщност е по-скоро прицелен в горния край на средния клас и в известен смисъл е наследник на Juniper използван в 5770. В същото време новият модел представлява по същество преработен и оптимизиран Cypress, леща в сърцето на Radeon HD 5800. Предвид напредyка с 40-нанометровия технологичен процес от TSMC и някои уроци, научени през последната година, AMD преподредила архитектурата така че да измъкне много висока ефективност при по-малко площ. Оказва се, че голяма част от SIMD модулите на Cypress са използвани неефективно, за това в новия чип са намалени от 20 на 14. Заедно с това е подобрена работата при теселация, като са увеличени буферите в чипа, както и диспечера на нишките. Подобрен сериозно е и видеомодула в чипа, като се поддръжа вече Blu-Ray 3D и съответните възможности за ускоряване на възпроизвеждането. Графичния процесор използва 256-битова шина, което е сериозен напредък спрямо 5700, но пък контролера е базиран на използвания в чипа Redwood (5500, 5600), специфициран да работи при по-ниски честоти. Това е позволило размера на контролера да се намали почти наполовина, но ще ограничи постижимите честоти. И завършвайки с новостите трябва да отбележим че АМД са подобрили алгоритъма за смяна на mipmap нивата, проблем от който страдаше предишната 5ххх фамилия и са добавили нов AA режим, който по същество е постпроцесинг филтър, търсещ линии в крайното изображение.
Чипът положи основата на два графични адаптера – Radeon HD 6870, използващ пълната спецификация (1120 АЛУ, 56 текстуриращи модула 8 РОП блока – 32 пиксела на такт и 128 Z/stencil отчета), като тактовите честоти са 900 МХц за ядрото, 1050 МХц (4200 МТ/с) за GDDR5 паметта. Втория модел е 6850 при който са блокирани два конейера (960 АЛУ, 48 текстуриращи модула) , а тактовите честоти са съответно 775 МХц и 1000 МХц (4000 МТ/с). Цените на двата модела започват от $179 и $239, като и двата модел разполагат с по 1 ГБ памет.
Radeon 6900 a.k.a. Cayman
Големият алигатор предлага доста по-радикална промяна на архитектурата. За първи път в нея нaстъпват промени от такъв мащаб от времето на R600 (Radeon 2900) или преди цели 4 поколения. Основното в случая е преминаванаето от VLIW5 към VLIW4 архитектура. Досегашните модели използват групиране на 5 АЛУ в един шейдерен процесор, който използва Very Long Instruction Word модел. 4 от тях са сходни по възможности, занимаващи се основно с умножение и събиране, докато петия може да изпълнява и различни специални операции (трансцедентални функции като sin, cos и др.) Този модул обаче се използва сравнително рядко и поради особената си структура създава сложности за ефективното диспечериране на инструкциите. В новата архитектура са запазени 4-те MADD АЛУ, а разширения блок е премахнат, като логиката, нужна за изпълнението на специфичните инструкции, е равномерно разпределена в останалите блокове. Това позволява всеки SIMD модул да има около 10% по-малка площ, като в същото време запазва практически равна производителност.
Втората голяма промяна е пълноценното разделяне на чипа на два пълно функционални блока. Процеса започна още със Cypress, при който има два Ultratreded Dispatch процесора и два растеризатора, но блока за обработка на геометрията оставаше единствен. Сега вече и той, и теселатора вече са дублирани, създавайки две пълноценни графични ядра в чипа. В това отнощшение NVidiа остава все още напред, като използва 4 ядра/клъстера. За AMD обаче това е голяма стъпка напред. Всяко от тези ядра разполага с по 12 SIMD блока, давайки общо 24 за чипа и 1536 АЛУ и 96 текстуирращи модула. Теселатора също е усъвършестван, като освен че е вече е удвоен, той разполага с всички ъпгрейди от Barts, плюс още няколко, като най-важния е възможността за използване на част от локалната памет на картата за прехъвляне на генерираните данни, за да не задърстват чипа.
ROP блоковете осатват 8 както в Barts, но със значителни усъвършеснствания в производителността при работа с формати с разширена точност. Например работата с 16-битови целочислени стойности е удвоена, ра ботата с плаваща запетая е 2-4 пъти по-бърза в зависимост от ситуацията. Това трябва да даде така нужната допълнителна производителност при растеризиране в новия чип. Заедно с това сега вече чипът е балансиран като двойния фронт енд може да подaва по 32 пиксела на такт, като толкова могат и да се обработват от РОП блоковете. Последното сериозно нововъедение при тях е новият алгоритъм, за антиалайзинг – Enhanced Quality AA, който по същество прилична много на Coverage Sample AA на NVidia, като предлага използването на допълнителни семпли за по-точно определяне на покритието на пиксела, които обаче не отчитата цветовите стойности. Така във всеки AA режим имате възможност да използвате двойно повече семпли за покритите, като качеството трябва да е по-високо за сметка на минимален спад в производителността. Разбира се поддръжа се и MLAA алгоритъма. Подобренията при анизотропната филтраия също са запазени.
Други промени включват въвеждането на UVD3 видеопроцесора от Barts, подобрената работа при изчисления, благодарение на възможността за асинхроннно завършване на отделните програми, и новият мощен блок за регулиране на консумацията на чипа. Последния използва теглови алгоритъм на базата на потенциалната консумация и натовареността на отелните блокове и снижава честотата, ако има опастност от превишаване на топлинни пакет на графичниа даптер. Това помага за програми от сорта на FurMark, OCCT и др., при които осовна цел или страничен ефект е реализирането на максимална консумация от чипа. В същото време в игрите този механизъм не би трябвало да дава отражение.
Двата модела, с които стартира фамилията са пълноценната версия 6870, която работи на 880 МХц за чипа и и стратосферните 1375 МХЦ (5500МТ/с!) за GDDR5 паметта. Втория модел има декативирани два СИМД блока, оставяйки го с 1408 АЛУ и 88 текстуриращи модула. Честотите в този случай са 800МХЦ и 1250 МХц (5000 МТ/с). И двата модела разпоалгат с 2 GB локална памет, което трябва да им помогне при работата във високи резолюции, а препоръчителните цени са $369 и $299 съответно.
Тестова система
Процесор: Phenom II X6 1090T
Памет: 2×2 GB Corsair Dominator GT-2000 @ DDR3-1600 7-8-7-20-1T
Дънна платка: Asus Croshair IV Formula, AMD 890FX
Графични адаптери: AMD Radeon HD 6870, 6970
Твърд диск: Hitachi P7K500, 500GB, SATA2
Захранване: Chieftec CFT-650-14C
Охлаждане: Xigmatek Thor’s Hammer + 2x Aerocool Shark Evil Black
Монитор: BenQ E2220HDP, 1920х1080
Операционна система: Windows 7 Home Premium 64-bit
Драйвер: ATI Catalyst 8.79.6.2 RC2
Резултати
Заключение
Честно казано значително по-впечатлен съм от Barts отколкото от Cayman. Barts взима познатата ни архитектура от поколението 5ххх и оптимизирай влагайки производителност много близка до тази на Radeon HD 5870 в чип с 30% по-малък, като я предлага на цена която е едва 60% от оригиналната цена на предишния едночипов топмодел. Cayman на свой ред е с 50% по-голям като площ, но е едва 25-30% по-бърз средно. Все пак той е голяма стъпка напред от архитектурна гледна точка и вероятно страда именно от промяната в архитектурата. Все пак последните 4 години са се натрупали много оптимизации за VLIW5 модела, които е възможно не винаги да имат благоприятно влияние при VLIW4. Все пак в негова полза можем да кажем, че поне AMD все още остават верни на обещанието си да не предлагат едночипови карти на цена над $400.
Благодаря за ревюто.
Имам въпрос относно частта в заключението, където говориш за площта на Barts и Cayman. Да, кайманът е значително по-голям и не е толкова ефективен за единица място, но това не е ли за сметка на практически безсмислените блокове, отговарящи за теселацията. Без да задълбавам в неща, които не разбирам и без никакви претенции, това ми се струва като разумно обяснение. Има ли логика?
Според данните, с които разполагам, не теселатора е проблема. Дори двойката теселатори едва ли заемат повече от няколко десетки млн. транзистора, което е пренебрежимо малко от общата площ. Иначе със сигурност пълното удвояване на фронтенда заема място, но нали уж новата архитектура испестява място от изпълнителните модули.