Провалът на TSMC да предостави добро качество на 40-нанометровия си технологичен процес в първите месеци на производството, както и сериозното забавяне с разработката на следващите версии, довело и до отпадането на 32-нанометровата ревизия, създаде малко неочакваната ситуация за първи път от доста години да няма нова технология за поредните поколения на двете компании. AMD понесе от това много по-сериозен удар тъй като, според неофициални изявления, те са били на не повече от 2 седмици преди отпечатването (tape out) на върховия представител на новата си фамилия, познат под кодовото име Cayman. Още преди това обаче компанията е направила разчети, показващи че предвид високата цена на 32-нанометровата технология, по-изгодно ще им излезе да осъвременят средния клас, като вече оправената и отлежала 40 нм версия, въпреки че чипът ще заема по-голяма площ. За това и работата по Barts, доста по-рано е била прехвърлена обратно към по-стария процес, в резултат на което и за пръв път от доста време именно представител на средния клас, ако така можем да го наречем, поведе новата генерация. За Cayman обаче 32-нанометровия процес вероятно е бил задължителен, за да постигне в пълна степен поставените цели. В същото време, отново неофициално, 32-нанометровия GPU е бил директно прехвърлен обратно към 40 нм, без да се изрязват никакви части от него, тоест Cayman е това, което е трябвало да бъде, но с по-ниска тактова честота и със значително по-голяма площ. Честно казано учудващо е, че след като това се е случило в толкова напреднала фаза на разработката, загубата на време е само около 3 месеца спрямо началните планове.
За Nvidia обаче нещата вероятно не са били толкова драматични. След огромното забавяне в появата на фамилията Fermi, едва ли им е било особено до разработки по новите технологични процеси, още повече че анонсът за спирането на 32-нанометровия процес вероятно ги е заварил още при ранното тестване на 40-нанометровия им флагман. Няма да се учудя ако след тази новина, някой е празнувал американската версия на курбан, тъй като заедно с подобряващото се качество на текущата технология на TSMC изгледите им за есента на 2010 година изведнъж са започнали да изглежда значително по-весели в сравнение с потенциалната опасност да бъдат изпреварени отново от AMD както с минаването към нова технология, така и с по-ранното представяне на продуктите. Така че инженерите им са имали спокойствието да се хванат на работа и да направят това от което Ферми имаше отчайваща нужда и което беше пренебрегнато в GF100 с цел по-ранна поява на чипа на пазара, а именно цялостна ревизия на чипа.
Barts
Първоначално Barts е разработван като заместител на Juniper (Radeon HD 5770) на 32 нанометровия процес. Целта вероятно отново е била модел с 160-180 кв.мм площ и 128-битова GDDR5 шина. Ранната смяна на фокуса на разработката обаче означава, че чипа ще получи значително по-голяма площ, а AMD разполага с вече доказала се архитектура с поддръжка на DX11.Barts в известен смисъл е резервния план на компанията, ако нещата с новата архитектура, внедрявана в Cayman се провалят. За това и графичния процесор е една много оптимизирана версия на архитектурата от предишното поколение, в която е внедрено наученото през изминалата година. Ако Cypress и Juniper са в известен смисъл малко избързали решения с недооптимизирана структура поради внезапното орязване на функционалности заради потенциалните проблеми на 40-нанометровия процес на TSCM, то Barts от гледна точка на ефективност е просто впечатляващ.
Предвид по-голямата площ с която са разполагали инженерите, е било възможно да се заложи използването на 256-битова шина на паметта, за разлика от 128-битовата в предишното поколение от среден клас. Това е довело и до запазването на 4-те РОП блока на чипа. Широката шина означава, че чипа няма да е толкова гладен за пропускателна способност, така че няма да са нужни високи честоти за GDDR5 паметта. Поради това в Barts са използвани контролери, който водят началото си от Redwood – модела от по-нисък клас на серията 5ххх, предназначен да работи с 4 ГТ/с памет, а не тези от Juniper и Cypress, разработени за доста по-високи честоти. Според оценките на инженерите на компанията, това е позволило да намалят почти наполовина размерите на тази част на чипа. В самите РОП блокове няма промени и те отново са способни да обработват по 8 цветови стойности или 32 Z/stencil отчета на такт всеки или сумарно това 32/128 стойности за целия чип.
При шейдерното ядро отново е запазена структурата на Cypress, като има два големи блока от SIMD клъстери всеки със собствен растеризатор, но захранвани от общ сетъп енджин. Това означава че потенциално чипа може да обработва отново само по един полигон на такт, но да захранва от него и двата блока на чипа. Промяната идва най-вече от броя на SIMD клъстерите във всеки блок, като те са намалени от 10 на 7 или общо 14 за целия чип. Предвид че структурата им е напълно идентична (16 VLIW5 шейдера или общо 80 АЛУ и 4 текстуриращи модула) това означава че новия чип има 1120 АЛУ (224 шейдера) и 56 текстуриращи модула срещу 1600 (320)/80 при Cypress и 800(160)/40 при Juniper. Възможностите им не са променени, като единствената съществена разлика между Cypress и Barts е липсата на FP64 поддръжка. Това е логично, тъй като чипа е предвиден преди всичко за игрови видеокарти, а не и за професионален ускорител. Има обаче още една разлика между поколенията и тя е в текстуриращите модули. С появата на Barts AMD призна, че в Cypress е имало бъг при филтрацията на текстурите, водещ до некоректно смесване на текстурите при преходите между MIPMAP нивата. Това е особено видно при текстури съставени от регулярни структури от малки елементи. Това не е много често срещан случай, но не е и несъществуващ като най-вече се проявява при автомобилните симулатори. В новия чип този проблем е оправен и вече можем да се насладим на максималното качество на ъглово независимата анизотропна филтрация.
Другите промени в чипа засягат така наречената uncore секция или всичко извън шейдерното ядро и ROP блоковете/контролерите на паметта. Най-важната промяна е сериозната преработка на буфера съхраняващ данните от теселатора, което е позволило новия чип да има значително по-висока производителност при теселация, като предимството достига 100% при фактори между 6х и 11х около 50% при фактори 1-5х и 11-13х. При по-големи фактори нещата се изместват към производителността на сетъп енджина, при което Barts бързо се изравнява със Cypress, като се отчете разликата в честотите. Друга промяна е внедряването на нова, трета версия на UVD декодера, като вече е възможно хардуерното ускорение и възпроизвеждане на Blu-Ray 3D филми. За да извежда подобни изображения към съответния телевизор, новия графичен процесор поддържа HDMI 1.4a и DisplayPort 1.2.
Последното нововъведение, появило се с Barts е новият морфологичен филтър за антиалайзинг. Това е постпроцесинг филтър, който през шейдерите обработва крайното изображение и търси ръбове. В последствие декомпозира тези ръбове на съставни части и прилага определени схеми за изглаждането им. Теоретично качеството на този филтър би трябвало да е измеримо с това на суперсемплинг алгоритмите, тъй като се обработват всички преходи, включително и такива от прозрачни текстури, но за сметка на доста по-малка загуба на производителност. Възможно е комбинирането на MLAA и други типове антиалайзинг за постигане на още по-добро качество на изображението. Изследването на възможностите на този филтър обаче излиза обсега на тази статия. И още нещо – тъй като това в просто вид филтър изпълняван от шейдерите, едва ли е учудващо че поддръжка за този режим се появи и за предходното поколение с последния драйвер (11.2).
Всичко това е събрано в 1,7 млрд. транзистора и в площ 255 кв.мм, почти точно колкото RV770, който стана първият представител на sweet-spot стратегията на AMD. В този смисъл Barts попада точно в тази оптимална зона. За сравнение Juniper имаше малко над 1 млрд транзистора и площ 160 кв.мм, а Cypress има 2,15 млрд. транзистора и 334 кв.мм. площ. Производителността на Barts обаче е много по-близка до тази на Cypress.