Есенна колекция – новите видеокарти на AMD и NVidia, част I

февруари 20th, 2011

РОП блоковете са подобрени.

След като отново става дума за 4 РОП блока, всеки от тях може да обработва по 8 цветови или 32 Z/stencil стойности на такт или максимално 32/128 стойности както и при Barts. Само че извън тези прости числови стойности , има някои големи подобрения. Работата с някои формат на данните е значително ускорена, като във целочислен 16-битов режим подобрението до 2 пъти, а при FP32 едно-/двукомпонентите стойности може да достигне дори до 4 пъти. Така че тези 32 пиксела на такт са много по-лесно постижима цел за новите растерни оператори в сравнение с тез на Cypress и дори Barts. Заедно с това записите на графични данни могат да бъдат комбинирани, за да се подобри ефективността на използване на пропускателната способност на паметта. Компанията е направила още една сериозна стъпка напред, като е надградила стандартния алгоритъм за антиалайзинг с такъв работещ с допълнителни отчети за покритие подобно на CSAA алгоритмите на Nvidia. В терминологията на AMD това Enhanced Quality антиалайзинг. Той трябвало да върши доста добра работа като във всеки от режимите на мултисемплинг (2х, 4х, 8х), освен стандартните цветови отчети добавя още толкова, които само отчитат покритието, ефективно предоставяйки двойно повече отчети (4, 8, 16). Това една важна разлика в сравнение с алгоритъма на NVidia, като вместо междинния 16х режим (4х цветови + 12 допълнителни отчета) се предотавя потенциално по-полезния режим 2хEQ (2+2 семпъла).

Enhanced Quality AA.

EQAA подобрвя качеството на АА при минимална загуба на производителност.

За GPGPU насочеността на новата архитектурата сочи и още една сериозна промяна, а именно възможността за независимо конкурентно изпълнение (Asynchronous Dispatch - асинхронно диспечериране) на различни програмни изчислителни ядра (мини програми, програмни блокове в рамките на графичния процесор). Във Fermi NVidia представи възможността за едновременно изпълнение на до 8 подобни ядра, но там съществува ограничението, че всички те трябва да идва от една и съща нишка, изпълнявана от централния процесор. За да се използват такива от различни нишки и още повече – различни програми, трябва да се извърши смяна на контектста в графичния процесор. Въпреки че във Fermi тази задача е фундаментално ускорена спрямо предходните поколения, тя все пак представлява съществена загуба на време. При Cayman обаче е възможно изпълнението на програмни ядра както от различни нишки в едно приложение, така и от различни програми, като по същество графичния процесор осъществява един вид виртуализация на ресурсите. Тази възможност изисква малко повече работа от драйверите и графичния процесор, но това се компенсира с лихвата от факта, че не е нужно контекстно превключване. За съжаление тази функционалност изисква поддръжка от страна на API, което на този етап е невъзможно за Direct Compute в DX11, но може да бъде осъществено в OpenCL. В чипа има и други подобрения за изчисилителната работа, като вече локалната памет на всеки клъстер (LDS) може да прескача глобалния буфер и кеша и директно да получава данните от паметта. Добавен е втори контролер за директен достъп до паметта (DMA), като заедно с новата възможност за обединяване на операциите за четене би трябвало да се повиши ефективността при работа с паметта за изчислителните програми. И накрая, Cayman поддържа работа във FP64 режим с IEEE-754 съвместимост и поради промените производителността вее е ¼ от тази в FP32 режим, вместо 1/5 както беше при Cypress.

Подобренията за GPGPU приложения са сериозни.

С нарастващия фокус към енергийната ефективност, от AMD са предприели едно доста радикално изменение на енергоспестяващите възможности, като са вградили в чипа система за динамично следене на консумацията и регулирането до определени пикови граници. Логиката зад това решение е, че обикновено в игрите графичните процесори никога не могат да се натоварят до максималните си възможности и за това остават относително далеч от максималните стойности на консумацията. Определени изчислителни програми и синтетични тестове обаче могат да натоварят всички блокове на графичния процесор на максимална степен и да достигнат и дори преминат отвъд границите на зададения TDP. Това например се случваше с моделите от серията 4800, чиято захранваща схема не беше изчислена да работи с приложения то сорта на FurMark, създадени да натоварват графичния чип на максимум и това понякога водеше до дефектиране на графичните адаптери. И докато в началото компанията спореше, че подобни сценарии са нереалистични, се оказа че е подобно натоваряне е възможно и със съвсем реални изчислителни приложения. Заедно с това овърклокването на графичните адаптери, особено с възможностите за повишаване на работното напрежение, също може да повиши драстично консумацията, като в този случай дори в игрите може да се превиши TDP.

Новата система за следене на консумацията се базира на идеята, че игрите рядко натоварват графичния адаптер до ръба на възможностите му.

По тази причина новата система следи в реално време какво е натоварването на различните блокове на чипа и използва алгоритъм с определени коефициенти според, които определя доколко натоварен е процесора и колко близо е до максималните стойности на TDP. При нужда този механизъм може да понижава честотата, докато достигне подходящи според зададените му параметри нива на консумация. За съжаление от това описание личи, че механизмът не е напълно завършен, тъй като не отчита реални стойности на консумация за всеки блок, а работи на принципа на предварително зададени коефициенти според натоварването, както и не използва вградените възможности на чипа за намаляване на напрежението, което би имало много по голям ефект за консумацията в сравнение само със свалянето на тактовата честота. При всички случаи това е един голям напредък в тази област, като приближава графичните процесори към възможностите на централните процесори за динамично скалиране на тактовата честота. Може би при следващото поколение ще видим възможност освен да компенсира повишената консумация на чипа също и да се възползва от ситуации, в които чипът е далеч от максималната си консумация и динамично да повишава честотата, за да предложи по-висока производителност. Хубавото на сегашното решение е, че механизмът има прост начин за контрол от потребителя през драйверите на видеокартата, като позволява на потребителя да променя с до 20% както в положителна, така и в отрицателна посока границата на сработване на защитния механизъм. В добавка механизмът е независим от конкретното приложение, тоест ако случайно се появи игра, която претоварва графичния процесор, то системата ще се задейства автоматично, без да е нужна каквато и да било потребителска намеса.

Системата понижава динамично консумацията.

И накрая, Cayman използва същия UVD3 видеопроцесор и има идентични възможности за възпроизвеждане на видео като Barts и също поддържа последните версии на HDMI и DisplayPort.

В числово изражение новият графичен чип използва 2,64 млрд. транзистора и има площ от 389 кв.мм. Или 22,8% повече транзистори в 16,5% повече площ спрямо Cypress. В интерес на истината от гледна точка на брой транзистори за единица площ Cayman бие дори силно оптимизирания Barts. От своя страна сравнително малкото увеличение както на изчислителните блокове, така и на транзисторите едва ли предполага съществено по-висока производителност за Cayman в процентно отношение, колкото и големи да бяха очакванията за чипа на фона на едната година в повече с която разполагаха AMD, за да оптимизират архитектурата си. Заедно с това неизбежно част от ресурса е бил погълнат за реализация на разпределената геометрична система, както и за GPGPU съсредоточените подобрения, които на този етап ще са от сравнително малка полза. По този начин обаче AMD ще заплати цената за прехвърляне към новата архитектурата в момент когато фамилията на компанията е силно позиционирана на пазара, което ще отвори бъдещи възможности за оптимизация пред нея.

Страници: Предишна 1 2 3 4 5 Следваща

Разбиваме хардуерни митове.

Есенна колекция – новите видеокарти на AMD и NVidia, част I