Многоядрени процесори десислава Розенова Денкова нву “Васил Левски”, факултет „Артилерия, пво и кис”

Изтегляне 81.55 Kb.

Дата	23.03.2017
Размер	81.55 Kb.
	#17589

ГОДИШНИК НА ТЕХНИЧЕСКИ УНИВЕРСИТЕТ – ВАРНА, 2007 г.

МНОГОЯДРЕНИ ПРОЦЕСОРИ

Десислава Розенова Денкова*

*НВУ “Васил Левски”, факултет „Артилерия, ПВО и КИС”, 9700 Шумен, България, ул. Карел Шкорпил № 1, Е-mail:denkova.d@mail.bg

Резюме: Към момента изборът на високопроизводителна компютърна система от висок клас клони към използването на многоядрени процесори. Еволюцията на микропроцесорите е в интегрирането на все повече ядра върху една подложка. За момента реално постижим е едва четириядреният процесор. За съжаление по-голямата част от софтуера е еднонишков, което не ни позволява да видим реалната мощ на тези процесори.

Ключови думи: Архитектура,кеш памет, 90 nm ÷ 45nm технология, ядро.

УВОД

През 60-те години на XX век Гордън Мур(съосновател на Intel) стиг до един простичък извод, който по-късно става известен като закон на Мур, а той гласи: „Броя на транзисторите на единица повърхност ще се удвоява приблизитлно на всеки 18 месеца”.

След формулирането на закона на Мур двата колоса в разработването на процесори и процесорни платформи (Intel и AMD) започват надпревара в откриването и разработката на нови технологии, с които да постигнат все по-висока степен на интеграция на елементите.

За изработването на първите микропроцесори се използва процесът литография, при който над подложка от силиций се поставя маска, представляваща „план” на транзисторите, след което се облъчва с UV светлина. За производството на днешните процесори се изискват нови технологии, като Low-K и High-K процеси.

Low-K процесът е въведен, за да предотвратява, възникващите утечки между транзисторите, поради високата честота, при която функционират. В своята същност този процес представлява включване на добавки в субстрата силициев диоксид . По този начин се намалява диелектричната константа на силициевия диоксид, т.е. повишават се изолационните му свойства.

Друг процес, позволяващ ускоряването на работата на процесора е използването на т.нар. напрегнат силиций. Този процес представлява разтягане на връзките между атомите на силиция (постига се чрез полагането на силициев слой върху основа от силициево - германиев субстрат). С използването на напрегнат силиций работата на транзисторите се ускорява с повече от 30%. Освен този метод се използва и т.нар. SOI процес (Silicon On Insulator). Същността на този процес се състои в нанасяне на тънък силициев слой(с дебелина d = 50 nm ÷ 100 µm) върху субстрат с изолационни свойства.

Следвайки нарастващата необходимост от все по-висока плътност, през 2004г., Intel разработва т.нар. EUV или Extreme UV литография. При него се използва дължина на вълната λ = 13.4 nm и е възможно значително намаляване на размерите на чипа. Чрез EUV Intel произвеждат 45 nm прототип на SRAM модул.

Поради спецификата на функциониране на MOS транзисторите съществува нужда от диелектрик с по-висока константа. Това се постига чрез използване на процеса High-K. При сегашното поколение чиповете като изолатор се използва слой от силициев диоксид с дебелина d = 1.2 nm. С намаляване на размерите на процесорите се достига граница, при която този слой става прекалено тънък. При High-K процеса като заместител се използват материали с по-висока диеликтрична константа, което довежда до възможността за нанасянето им в по-тънък слой. До момента са разработени прототипи с използване на силикати на хафоний или цирконий, заместващи силициев диоксид.

ЕВОЛЮЦИЯ В МНОГОЯДРЕНИТЕ ПРОЦЕСОРИ

Ускорението при многопроцесорните решения зависи не само от софтуера и технологията, а също така и от архитектурата. Многопроцесорните машини могат да използват няколко варианта за комуникация между отделните процесори в системата, както помежду си така и към оперативната памет. Според това каква архитектура се използва различаваме следните видове:

Symmetric multiprocessing (SMP);
Asymmetric multiprocessing (ASMP);
Non-uniform memory access (NUMA).

SMP/АSMP

Фигура 1. Dual CPU Core Chip
Симетричните многопроцесорни решения представляват платформи, поддържащи поставянето на повече от един процесор. SMP архитектурата представлява два или повече процесора, използващи споделена оперативната памет. Тази архитектура има следните недостатъци:

Поддръжка от страна на операционната система;
Само един от процесорите може да комуникира с оперативната памет.

За да бъдат избегнати тези недостатъци се използват АSMP системите. Разликата между този тип архитектура и АSMP системите е, че при симетричните мултипроцесорни решения е възможно прехвърлянето на работа между процесорите, за да се балансира максимално натоварването. При АSMP обаче това не е така – в този случай процесорът, започнал дадена задача, следва да се занимава само с нея.

AMD Opteron и NUMA

Фигура 2. AMD Opteron

NUMA, или Non-Uniform Memory Access (Non-Uniform Memory Architecture), представлява технология, която следва еволюцията на SMP архитектурата. Оперативната памет в една компютърна система работи много по-бавно от процесора, за да се избегне този проблем производителите се стремят да минимизират броя обръщения на процесора към паметта чрез разполагането на все по-голям обем кеш в него. Но това не води до особенно голямо увеличаване броя на обръщенията на CPU, т.к. обемът на кеша в процесора е ограничен. С разработването на NUMA производителите се стремят да ограничат “сблъсъците” между различните ядра в обръщенията им към оперативната памет.

Фигура 3. Разположение на кеш паметта върху корпуса на процесора

При тази архитектура всяко едно от ядрата разполага със собствена област от памет, с която работи. Конкретно при процесорите Opteron между четирите ядра съществува HyperTransport връзка, чрез която се осъществява комуникацията между тях (при нужда от такава). На практика обаче понякога се случва така, че данните, използвани от един процесор, са нужни и на друг, ето защо е необходимо прехвърлянето им към областта памет, с която борави вторият процесор. Това, разбира се, става с известно забавяне на компютъра. Цялостното ускоряване на една четириядрена система с NUMA архитектура зависи от това доколко процесорите се занимават със собствените си задачи и доколко се “разсейват” със странични дейности.

При използването на мултипроцесорни системи от огромно значение е запазването на кохерентността на кеша на процесорите. За да се запази кохерентността на данните в кеш паметта на процесора се използва специфична логика и софтуер (операционна система).

Intel архитектури

Intel Core 2

Фигура 4. “Прозрачна” снимка на Core 2

Intel замени старата си архитектура NetBurst с новата Core. Core доведе до реализирането на многоядрените процесори, а също така премахна някои доста съществени недостатъци на NetBurst.

Conroe (кодовото наименование на Core 2 Duo) съдържа две изпълними ядра на един общ кристал, комуникиращи с общ обем от кеш памет.

При ядрото Conroe конвейра ( поредица от стъпки при изпълнението на инструкцията) е 14 – стъпков (за сравнение при NetBurst е 32 - стъпков).

В ядрото са добавени повече обработващи блокове, известно като Intel Wide Dynamic Execution. Wide Dynamic Execution включва различни вътрешни технологии на Intel, една от които е Macro Fusion. При нея определен тип микрокоманди могат да изпълняват заедно, като преди това се обработват от блока, разпределящ операциите. Наличието на Wide Dynamic Execution в комбинация с Macro Fusion води до по-ниска консумация и по-малко отделена мощност.

Друго нововъведение е Intel Intelligent Power Capability, това е възможността ядрата да изключват неизползваните в момента обработващи блокове, което също намалява изразходваната и отделена мощност.

При съвременните процесори се използва т.нар. Data prefetch (логика за предварително извличане на данни). В този случай се получава повишаване на ефективната работа с данни от оперативната памет, а също така се увеличава и броят на успешните опити за достъп до L2 кеш паметта. При процесорите Core 2 Data prefetch блоковете са увеличени до 6 на брой, като по два от тези 6 блока работят директно с L1 кеша на всяко от ядрата, а третата двойка се грижи за ефективната „комуникация” между L2 кеша и системната памет. Наред с това Smart Memory Access притежава още една функция, наречена disambiguation, която спомага спекулативно зареждане в кеша на инструкции за обработка още преди намиращите се там задачи да се изпълнени.

Както вече бе споменато L2 кеш паметта при ядрата Conroe не е разпределена по равно между ядрата, които имат възможност за достъп само до собствения кеш (Intel Advanced Smart Cache). L2 кешът на Conroe има 40 % по-голяма латентност от предишните решения на Intel, т.е. латентността се е увеличила от 10 на 14 цикъла.

Подобрена е ефективността при работа с SSЕ оптимизирани програми и инструкции (Intel Advanced Digital Media Boost). В момента процесорите на Intel могат да работят с 64 bit SSE инструкции, като изпълняват по една такава за всеки такт,или със 128 bit SSE, като изпълняват една за два такта, разбивайки я на 2 x 64 bit. Ядрата Conroe могат да изпълняват 128 bit SSE за един такт, като така теоретично се повишава бързодействието с SSE точно два пъти.

Intel Tera-Scale

Фигура 5. Intel Tera-Scale
Наскоро Intel анонсира разработката си на 80-ядрен процесор, носещ името Intel Tera-Scale. На този етап са налице два проблема, поради което не е възможно пълноценното използване на многоядрените процесори. Първият е неспособността на софтуера да се възползва от повече от един процесор. И докато това е поправимо чрез пренаписването на програмите, другият е доста по-сериозен. С добавянето на повече ядра в процесора се стига до момент, при който те не успяват да комуникират с паметта или кеша. При използването на 2 или 4 ядра това не е проблем, но според Intel интегрирането на 8, 16, 32 и т.н. ядра ще доведе до нуждата от изцяло нови сокети. Едно от възможните решения на това затруднение е разширяването на шината за комуникация между процесора и контролера на паметта. Това, разбира се, води до следващо затруднение – използването на 6-канална връзка ще изисква 1800 пина на процесора. Изработването на процесор с подобен брой пинове е не само непосилна, но и доста рискована задача. Сред възможните решения е добавянето на още едно ниво от кеш памет към всяко ядро или дори интегрирането на собствена памет към него.

Технически данни: Tera-Scale е прототип на едно ново поколение процесори. Той е създаден по 65 nm технология и интегрира в себе си 100 млн. транзистора на площ от 275 кв.мм. Големият брой на транзисторите в процесора се дължи главно на интегрирания кеш от първо и второ ниво. Производителност на чипа – над 1 терафлоп при честота малко над 3 GHz. При тази честота чипът отделя около 98 W, но е възможна работата му както при по-ниска, така и при по-висока честота. При 1 GHz чипът има производителност от 310 млн. операции с плаваща запетая за секунда, но пък е с изключително ниско ниво на консумация на енергия – едва 11 W.

AMD архитектури

За съжаление AMD няма с какво толкова да ни изненада със своите многоядрени процесори, т.к. са доста назад в сравнение с лидера на пазара Intel. AMD трудно усвоиха 65 nm технология и доскоро разработките им използваха 90 nm технология (за сравнение Intel използват 45 nm).

ЗАКЛЮЧЕНИЕ

В днешния цифров свят изискванията на сложните тримерни симулации, медиини файлове, изисквания към нивата за сигурност, по сложни потребителски интерфейси, по-големи бази от данни и повече потребители online започват да превишават способностите на едноядрените процесори.

ЛИТЕРАТУРА

www.intel.com
www.amd.com
www.computers.bg

Изтегляне 81.55 Kb.

Сподели с приятели: