Лекция мрежи с асоциативна памет. Еднослоен автоасоциатор и модел на хопфилд



Дата23.01.2017
Размер168.88 Kb.
#13363
ТипЛекция




ЛЕКЦИЯ 5. МРЕЖИ С АСОЦИАТИВНА ПАМЕТ. ЕДНОСЛОЕН АВТОАСОЦИАТОР И МОДЕЛ НА ХОПФИЛД

Мрежите с асоциативна памет са прости еднослойни или двуслойни мрежи, които съхраняват образци, които могат да се възстановяват при непълна или повредена входна информация. Те включват мрежи, при които паметта е адресирана според съдържанието или памет позволяваща извличане на данни с помощта на ключови елементи, базирани на характерни атрибути на запаметените образци. Тези мрежи бяха разработени през 70-те и 80-те години и макар да нямат широко приложение те са една от основните архитектури на ИНМ. Тези мрежи са с обратна връзка, поради което се наричат циклични или рекурентни. Невроните са смързани помежду си напълно като всеки неврон влияе на останалите и бива повлиян от тях. Затова може да се говори за пряка и непряка обратна връзка. Пряката се реализира когато група неврони са свързани в кръг, а непряката е колективно свойство тъй като състоянието на системата зависи от състоянието на отделния неврон, и обратно системата влияе върху състоянието на неврона. Динамиката на такава система е сложна и се описва отсистема свързани диференциални уравнения. Да се търси решение на тези уравнения е изключително трудно и такъв подход е непрактичен. Вместо това може да се избере някакъв инвариант на системата , който да определя състоянието на невроните и да се използва като функция чийто екстремум трябва да се намери. Най-често това е енергията.



Особености на асоциативната памет

Запомнането при хората обикновено означава асоцииране с някакви осезателни възприятия.



  • Един начин на извличане на запаметена информация е с помощта на ключови елементи от запаметения образец.

Например когато запаметяваме таблицата за умножение ние използваме двата множителя като ключов елемент за да извлечем запаметения резултат.

  • Друг начин на извличане на запаметена информация е чрез съдържанието или приликата на входната информация със запаметената.

Тук мярката за прилика може да се дефинира по различен начин като разстояние между входния и запаметения образец. Например можем да възстановим цялата мелодия като чуем само няколко ноти. Друг пример е когато разпознаваме изкривено или размито изображение (например буква). В този случай е важна някаква характерна особеност на запаметения образ.

Фиг.1 Архитектура на мрежа на Хопфийлд. Ако се добавят обратни връзки на

невроните към себе се се получава архитектура на АА

АВТОАСОЦИАТОР

Автоасоциаторът (АА) е ИНМ, която търси максимална прилика на входния образец със някои от запаметените в матрицата на връзките образци. Архитектурата на АА е представена на фиг.1, където трябва да се добавят обратни връзки на невроните към себе си. При правите мрежи невроните само пропускат информацията без да си взаимодействат, а връзките се променят итеративно като се адаптират към някакво преобразувание зададено с примери. При цикличните мрежи, в частност АА, невроните са напълно свързани и взаимодействат помежду си, а връзките са постоянни и се дефинират чрез алгоритъма на Хеб, като се определят от запаметените образци. АА е еднослоен модел като входа на всеки неврон е свързан към съответния входен сигнал (външен вход), а също така чрез обратна връзка с изходите на всички останали неврони, включително със собствения си изход (вътрешен вход). Външният вход се поддържа постоянен с постоянни връзки равни на 1, а вътрешния вход се променя, поради еволюцията на активностите на невроните. Както се вижда от фиг.1 броят на входовете е равен на броя на невроните, който е равен на броя на изходите.

Свойства на невроните

Ефективният вход се задава от израза:

i (t+1) = Xi 0 + i j Yj (t),

където първият член отдясно задава постоянните във времето външни сигнали, а сумата във втория член задава моментното състояние на вътрешния вход, който се променя с времето.

Активноста на j-ия неврон се задава от израза:

Аj (t+1) = Аj (t) + s.i (t) - d [Аj (t) - a],

където вторият член отдясно усилва активноста в предишен момент и има смисъл на памет, а третият член отдясно намалява активноста в предишния момент и има смисъл на забравяне. Когато на входа няма сигнали т.е. εi=0, активноста се стреми към състоянието на покой а. Коефициентите s и d приемат стойности между 0 и 1.



Функцията на преноса е линейна и за да се ограничат изходните стойности се налага огпаничение отдолу и отгори както следва:

M при Аi (t) M



Yi (t) = Аi (t) =- M при Аi (t) - M

Аi (t) в останалите случаи

ОБУЧЕНИЕ НА АА

1. Чрез алгоритъма на Хеб:

i j = Xi Xj

Тук връзките се определят императивно и представляват корелациите между съответните компоненти на запаметения образец. Окончателно връзките се определят след сумиране по всички запаметени образци т.е.:

i j = Xi Xj.

Матрицата W се нарича матрица на корелациите. Очевидно матрицата W е симетрична тъй като i j = j i . От симетрията следва:



  • Собствените вектори на матрицата са ортогонални

  • Съществува функция на енергията за такава система

Очевидно, че една циклична мрежа може да работи като атрактор когато

връзките се подберат така, че запаметените образци да съвпадат със стабилните състояния /минимална енергия/ на системата. Когато системата достигне стабилно състояние стойностите на невроните не се променят с времето с точност до константа т.е. имаме:


X(t+1) =  X(t)

За линеен АА условието зо стабилност може да се запише по следния начин:



X(t+1)= Y(t)=W X(t)

Така условието за стабилност е изпълнено ако е изпълнено следното условие:



W X(t)= X(t)

От тук следва, че за да бъдат записаните образци стабилни състояния на мрежата е необходимо те да бъдат собствени вектори на матрицата на връзките W, а коефициентите  да са собствените стойности на тази матрица. Собствените вектори обаче са ортогонални поради симетрията на матрицата на връзките. Следователно условието цикличната ИНМ да работи като атрактор е запаметените образци да са ортогонални т.е. да не се припокриват. Образците няма да се възстановяват съвсем точно когато образците не са ортогонални, като грешката ще бъде толкова по-голяма колкото по-голяма е корелацията между входните образци. Максималният брой запаметени образци не може да надвишава ранга на W.



2. Обучение чрез делта-алгоритъм. Този метод на обучение на циклични ИНМ се използва много по-рядко. Очевидно познатия ни делта-алгоритъм трябва да се модифицира тъй като тук желания изход е неизвестен предварително. Той се получава след достигане на равновесие.

i j = (Xi0 - i k Xk) Xj0

Тук е полезно първо да се проведат известен брой цикли, при което системата се доближава до равновесие и тогава да се заместят стойностите на Xk в горното равенство.

Като пример за еднослоен, цикличен автоасоциатор може да послужи модела на Хопфилд. Този модел е разработен през 1982г. от физика Джон Хопфилд, който показва че физически системи съставени от голям брой взаимодействащи си частици проявяват при определени условия спонтанни изчислителни свойства. Авторът използва теорията на спиновите стъкла за описание на цикличен модел на ИНМ съставена от бинарни неврони. Затова е полезно да си припомним накратко физическата концепция за спиновите стъкла или така наречения модел на Изинг.



Спинови стъкла

Спиновите стъкла са съставени от магнитни атоми с постоянна намагнитеност (спинове), които взаимодействат помежду си и с външни полета чрез магнитни сили. Магнитния дипол има две състояния-“спин надолу” и “спин нагоре” е фактически представляват бинарен елемент с две състояния:

S=1 и S=-1. За да определим състоянието на системата трябва да знаем как си взаимодействат магнитните атоми а също и динамиката, който описва промяната на състоянията им.

1. Междуспинови взаимодействия и взаимодействия с външно могнитно поле. Приемаме че локалното магнитна поле hi в точката където се намира i–тия атом е сума от външното постоянно поле h0 и резултатното поле създавано от всички останали атоми:



hi = h0 + i k Sk

където i k в случая означава обемната сила на взаимодействие между спина Si и спина Sk. В магнитните системи тези сили са симетрични, изразяващи принципа на Нютон за равенство на действието и противодействието т.е. i k = k i . Освен това приемаме че няма самовъздействие и състоянието на спина не зависи от собствената си предистория, а единствено от състоянието на цялата система т.е.

i i =0. Във феромагнитните материали силите на взаимодействие i k са положителни. При антиферомагнитите те си менят знака периодично в кристалната решетка. При спиновите стъкла знаците и стойностите на i k имат случайни значения.

Спиновите взаимодействия могат да се характеризират и по друг начин чрез енергията запасена в системата:



H = -hi Si=-(1/2)i k Si Sk - h0  Si

Енергията Н може да намалява или да не се променя, но не може да нараства при свободната еволюция на състоянието на спиновете в системата.

2. Динамиката на цялата система трудно може да се опише поради следните причини:


  • Спиновете променят състоянието си случайно и асинхронно.

  • Силите на взаимодействие са далечнодействащи и зависят от състоянието и структурата са цялата система.

  • Когато само един спин се преориентира се променят всички сили на взаимодействие.

Най просто динамиката за преориентиране на спиновете се дава от уравненията:

Si(t+1) = sgn [hi (t)]=sgn [i k Sk(t) +h0]

Където:


Смисълът на този закон е, че когато топлинната енергия е достатъчно ниска спинът се насочва според посоката на локалното магнитно поле.

Могат да се забележат следните асоциирани понятия, описващи спиновото стъкло и ИНМ:
ИНМ спиново стъкло

неврон магнитен атом

тежест на връзките сила на взаимодействие

ефективен вход локално магнитно поле

праг на неврона стойност на външно магнитно поле

активност на неврона състояние на спина


Аналогията маже да се продължи с въпроса: Възможно ли е в една неподредена система, каквато е спиновото стъкло да се запаметят данни чрез локално подредени структури каквито са магнитните домени? Известно е че домените се образуват в резултат на процеси минимизиращи енергията. Динамиката на развитие както на спиновите стъкла така и на невронната мрежа на Хопфилд води до стабилни състояния с минимална енергия H(i k, Sk) = min. Подходът за минимизиране на енергията, обаче в двата случая е различен:

  • При спиновите стъкла са известни силите на взаимодействие и се търсят тези състояния на спиновете, за които енергията е минимална.

  • Обратно, при мрежата на Хопфилд са известни състоянията на невроните, които описват запаметените образци и се търсят такива връзки, които ще минимизират енергията.

ДИСКРЕТЕН (СТОХАСТИЧЕН) МОДЕЛ НА ХОПФИЛД

Мрежите на Хопфилд са циклични, еднослойни мрежи със симетрична матрица на връзките, в която диагоналните елементи са нули. Хопфилд не е търсил прилика с биологичните неврони, а е показал че една физическа, статистическа система, съставена от голям брой взаимодействащи си частици притежава свойства на асоциативна памет, като проява на колективни взаимодействия, вследствие на които системата еволюира към локални структури с минимална енергия.

Архитектурата на мрежата на Хопфилд е като тази на АА (фиг.1) с тази разлика, че при Хопфилд е забранена обратната връзка на невроните към себе си т.е. ωii=0. Освен това невроните са с нелинейна предаваща функция, докато при АА са линейни.

Невроните в мрежата на Хопфилд са бинарни. Възможни са две представяния на бинарните стойности {0,1} или {-1,1}.Ще използваме второто представяне, което е с по упростен запис и съвпада с означенията при спиновите стъкла. Ако се използва представянето {0,1}, векторите трябва да се модифицират като вместо X се пише (2X -1).



Входната функция, подобно на АА, представлява сума от външен и вътрешен вход:

i = Xi 0 + i j Xj



Функцията на преноса се задава от уравненията:

+1 за i (t) i



Yi (t)= Xi(t+1)=Xi(t) за i (t) = 0

- 1 за i (t) i

Ако изберем прагова стойност i > 0 вероятноста невроните да са в състояние -1 е по-голяма от вероятноста за състояние +1. Обратно, ако i 0 ще имаме обратната асиметрия. Затова Хопхилд избира нулев праг i =0.

Функция на енергията.

По аналогия със спиновите стъкла можем да дефинираме енргията на един неврон E = - i Xi. Енергията на цялата мрежа се дава от сумата по всички неврони:



E = - i Xi.Функцията на енергията има смисъл на оценъчна функция, като мярка за състоянието на невронната мрежа. Лесно може да се покаже, че при всяко превключване на произволен неврон енергията или намалява или се запазва, но не нараства. От функцията на преноса следва следния израз за промяната на състоянието на един неврон:

Xi = Xi (t+1) - Xi (t) = 2sgn(i)

Тогава за съответната промяна на енергията получаваме:

Ei = -i Xi = - i sgn(i ) 0.

Eнергетичните минимуми, в които се запаметяват образците имат свойтва на атрактори към които еволюира системата в процеса на възпроизвеждане. Произволен входен образец (вектор) ще еволюира кэм този запаметен образец, с който приликата е най-голяма (вж. Фиг.2). Съществуват различни мярки за сходства или прилика между два бинарни вектора с размерност N. Ние вече разгледахме два примера:


  • Разстояние на Хаминг h: Определя се от броя на различните компоненти на двата вектора. Така h=0 ако векторите са еднакви и h=N ако векторите са инверсни.

  • Припокриване на векторите m. Определя се от скаларното произведение на двата вектора. Така m=1 ако векторите са еднакви и m.-1, ако векторите са инверсни.

фиг.2 Запаметените образци като атрактори

ОБУЧЕНИЕ

Идеята е така да изберем връзките в мрежата, че запаметените образци да бъдат атрактори т.е. да съответстват на стабилни състояния на системата. Първо ще разгледаме как може да се запамети един образец. Нека това да е образеца Xm . Приемаме че системата е достигнала стабилно състояние и повече не се променя т.е. имаме:



Xim (t+1) = sgn [i k Xim (t)]= Xim (t) за всяко i.

Ще покажем, че ако дефинираме връзките като корелации между съответните компоненти на входния вектор Xm , тогава вектора Xm ще съответства на стабилно състояние и ще бъде атрактор. Нека i k =(1/N)( Xim Xkm ). Тогава за ефективния вход получаваме израза:

i (t) = i k Xkm (t)= Xim Xkm Xkm= Xim Xkm Xkm = Xim

където Xkm ={-1,1} и за простота сме положили нормировъчния член 1/N равен на единица. Очевидно при така избраните връзки условието за стабилност се изпълнява тъй като е изпълнено условието:

sgn(Xim)=Xim

Нека сега разгледаме общия случай когато на входа е приложен произволен вектор X , за който N1 от компонентите съвпадат със запаметения вектор Xm и N2 от компонентите се различават. В този случай за ефективния вход се получава:

i = i k Xk = [(N1 - N2 )/N]Xim

Ако верните битове са повече от половината т.е. N1 N2 , условието за стабилност е изпълнено и X ще еволюира към Xm т.е. казва се че X е в басейна на привличане на атрактора Xm. Очевидно, инверсният образец -Xm има същата енергия и също е атрактор.

Сега ще разгледаме по-общия и труден случай когато трябва да се запаметят множество от образци { X}. Връзките се задават отново чрез корелациите, по правилото на Хеб:

i j =(1/N) Xi Xj

Ще изследваме стабилноста на един от запаметените образци Xm когато едновременно са запаметени множество други образци. Ефективният вход в този случай се задава от израза:

i = i k Xkm = (1/N) k Xkm Xi Xk = Xim +(1/N) k Xkmm Xi Xk

Условието за стабилност е:

Xim =sgn(εi )

Вторият член в израза за ефективния вход има смисъл на косвено въздействие на останалите записани образци върху ефективния вход. Очевидно, ако този израз е нула или по-малък от единица по абсолютна стойност, той няма да промени знака на Xim и Xm ще бъде атрактор.



ВЪЗПРОИЗВЕЖДАНЕ

Както споменахме възпроизвеждането в една циклична ИНМ се извърщва стъпкообразно. Началните стойности на невроните са равни на съответните компоненти на входния вектор (вж. структурата на мрежата на фиг.1). След това има различни възможности за промяна на състоянието на мрежата по приетата динамика за превключване на един неврон Xi (t+1) = sgn [Swi k Xi (t)].

1) Асинхронно и случайно превключване - избира се случайно един неврон и се изчислява новата му изходна стойност. Останалите неврони получават нови входни стойности, но поддържат старите си изходни стойности докато не бъдат избрани. Възможно е повторно избиране на един неврон, ако случаят реши така.

2) Асинхронно и последователно превключване - невроните се задействат един след друг по някаква приета номерация. Както и в предишния случай се актуализира изхода само на задействания неврон, който променя слабо ефективните входове на останалите неврони.

3) Синхронно превключване - При фиксирани входни стойности задавани от предишното състояние на невроните се изчисляват и променят изходните стойности на всички неврони.

Синхронното превключване е по-трудоемко за пресмятане, особено за мрежи с голям брой неврони. Освен това този начин изисква наличието на централен тактов синхронизатор. Асинхронното превключване е по-гъвкаво и по-близо до идеологията на невронните мрежи. Недостатък е, че стабилното крайно състояние се достига по-бавно.



Задача:

Изберете си произволен 4-мерен или 5-мерен вектор и го запаметете по правилото на Хеб. Запишете матрицата на връзките.

1) Покажете, че така запаметения вектор се възпроизвежда правилно чрез динамиката на модела на Хопфилд и, че съответства на стабилно състояние.

2) Изберете произволен вектор различен от запаметения само с един бит (разстояние на Хаминг =1). Покажете, че този вектор се привлича от атрактора на запаметения вектор.

3) Изберете друг произволен вектор с разстояние на Хаминг =2 спрямо запаметения вектор. Покажете, че системата осцилира между записания атрактор и инверсния атрактор като двата атрактора имат еднаква енергия.

4) Ако изберем вектор с разстояние на Хаминг =3 покажете, че системата клони към инверсния атрактор.



КАПАЦИТЕТ НА МОДЕЛА НА ХОПФИЛД

Важно е да се знае колко образеца може да запамети една ИНМ с N неврона без да се наруши точното възпроизеждане на образците. Нека броя на запаметените образци е р. Тогава капацитетът се задава от отношението a=р/N. Очевидно колкото повече образци записваме толкова намалява размера на басейна на привличане и дълбочината на атракторите. Образно казано енергетичният ландшафт ерозира и толеранса на допустимите отклонения от записаните образци намалява.

Теоретичната оценка за максималният капацитет се дава от израза amax=1/log2N. За N=100 получаваме р=11. Емпирично е получено, че amax=0.14 т.е. около 10 неврона са необходими за стабилно запаметяване на един образец.

АНАЛОГОВ (ДЕТЕРМИНИСТИЧЕН) МОДЕЛ НА ХОПФИЛД

Дискретният модел на Хопфилд, който разгледахме има стохастичен характер тъй като честотата на актуализация на невроните е случайна и не зависи от другите неврони. Входните стойности, състоянията и изходните стойности на невроните са бинарни. Обаче при биологичните неврони както и в инжинерните реализации изходните стойности са аналогови. По тази причина Хопфилд разработва аналогова версия на модела си, чиято динамика е детерминистична и се описва с диференциални уравнения:

където τi е времеконстанта, а f(x) е нелинейна предаваща функция от вида:

Динамиката на една система описвана от гарните диференциални уравнения по принцип има три възможни режима на поведение: сходимост към фиксирана точка (атрактор), осцилиране или хаотично поведение. Поради симетрията на матрицата на връзките мрежата на Хопфилд действа в режим на атрактор.

Хопфилд успява да докаже, че общите изводи важат еднакво както за дискретния така и за непрекъснатия модел.

Пример за аналогов модел на Хопфилд, съставен от аналогови електронни неврони е показан на фиг.3

фиг.3 Електронен аналогов неврон на Хопфилд

Връзките се задават от проводимостта на съпротивленията Rik т.е. wi k=1/ Rik . Понеже съпротивленията са винаги положителни отрицателен изход на неврона се формира от инвертор както е показано на фиг.3. Сумарният пад на напрежението ui има смисъл на ефективен вход. Изходните усилватели реализират нелинейна функция на преноса, задавана от сигмоидната функция :Vi =0.5 [1+tanh(λui )], която е показана графично на фиг.4. Тук λ е параметър на нелинейност, определящ вида на кривата.

фиг.4 Сигмоидна функция на преноса

RC веригата въвежда по аналогия с биологичния неврон време на забавяне равно на времето през което капацитета се зарежда. Токът от фоторецептора Ii0 е външния входен сигнал. Токовете през съпротивленията на връзките Iik =( Vk - ui )/ Rik се определят от напреженията Vk идващи като обратна връзка от другите неврони. Напрежението ui има смисъл на активност на неврона. Общият ток през усилвателя е:

Ii = Sk Ii k + Ii0 - ui / ri =Sk( Vk - ui ) wi k + Ii0

Ако означим общата проводимост 1/ Ri = Sk(1/ Rik ) получаваме упростен израз за тока:



Ii = Sk Vk wi k + Ii0

Първият член описва вътрешния вход на неврона, втория задава външния вход. Динамиката на неврона може да се определи от диференциално уравнение описващо зареждането на кондензатора от тока Ii :



Ci (dui /dt) = Sk Vk wi k + Ii0

Вижда се, че това уравнение съвпада с уравнението, описващо динамиката на един интегриращ неврон. От него можем да определим ui . Следователно аналоговият неврон на Хопфилд може да се разглежда като съставен от един интегриращ неврон плюс един нелинеен елемент (усилвателя), който взима решение за изходната стойност Vi според стойноста на ui .

Аналоговият модел на Хопфилд притежава същите свойства както и дискретния. Затова може да се конструират електронни реализации на МХ за които са валидни изводите от теорията на дискретния модел. Превключването на невроните в аналоговия модел става едновременно и непрекъснато, което е в съответствие с биологичните невронни мрежи.

ХАРДУЕРНА РЕАЛИЗАЦИЯ НА АНАЛОГОВ МОДЕЛ НА ХОПФИЛД

Полупроводниковата технология лесно постига миниатюризация на електронните схеми, но трудно реализира големият брой връзки между невроните. Обратно, оптическите технологии позволяват лесна реализация на множество връзки с помощта на лазерни лъчи. Затова най-често се използват хибридни оптоелектронни елементи като връзките са оптически, а процесорите са полупроводникови. На фиг.5 е показан един примерен оптоелектронен неврон. Входовете му са фотодиоди, а изхода е лазерен диод. Нелинейният, прагов елемент е полупроводников чип. Информацията между невроните се пренася от лазерния лъч, а матрицата на връзките може да се зададе от полупрозрачно фолио с подходящо подбрана маска на пропускане. Още по-удобно е да се използва плоска или обемна холограма.

фиг.5 Оптоелектронен неврон



Холограмата може да запамети голям набор от образци. Освен това при нея се реализира пространствено разделяне на връзките, тъй като преминалите лъчи се насочват в различни направления. С помощта на плоска холограма могат да се реализират до 108 връзки на квадратен инч, а с помоща на обемна холограма до 1012 връзки на квадратен инч.
Каталог: ~tank -> NeuralNetworks
~tank -> Лекция 2 Типове данни. Класове и обекти. Числено интегриране
NeuralNetworks -> Лекция състезателно обучение без надзор. Самоорганизиращи се карти на кохонен
~tank -> Основи на езика fortran
~tank -> Програма От командната линия, след като сме влезли в директорията където е файла с фортран-код
~tank -> Програма за изчисляване на средна стойност
NeuralNetworks -> Лекция строеж и свойства на биологичните неврони като
NeuralNetworks -> Лекция многослойни инм без обратна връзка. Алгоритъм за


Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница