Решение на такава задача от мозъка може да бъде обработката на информация от обикновеното зрение (human vision). Във функциите на зрителната

Статистическа природа на процеса на обучение

Изтегляне 1.78 Mb.

Pdf просмотр

страница	37/58
Дата	08.04.2022
Размер	1.78 Mb.
	#114042
Тип	Решение

1 ... 33 34 35 36 37 38 39 40 ... 58

book
Свързани:
Kniga uchitel IT 6. klas Даниела Убенова (1), Kniga uchitel IT 8. klas Даниела Убенова, elektronno-obuchenie

2.13. Статистическа природа на процеса на обучение

Ще разгледаме еволюцията на вектора на теглата на коефициентите
, а алгоритъма за обучение на невронните мрежи може да се разглежда като цикличен. Ще оценяваме смо отклонението на целевата функция и фактическта функция
, реализирана в невронните мрежи. Векторът x е входен сигнал. Неговото отклонение може да се изрази в статистически термини.
Невронните мрежи се разглеждат като една от формите, в които с помощта на процеса на обучение може да се закодират емпиричните знания (empirical knowledge) за физическите явления и околната среда. Под термина „емпирически знания” се разбира някакъв набор от измервания, характеризиращи дадено явление. Пример за стохастическо явление, описано от случайният вектор Х, състоящ се от независими
променливи (independent variable) и случайния скалар D, представляващ зависима
променлива (dependent variable). Всеки елемент от случайният вектор Х може да има свой физически смисъл. Предположението, че зависимата променлива D е скаларна е направено с цел да се опрости изложения материал, без загуба на общности.
Предполагаме, че съществуват N различни случайни вектора Х, обозначени с и съответните им множество реализации на случайния скалар D, което обозначаваме с
. Тези реализации (измервания) представляват обучаващата извадка

71
Обучението не разполага със знания за функционалната взаимовръзка между Х и D:
Където е някоя детерминирана функция (deterministic) на вектора на аргумента;
-очаквана грешка (expectational error), предсавляваща нашето „незнание” за зависимостта между Х и D. Статистическият модел описан от израза (2.54) се нарича
регресивен (regression model) (фиг.2.20, а). Очакваната грешка се явява случайна величина с нормално разпределение и нулево математическо очакване. Регресивният модел, илюстриран на фиг 2.20, а показва две важни свойства: с
Средната стойност на очакваната грешка за всички реализации на x е равна
на нула, т.е.
Където Е е статистически оператор на математическото очакване. Естествено следствие на това свойство е, че регресивната функция се явява условен среден модел на изхода D за входния сигнал Х=x:
Очакваната грешка не се корелира с функцията на регресията
,
т.е.
Това свойство е известно като принцип на ортогоналност (principle of orthogonality), който гласи, че всяка всяка информация от D, допусната чрез входния сигнал Х, се закодира във функцията на регресията
. Равенството (2.57) се свежда до следния вид:
Регресивният модел (фиг. 2.20, а) представлява математическо описание на стохастическата среда. В нея векторът Х се използва за описване или предсказване на зависимата променлива D. На фиг 2.20, б е представен съответния „физически” модел на данните на средата. Това е вторият модел, основан на невронните мрежи, позволяващ закодиране на емпиричните знания, заключени в обучаващата извадка Т, с помощта на съответния набор от вектори на синаптическите тегла :

72
Фиг.2.20. Математическо (а) и физическо (б) представяне на невронните мрежи
Така образно невронните мрежи обезпечават апроксимирането на регресионният модел, представен на фиг. 2.20, а. Нека фактическият отклик на невронните мрежи на входния вектор x се обозначава със следните вероятностни променливи:
Където е функция отразяваща входните данни в изходни, реализирана с помощта на невронните мрежи. За избора на данни за множеството Т, представено във вида (2.53), вектора на синаптическите тегла може да се изчисли чрез:
Където коефициента ½ се въвежда за съвместимост с обученията използвани по-рано.
Ако не вземем под внимание коефициента ½, функцията от стойности
, описва сумата от квадратите на разстоянията между d и фактическият отговор y на невронните мрежи за всеки пример за обучение от Т.
Нека е оператор за усреднение (average operator) по цялата обучаваща извадка Т. Променливите, или техните функции, обработвани от оператора за осреднение
, обозначаваме с x и d. При това двойката (x, d) представя всеки конкретен обучаващ пример от извадката Т. За разлика от оператора за усреднение, статистическото очакване Е функционира върху множеството от всички стойности на случайните променливи Х и D, подмножество на които се явява Т. разликата между операторите Е и ще бъде показана по-долу.
След преобразованията описани във формула (2.58), функциите и
, се явяват взаимосвързани и изразът (2.60) може да се представи във вида:

73
Добавяме функцията с аргументи и след използване на (2.54) получаваме:
Поставяме този израз в (2.61) и след разкриване на скобите получаваме следния еквивалентен вид:
Последното слагаемо в първата част на формула (2.62) е равно на нула по две причини.
Очакваната грешка не корелира с регресивната функция
, което се вижда от израза (2.57), интерпретиран в термините на оператора
Очакваната грешка отнесена към регресивният модел, изобразен на фиг. 2.20,а в същото време апроксимиращата функция се отнася към невронния модел показан на фиг.2.20, б.
Следователно изразът (2.62) може да се упрости:
Първото слагаемо в първата част на израза (2.63) описва дисперсия на очакваните грешки (регресивни модели) , изчислени върху обучаващата извадка Т. тази изходна
(intrinsic) грешка не зависи от вектора на теглата
. Тя може да не се отчита, т.к. главаната задача е минимизация на функцията на стойностите относно вектора .
Следва да се отчита, че стойността на вектора на теглата минимизиращ функцията от стойностите също така ще минимизира и средното по ансамбли квадратично разстояние между регресивната функция и функцията на апроксимация
Естественото измерване на ефективността на използване на за програмирането на желания отговор d се явява следната функция:
Този резултат има фундаментално значение, т.к. обезпечава математическата основа за изучаване на зависимостта между изместване и дисперсия, получени в резултат на използваната в качеството на апроксимация на функцията

Изтегляне 1.78 Mb.

Сподели с приятели:

1 ... 33 34 35 36 37 38 39 40 ... 58