71
Обучението не разполага със знания за функционалната взаимовръзка между
Х и D:
Където е някоя
детерминирана функция (deterministic) на вектора на аргумента;
-очаквана грешка (expectational error), предсавляваща нашето „незнание” за
зависимостта между Х и D. Статистическият модел описан от израза (2.54) се нарича
регресивен (regression model) (фиг.2.20, а). Очакваната грешка се явява случайна величина с нормално разпределение и нулево математическо очакване. Регресивният модел, илюстриран на фиг 2.20,
а показва две важни свойства: с
Средната стойност на очакваната грешка за всички реализации на x е равна
на нула, т.е.
Където
Е е статистически оператор на математическото очакване. Естествено следствие на това свойство е, че регресивната функция се явява условен среден модел на изхода D за входния сигнал
Х=x: Очакваната грешка не се корелира с функцията на регресията , т.е
. Това свойство е известно като
принцип на ортогоналност (principle of orthogonality),
който гласи, че всяка всяка информация от D, допусната чрез входния сигнал
Х, се закодира във функцията на регресията
. Равенството (2.57) се свежда до следния вид:
Регресивният модел (фиг. 2.20, а) представлява математическо описание на стохастическата среда. В нея векторът
Х се използва за описване или предсказване на зависимата променлива D. На фиг 2.20, б е представен съответния „физически” модел на данните на средата. Това е вторият модел, основан на невронните мрежи, позволяващ закодиране на емпиричните знания, заключени в обучаващата извадка
Т, с помощта на съответния набор от вектори на синаптическите тегла :
72
Фиг.2.20. Математическо (а) и физическо (б) представяне на невронните мрежи
Така образно невронните мрежи обезпечават апроксимирането на регресионният модел, представен на фиг. 2.20,
а. Нека фактическият отклик на невронните мрежи на входния вектор
x се обозначава със следните вероятностни променливи:
Където е функция отразяваща входните данни в изходни, реализирана с помощта на невронните мрежи. За избора на данни за множеството
Т, представено във вида (2.53), вектора на синаптическите тегла може да се изчисли чрез:
Където коефициента ½ се въвежда за съвместимост с обученията използвани по-рано.
Ако не вземем под внимание коефициента ½, функцията от стойности
, описва сумата от квадратите на разстоянията между
d и
фактическият отговор y на невронните мрежи за всеки пример за обучение от
Т. Нека е
оператор за усреднение (average operator) по цялата обучаваща извадка
Т. Променливите, или техните функции, обработвани от оператора за осреднение
, обозначаваме с
x и
d. При това двойката (
x, d) представя всеки конкретен
обучаващ пример от извадката Т. За разлика от оператора за усреднение, статистическото очакване Е функционира върху множеството от всички стойности на случайните променливи
Х и D, подмножество на които се явява
Т. разликата между операторите
Е и ще бъде показана по-долу.
След преобразованията описани във формула (2.58), функциите и
, се явяват взаимосвързани и изразът (2.60) може да се представи във вида:
73
Добавяме функцията с аргументи и след използване на (2.54) получаваме:
Поставяме този израз в (2.61) и след разкриване на скобите получаваме следния еквивалентен вид:
Последното слагаемо в първата част на формула (2.62) е равно на нула по две причини.
Очакваната грешка не корелира с регресивната функция
, което се вижда от израза (2.57), интерпретиран в термините на оператора
Очакваната грешка отнесена
към регресивният модел, изобразен на фиг. 2.20,а в същото време апроксимиращата функция се отнася към невронния модел показан на фиг.2.20, б.
Следователно изразът (2.62) може да се упрости:
Първото слагаемо в първата част на израза (2.63) описва дисперсия на очакваните грешки (регресивни модели) , изчислени върху обучаващата извадка
Т. тази
изходна (intrinsic) грешка не зависи от вектора на теглата
. Тя може да не се отчита, т.к. главаната задача е минимизация на функцията на стойностите относно вектора .
Следва да се отчита, че стойността на вектора на теглата минимизиращ функцията от стойностите също така ще минимизира и средното по ансамбли квадратично разстояние между регресивната функция и функцията на апроксимация
Естественото измерване на ефективността на използване на за програмирането на желания отговор
d се явява следната функция:
Този резултат има фундаментално значение, т.к. обезпечава математическата основа за изучаване на зависимостта
между изместване и дисперсия, получени в резултат на използваната в качеството на апроксимация на функцията
Сподели с приятели: