74
Този израз може да се нарече средна стойност на
грешките на оценяване (estimation error) на регресивната функция и функцията на
апроксимация , изчислени
върху обучаващата извадка Т. Условно средната стойност има постоянно математическо очакване върху обучаващата извадка
Т. След като добавим средното
, получаваме:
След пробразуване и след използване на изразите (2.61) и (2.62), формула (2.65) може да се запише в следния вид:
Където определят следния образи:
Сега можем да оформим две важни наблюдения:
Фиг.2.21. Различни източници на грешки при решаване на задачи за регресия
Елементът описва изместване (bias) на средната стойност на функцията на апроксимация
относно функцията на регресия . Този елемент отразява неспособността на невронните мрежи, представляващи функцията да бъде точно апроксимирана от регресивната функция
. Така образът на елемента може да се счита за
грешка при апроксимация (approximation error).
Елементът представлява дисперсия (variance) на апроксимиращата функция на всяко обучаващо множество
Т. Това слагаемо отразява нееднаквостта на информацията за регресивната функция
, съдържаща се в обучаващото множество
Т. Така
елемнтът може да се счита за грешка при оценяване (estimation error).
75
На фиг. 2.21 са изобразени взаимовръзките между целевата и апроксимиращата функция, нагледно е показано как се грешките на оценяване – изместване и дисперсия.
Изместването и дисперсията на функцията на апроксимация трябва да са много малки.
В невронните мрежи обучението на данните на извадки с фиксиран размер с малко изместване се достига голяма депресия. Едновременно може да се намали изместването и дисперсията само в един случай – когато размерът на обучаващото множество е безкрайно голям. Този проблем се нарича
дилема изместване/депресия (bias/variance dilemma). Следствие на този проблем се явява бавната сходимост на процеса на обучение.
Дилемата може да се избегне, ако преднамерено въведем такова изместване, което води дисперсията до отричане или до значително намаляване. Но трябва да се убедим в това, че построеното в системата изместване е приемливо.
Например в контекста на класификацията на образите, изместването може да се счита за „приемливо”, ако оказва голямо влияние на средноквадратичните грешки
само в случаите на регресия, която не принадлежи към очаквания клас. В общият случай изместването е необходимо да се задава потенциално за всяка предметна област. На практика за достигане на целта се използва
ограничение (constrained) на сетивната архитектура, която работи по-добре от архитектурата за общо предназначение. В частност ограничението (и изместването) могат да приемат формата на априорни знания, в пространството на архитектурата на
невронните мрежи по пътя на съвместното използване на тегла (ако няколко синапса на мрежата се намират под управлението на един и същи теглови коефициент за време) и/или създаването
на локални рецептори (local receptive field), свързани с отделните невронни мрежи.
Сподели с приятели: