78
Където
. Функцията на емпиричния риск се счита
строго последователна (strictly consistent), ако за всяко подмножество
W(c) се обезпечава сходимост на вероятностите:
Принципи за минимизация на емпирическия риск Основната идея на принципите на
минимизация на емпиричния риск (empirical risk minimization) се състои в използването на функционала на емпирическия риск
, определен от формула (2.74). Този нов функционал се отразява от функционала
, зададен с формула (2.72) в два аспекта:
Той не зависи от неизвестната функция на разпределение
Теоретично той може да се минимизира по вектора на теглата на коефициентите
w.
Нека и
– вектор на теглата и съответстващото на него отражение, което минимизира функционала на емпиричния риск
, определен по формула (2.74). Аналогично, нека и
- вектор на тегловите коефициенти и отражени, минимизиращи фактическия функционал на риска
, зададен с формула
(2.72). Векторите и принадлежат на пространството на теглата
W. Трябва да се намери условие, при което апроксимиращото
отражение да е достатъчно „близко” до фактическото отражение
(в качеството на мярка за близостта ще използваме разликата между и
).
За някое фиксирано функционала на риска определя
математическо очакване на случайните променливи, определени от съоотношението:
За разлика от него функционала на емпиричния риск обезпечава
емпирична аритметична) средна стойност (emperical (arothmetic) mean) на случайната променлива
. Съгласно
законът на големите числа (law of large numbers), който е една от основните теореми на теорията на вероятностите, за обучаващото множество
Т с безкрайно голям размер
N на емпиричната средна случайна променлива в общият случай се свежда към очакваната стойност. Това наблюдение обезпечава теоретичната база за използваната функция на емпиричния риск вместо функцията на риска
. Този факт, че емпиричнта средна променлива е сходяща към очакваната стойност, не означава, че векторът на тегловите коефициенти минимизира функционала на емпиричния риск и ще минимизира и функционала на риска
Това изследване приблизително може да се удоволетвори, при прилагане на следния подход. Ако функционала на емпиричния риск апроксимира изходния функционал на риска
равномерно по w с точност , то минимума на ще се намира не повече от 2 от минимума на
. Това означава, че е необходимо изпълнението на следващото условие. За някое трябва да е изпълнено вероятностното съотношение:
79
Ако се изпълнява условие (2.78), то може да се твърди, че
векторът на теглата w на средно емпиричният риск е равномерно сходящ към своята очаквана стойност. Така ако на всяка зададена точност и някое положително се изпълнява неравенството:
Изпълнява се и следното неравенство:
С други думи, ако е изпълнено условие (2.79), то вероятността е решение на
, минимизираща функционала на емпиричния риск
, обезпечаващ различие от фактическият риск от минималният възможен фактиячески риск на величина, не по-голяма от 2 . Това значи, че при изпълнение на (2.79) с
вероятност , едновременно се изпълняват следващите две неравенства:
Тези две отношения определят разликата между функционалите на фактическият и емпиричния риск в точка
. Отчитайки, че се явяват точки на минимум на функционалите
, може да се направи извода, че:
От неравенствата (2.81) и (2.82) и вземането под внимание на неравенство (2.83) може да се запише:
Тъй като неравенства (2.81) и (2.82) се изпълняват едновременно с вероятност
, то с такава вероятност се изпълнява и неравенство (2.84). Може да се твърди, че с вероятност ще бъде изпълнено неравенството
Можем да формулираме
принцип на минимизация на емпиричния риск (principle of empirical risk minimization), състоящ се от три части:
Вместо функционала на риска се използва
функцията на емпиричния риск 80
На базата на множеството от примери за обучение
Нека е вектор на тегловите коефициенти, минимизиращи функционала на емпиричния риск в пространството от теглата
W. Тогава е сходящ по вероятност към минималната възможна стойност на фактическия риск
,
. При увеличаване на количествата
N на примерите на обучение до безкрайност, функционала на емпирическия риск е равномерно сходящ към функционала на фактическия риск
Равномерната сходимост, определена от се явява необходимо и достатъчно условие за непротиворечивост на принципа на минимизация на емпирическия риск.
За физическата интерпретация на този важен принцип провеждаме следното наблюдение. За обучаващата машина всички апроксимиращи функции са равни. С повишаване на обучението правоспособност на тези функции на апроксимация, които не противоречат на обучаващото множество нараства. С увеличаване на количеството на използваните
при обучението примери, и повишаването на
„плътността” на входното пространство, точката на минимума на функционала на емпирическия риск е сходяща по вероятност с точката на минимум на функционала на фактическия риск
Сподели с приятели: