Решение на такава задача от мозъка може да бъде обработката на информация от обикновеното зрение (human vision). Във функциите на зрителната

Изтегляне 1.78 Mb.

Pdf просмотр

страница	26/58
Дата	08.04.2022
Размер	1.78 Mb.
	#114042
Тип	Решение

1 ... 22 23 24 25 26 27 28 29 ... 58

book
Свързани:
Kniga uchitel IT 6. klas Даниела Убенова (1), Kniga uchitel IT 8. klas Даниела Убенова, elektronno-obuchenie

Обучение с подкрепа, или невродинамично програмиране

2.9 Обучение без учител

Обучението без учител (learning without a teacher) е алтернатива на парадигмата на обучението с учител. Самото название подчертава отсъствието на ръководител, контролиращ процеса на настрояване на тегловите коефициенти. При използването на такъв подход не съществуват маркирани примери, по които се провежда обучението. В тази алтернативна парадигма можем да отделим два метода.
Фиг.2.7. Блок диаграма за обучение с подкрепление
Обучение с подкрепа, или невродинамично програмиране

За обучението с подкрепа (reinforcement learning) формирането на отразени входни сигнали в изходни се изпълнява в процеса на взаимодействие с външната среда, с цел минимизиране на скаларният индекс на производителността. На фиг. 2.7. е показано блокдиаграма на една от формите на системата за обучение с подкрепа включваща блок „критика”, който преобразува първичния сигнал за подкрепа (primary reinforcement signal), получен от външната среда в сигнал с по-високо качество наречен
евристичен сигнал за подкрепа (heuristic reinforcement signal). Двата сигнала са скаларни.
Такава система предполага обучение с отложена подкрепа (delayed reinforcement). Това значи, че системата получава от външната среда последователност от сигнали на възбуждане (т.е. вектори на състоянията), които довеждат до генериране на евристичен сигнал на подкрепа. Целта на обучението е минимизация на функцията
на стойността на прехода, определен като математическо очакване на комулативната

51
стойност на действията, предприети в разстояние от няколко стъпки, а не просто текущи стойности. Може да се окаже, че някой от предприетите по-рано в дадената последователност действия са били определящи за формирането на общото поведение на цялата система. Функцията на обучаемата машина (learning machine), съставлява вторият компонент на системата, определя тези действия и формира техния основен сигнал за обратна връзка насочен към външната среда.
Практически реализацията на обучението с отложена подкрепа се усложнява по две причини:
- Не съществува учител, формиращ желания отговор на всяка стъпка на обучението.
- Наличието на задръжка при формирането на първичния сигнал за подкрепа изисква решаването на временна задача за присвояване на коефициентите
на доверие (temporal credit assignment). Това означава, че обучаваната машина е длъжна да присвоява коефициенти на доверие и недоверие на действията, изпълнени на всички стъпки, довеждащи до краен резултат, в същото време както първичния сигнал за подкрепа се оформя само на основата на крайният резултат.
Системата за обучение с отложена подкрепа е много привлекателна. Тя съставя базис от системи, взаимодействащи с външната среда, развивайки по този начин способността за самостоятелно решение на възникващите задачи на основата само на собствените резултати на взаимодействие със средата.
Обучението с подкрепа е тясно свързано с динамичното програмиране (dynamic programming) по методологията на Белман. Динамичното програмиране реализира математическият формализъм за последователно вземане на решения. Премествайки обучението с подкрепа в предметната област на динамичното програмиране можем да вземем всички резултати от последното.

Изтегляне 1.78 Mb.

Сподели с приятели:

1 ... 22 23 24 25 26 27 28 29 ... 58