51
стойност на
действията, предприети в
разстояние от няколко стъпки, а не просто текущи стойности. Може да се окаже, че някой от предприетите по-рано в дадената последователност действия са били определящи за формирането на общото поведение на цялата система. Функцията на
обучаемата машина (learning machine), съставлява вторият компонент на системата, определя тези действия и формира техния основен сигнал за обратна връзка насочен към външната среда.
Практически реализацията на обучението с отложена подкрепа се усложнява по две причини:
- Не
съществува учител, формиращ желания отговор на всяка стъпка на обучението.
- Наличието на задръжка при формирането на първичния сигнал за подкрепа изисква решаването на
временна задача за присвояване на коефициентите на доверие (temporal credit assignment). Това означава, че обучаваната машина е длъжна да присвоява коефициенти на доверие и
недоверие на действията, изпълнени на всички стъпки, довеждащи до краен резултат, в същото време както първичния сигнал за подкрепа се оформя само на основата на крайният резултат.
Системата за обучение с отложена подкрепа е много привлекателна. Тя съставя базис от системи, взаимодействащи с външната среда, развивайки по този начин способността за самостоятелно решение на възникващите задачи на основата само на собствените резултати на взаимодействие със средата.
Обучението с
подкрепа е тясно свързано с динамичното програмиране (dynamic programming) по методологията на Белман. Динамичното програмиране реализира математическият формализъм за последователно вземане на решения. Премествайки обучението с подкрепа в предметната област на динамичното програмиране можем да вземем всички резултати от последното.
Сподели с приятели: