Лекции по Въведение в статистиката Павлина Йорданова



страница1/3
Дата13.01.2018
Размер0.73 Mb.
#44871
  1   2   3

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg


Тема 15. Регресионен анализ

Регресионният анализ е метод за моделиране на формата на зависимостта на един метриран резултативен признак Y, от един или няколко метрирани факторпризнаци X, наречени още независими променливи. Този анализ не отчита, че изменението на разглежданите величини може да се дължи на външни, невключени в модела фактори. Резултатът от регресионния анализ ни позволява ако знаем Х да предскажем Y, с известна грешка. Очакваната стойност на тази грешка се измерва в средноквадратичен смисъл. По-точно средноквадратична грешка на Y относно f(X) това е



Е(Y - f(X))2.

Ако факторпризнакът е един, говорим за единична регресия. Иначе говорим за множествена регресия. Ще означаваме независимите променливи с X = (X1, X2, ..., Xr ).

Предполагаме, че правим независими опити от наблюдения върху X и Y, при едни и същи условия на експеримента. Т.е. при всеки опит имаме реализации на X и Y.

Общият алгоритъм на регресионният анализ е следният.

1. Регресионният анализ започва с изчертаване на корелационните полета на данните. В зависимост от кривата, около която се групират точките от тези полета се избира клас G от функции, в който ще моделираме линията на регресия. Да приемем, че аналитично им представяне е

Y = f(X, ) + ,

където е r+1-мерен вектор, чиито координати са неизвестни параметри на функцията f, а e стохастична грешка със средно Е = 0 и с крайна дисперсия D = 2.

Оценката на линията на регресията е онази функция f от разглеждания клас G, която минимизира средноквадратичната грешка на Y относно f(X). В множеството от всички функции това е

f(x) = E(Y|X = x).

Ако функцията f е линейна относно неизвестните параметри , но не обезателно линейна относно независимите променливи, говорим за линеен регресионен модел. Иначе моделът се нарича нелинеен.

2. Първата задача на регресионния анализ е да се построят най-добри точкови и интервални оценки на параметрите на регресията така, че измежду всички линии с това аналитично представяне, при получените оценки на параметрите, да имаме най-малка сума от квадратите на грешките. По данните от извадката, използвайки метода на най-малките квадрати, правим оценка на вектора . Ще я означаваме с . Тя е такава, че да минимизира

.

Намира се като се реши относно , следната система



,

наречена система нормални уравнения.

3. От полученото уравнение на регресия пресмятаме оценките на стойностите на зависимата променлива Y при наблюдаваните Х. Тези оценки ще означаваме с , т.е.

4. Следва анализ на остатъците = Y - . Разглежда се тахната диаграма на разсейване. Проверяват се следните условия на Гаус-Марков.



  • Дали отклоненията на фактическите стойности на резултативната величина Y от техните оценки имат случаен характер.

  • Дали тези остатъци са еднакво разпределени. Дали имат равни дисперсии.

  • С някои от критериите за съгласие се проверява дали разпределението им е нормално.

  • Проверява се хипотезата за липса на корелация в остатъчния компонент. То е все едно да проверим дали има корелация между X и .

5. Пресмята се величината . Тя се нарича стандартна грешка на модела.

Може да тестваме повече от една функция f. При всяка от тях ще получаваме различни оценки и съответно различни . Най-добър модел за съответните данни ни дава тази линия, за която сумата от квадратите на отклоненията на фактическите (измерените) значения на резултативната величина Y от техните оценки е минимална. Т.е. моделът с най-малка стандартна грешка е най-подходящ за нашите данни.

6. Ако условията на Гаус-Марков са удовлетворени се прави проверка на хипотезата за статистическата значимост на коефициентите в уравнението на регресия и проверка на хипотезата за адекватност на регресионния модел.

7. Друг измерител на качеството на направения модел е корелационният коефициент на Пирсън



.

Той се изменя от 0 до 1. Измерва силата на струпване на точките от корелационното поле около избраната линия на регресия. Т.е. силата на зависимостта на резултативната величина от включените в модела фактори.

8. 100% се нарича коефициент на детерминация (определеност). Това е частта от дисперсията на Y, която се обяснява с регресионната зависимост на Y от X1, X2, , Xr. Колкото коефициентът на детерминация е по-близо до 100%, толкова моделът е по-добър.

9. 100% се нарича коефициент на индетерминация(неопределеност). Показва каква част от вариацията на Y се дължи на невключени в модела фактори.

10. Много широко приложение в практиката намират различните коефициенти на еластичност. В общия случай те имат вида

и показват при изменение на независимата променлива с 1% от разглежданата стойност, с колко процента ще се измени резултативната величина.

Използат се още следните величини:


  • показва, с колко единици средно, в приетата за резултативния признак Y мярка, би се изменил той, ако изменим факторпризнака Х с една единица, в приетата за него мярка.

  • показва при изменение на Х с 1% от разглежданата стойност, с колко абсолютни единици ще се измени резултативната величина.

  • показва при изменение на Х с единица в приетата за Х мярка, с колко процента ще се измени Y.

В следващите параграфи на тази тема ще разгледаме по-подробно линейните (относно параметрите) регресионни модели, в които независимите и зависимата променливи участват чрез своята първа степен. За да работим с модели, в които независимите или зависимата променливи участват чрез свои функции, извършваме полагане и свеждаме задачата до моделиране с разгледаните тук регресии. За модели, които не са линейни отсносно своите коефициенти, тази трансформация не винаги може да бъде направена.
15.1. Проста линейна регресия

Нека изследваме влиянието на фактора Х върху резултативния признак Y. Т.е. r = 1. Изчертаваме корелационно поле на данните. По абсцисната ос се нанасят измерените значения на признака X, а по ординатната, измерените значения на резултативната величина Y. Да предположим, че разполагаме с n на брой двойки от независими наблюдения (X1,Y1), (X2,Y2), ,(Xn,Yn). Изчертали сме корелационното поле и сме видели, че точките се групират около права. Избираме линия на регресия



= 0 + 1 x,

където 0 и 1 са неизвестни параметри. Тогава регресионният модел е



Y = 0 + 1 X + .

Тук е стохастичната грешка, която трябва да е със средно Е = 0 и D = 2 < .

Най-добрите оценки на 0 и 1 се получават по метода на най-малките квадрати. Те са такива, че минимизират сумата от квадратите на отклоненията

.

Да означим тези оценки с и . Намираме ги от системата нормални уравнения, която в случая има вида

(1) .

Решението на тази система е:



Ако гледаме на тези оценки като на случайни величини, те са неизместени и имат минимална дисперсия в сравнение с всички неизместени оценки, линейно зависещи от Y1, Y2, , Yn.

Оценката на уравнението на регресия е

Коефициентът в това уравнение показва, с колко единици средно, в приетата за резулта-тивния признак Y мярка, би се изменил той, ако изменим факторпризнака Х с една единица в прие-тата за него мярка. При правопропорционална зависимост на резултативния признак от факторпризнака, > 0. Обратно, ако зависимостта на Y от Х е обратнопропорционална, този коефициент е отрицателен. Коефициентът е равен на ординатата на точката, в която линията на регресия пресича ординатната ос. Линията на регресия ще е успоредна на абсцисната ос ако значенията на резултативния признак не се влияят от тези на факторпризнака.

Като заместим измерените значения на факторпризнака Х, в уравнението на регресия, намираме съответните оценки за значенията на резултативния признак Y. Сумата и съответно средната аритметична на тези оценки е равна на съответната характеристика на изходните данни.

За да можем да направим статистически изводи за 0, 1 и Y първо трябва да оценим дисперсията 2 и после да опишем разпределението на грешката. От теорията на общите линейни модели, най-добра неизместена оценка за 2 е



.

Тази величина се нарича среден квадрат на грешката.

(2) ,

се нарича обща стандартна грешка на модела.

Ако значи имаме пълно съвпадение на изходните данни с техните оценки.

Често пъти резултатите от изследването се оформят в таблица от вида:



Източник на дисперсиятаСума от квадратитеСтепени на свободаДисперсия F - критерийРегресия11F емп = Отклонение от регресиятаn - 22Общо:n - 1За сумата от квадратите, обусловена от регресията е вярно следното съотношение

.

Следва “Анализ на остатъците”. Анализира се техния графичен образ или се правят следните проверки на хипотези:

1. Дали остатъците имат случаен характер.

2. Дали са еднакво разпределени. Дали имат равни дисперсии.

3. Дали разпределението им е нормално.

4. Дали са некорелирани. То е все едно да проверим дали има корелация между X и .

В случая на нормално разпределени грешки, които удовлетворяват горните условия, можем да направим проверка на хипотезата за адекватност на тествания модел. В случая проверяваме хипотезата

Н0: 1 = 0

срещу алтернативата

Н1: 1 0.

Избираме риск за грешка от първи род (0, 1).

Критичната област за нулевата хипотеза има вида



където С е 1- квантилът на F(1, n - 2).

Същата проверка на хипотези може да се направи и с критичната област

където е 1 - /2 квантилът на t(n - 2).

Вече можем да проверим допълнителни хипотези. Например можем ли да закръглим кофициентите си. В този случай в числителя на емпиричната характеристика имаме разликата на оценката и тестватната константа, а в знаменателя стои стандартната грешка на оценката. Костантата С е 1 - /2 квантилът на t(n - 2).

Можем да построим и доверителни интервали на 0 , 1, E(Y|X = x) и EY. Нека





ВеличинаСтандартна грешкаСтепени на свободаГраници на доверителния интервал0n - 21n - 2Средно значение на Y (ако нез. променливи не са случайни)n - 2Средното значение на Y (ако нез. пром. са случайни)n - 2Ако независимата променлива и грешката са некорелирани

.

При функционална зависимост между Х и Y, S = 0. Ако оценките на Y не се влияят от Х, S = . Ето защо ако отнесем S към стандартното отклонение на данните от извадката, отнасящи се за резултативния признак, ще получим величина, която е 0 при пълно съвпадение, т.е. при функционална зависимост между Х и Y и е 1 ако оценките на Y не се влияят от Х. В последния случай всички оценки на резултативния признак ще са равни помежду си и по тази причина ще са равни на своята средна аритметична и на средната аритметична на изходните данни за този признак. На основата на тези разсъждения е образуван корелационния коефициент на Пирсън



Той се изменя от 0 до 1. За посоката на зависимостта се съди по знака на . Измерва силата на праволинейната зависимост между X и Y. Равен е на коефициента на корелация на Браве.



С какво може да ни бъде полезен Excel в случая:

В Excel има основно два начина за работа с линейна легресия:

1. Последователността

Tools  Data Analysis  Regression

извежда всички необходими характеристики на множествената линейна регресия, а това означава, че и на простата.

  1. Функцията LINEST(y; x; 1; 1) връща матрица със следното съдържание:

FемпСтепени на свободаSSЗа да изведем нейния резултат, първо маркираме достатъчно клетки за да се събере горната таблица, като формулата трябва да е в горната най-лява клетка. После натискаме F2 и накрая CTRL+SHIFT+ENTER.

Ако искаме да направим само точкова оценка на прогноза в X0, можем да използваме функцията FORECAST(X0; X; Y).

Функцията SLOPE(Y; X) връща само оценката.

Ако искаме да направим прогноза по експоненциално изглаждане, т.е. 0 < y = bтх, по аналогичен начин на LINEST можем да използваме LOGEST(Y; X; 1; 1), а по аналогичен начин на FORECAST можем да използваме функцията GROWTH(Y; X; X_new; 1). Резуртатът и в двата случая се извежда под формата на матрица.

Ако не желаем да използваме вградения в Excel апарат за статистически анализ, а искаме да

пресмятаме всички характеристики, полезни се оказват следните връзки:

; ; ; ;

; ; ;

Преди да проведем регресионния анализ е добре да центрираме X-совете с техните средни. Тогава линията на регресия става



= + 1 Wi ,

където Wi = Xi - и = 0 + 1. В този случай оценката на 1 е както преди, но = . Практическото и теоретическото преимущество на този подход е, че оценките и са некорелирани.

При простата линейна регресия може да се направи още една проверка за адекватност, а именно да се провери хипотезата


Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:
  1   2   3




©obuch.info 2024
отнасят до администрацията

    Начална страница