Лекции по Въведение в статистиката Павлина Йорданова


Множественна линейна регресия



страница3/3
Дата13.01.2018
Размер0.73 Mb.
#44871
1   2   3
15.3. Множественна линейна регресия.
Множествената линейна регресия служи за моделиране на формата на зависимост на един резултативен признак Y, от няколко фактор признаци X1, Х2, ..., Хr, наречени още независими променливи. Всички разглеждани признаци трябва да са непрекъснати метрирани.

Да предположим, че разполагаме с n на брой r+1-торки от независими наблюдения



(X1,i, ... , Xr,i, Yi), i = 1, 2, …, n

върху тези признаци.

Да приемем, че аналитичното представяне на линията на регресия е

y = 0 + 1 х1 + ... +r xr,

където е r+1-мерен вектор, чиито координати са неизвестни параметри. Тогава регресионният модел е



Y = 0 + 1 X1 + ... +r Xr + ,

Тук е стохастичната грешка с Е = 0 и D = 2 < .

В това уравнение, някои променливи X1, Х2, ..., Хr могат да бъдат функции от други промелниви измежду X1, Х2, ..., Хr. Важното е регресионната функция да е линейна относно неизвестните параметри. Ако X1 = Х, Х2 = Х 2, ..., Хr = Х r имаме полиномна регресия.

За да получим оценките на неизвестните параметри по метода на най-малките квадрати, можем да използваме последователността



Tools  Data Analysis  Regression

в Excel.

Тези параметри минимизират

и ако ги разглеждаме като случайни величини, те имат минимална дисперсия в сравнение с всички неизместени оценки, линейно зависещи от Y1, Y2, , Yn.

Получаваме следната оценка на уравнението на множествената регресия

= + X1 + ... + Xr + ,

Ако са изпълнени условията от теоремата на Гаус-Марков, тази оценка на Y при зададени X1 = х1,i, Х2 = х2,i, ..., Хr = хr, i има минимална дисперсия измежду всички линейни оцeнки на Y при зададени X1 = х1,i, Х2 = х2,i, ..., Хr = хr,i.

При три неизвестни параметъра освен неизвестните параметри последователността

Tools  Data Analysis  Regression

в Excel извежда техните стандартни грешки, теоретични характеристики и доверителни интервали. При r = 2 изходната таблица има следния вид.

 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept Р( | | > )X1 Р( | | > )X2 Р( | | > )Тук ~ t( n 3).

Забележка: За сега се интересуваме само от колонката Coefficients.

След намирането на уравнението на регресия можем да получим най-добра оценка за Y по зададено значение на X. Това става като заместим Х, в оценката на уравнението на регресия.

Ако в оценката на уравнението на регресия заместим независимите променливи с техните средни получаваме средната на резултативната веричина.

Последователността Tools Data Analysis Regression в Excel извежда още

RESIDUAL OUTPUTObservationPredicted YResidualsStandard Residuals12............Predicted Y представлява .

Residuals представлява - Yi.

Standard Residuals представлява .

За да можем да направим статистически изводи за 0, 1, … , r и Y първо трябва да оценим дисперсията 2 и после да опишем разпределението на грешката. От теорията на общите линейни модели, най-добра неизместена оценка за 2 е . Тази величина се нарича среден квадрат на грешката.

Величината се нарича стандартна грешка на модела.

Ако тази грешка е нула, значи имаме пълно съвпадение на изходните данни с техните оценки. Ако независимата променлива и грешката са некорелирани



.

При функционална зависимост между Х и Y, S = 0. Ако оценките на Y не се влияят от Х, S = . Ето защо ако отнесем S към стандартното отклонение на данните от извадката, отнасящи се за резултативния признак, ще получим величина, която е 0 при пълно съвпадение, т.е. при функционална зависимост между Х и Y и е 1 ако оценките на Y не се влияят от Х. На основата на тези разсъждения е образуван корелационния коефициент на Пирсън



Той се изменя от 0 до 1. Измерва силата на зависимостта на между зависимата променлива и факторпризноците. Тук се пресмятат и частни коефициенти на корелация. Виж следващата точка.

Анализираме остатъците от тяхната диаграма на разсейването. Проверяваме дали:

1. те имат случаен характер.

2. Дали са еднакво разпределени. Дали имат равни дисперсии.

3. Дали са некорелирани.

4. Дали са нормално разпределении.

Ако тези условия са удовлетворени можем да направим проверка на хипотезата за статистическата значимост на коефициентите в уравнението на регресия и проверка на хипотезата за адекватност на тествания модел.

Под формата на ANOVA таблица Excel извежда следната таблица
ANOVAПричина за дисперсиятаdfSSMSFSignificance FRegression

Регресиятаr F емп = P(F(r, n r - 1) > Fемп)Residual

Остатъцитеn r - 1 Total

Общоn - 1 Хипотезите относно коефициентите 0, 1, … , r могат да се разделят в три групи:

1 група. Н0: 0 = 1 = … = r = 0

срещу алтернативата

Н1: «Поне един от тези коефициенти да е различен от 0».

Избираме риска за грешка от първи род (0, 1).

Критичната област за нулевата хипотеза има вида



където С е 1- квантилът на F(r, n r -1).

При реализирането на тази проверка на Excel използваме горната таблица.


  1. група. За някое k от 1 до r можем да проверим

Н0: k = 0

срещу алтернативата

Н1: k 0.

Избираме риска за грешка от първи род (0, 1).

Критичната област за нулевата хипотеза има вида

където С е 1- /2 квантилът на t( n r -1).

При реализирането на тази проверка на Excel използваме следващата таблица. (При r = 3).

 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept t емп,0 = Р( |t емп, 0| > ) X Variable 1 t емп, 1 = Р( |t емп, 1| > ) X Variable 2 t емп, 2 = Р( |t емп, 2| > ) 3. група. Ако проверяваме хипотезата само някои от коефициентите да са нули трябва да подходим по следния начин. Нека k r. Проверяваме

Н0: 0 = 1 = … = k = 0

срещу алтернативата

Н1: «Поне един от тези коефициенти да е различен от 0».

Избираме риска за грешка от първи род (0, 1).

За да се провери тази хипотеза се прави регресионен анализ само за тези коефициенти. Да означим неговата стандартна грешка с , т.е. . Критичната област за нулевата хипотеза има вида

където С е 1- квантилът на F(r - k, n r - 1).

Преди да проведем регресионния анализ е добре да центрираме х-совете с техните средни. Тогава линията на регресия става

y = + 1 W1 + 2 W2 + + r Wr,

където Wi = Xi - , , i = 1, 2, , r и = 0 + 1 + 2 + r . В този случай 1, 2,, r са както преди, но = . Практическото и теоретическото преимущество на този подход е, че оценките и , , …, са некорелирани с . Това опростява намирането на доверителните интервали на .

В регредионния модел коефициентът i измерва степента на изменение на Y в зависимост от Xi, когато всички останали Х-сове са фиксирани. Тези коефициенти, обаче могат да бъдат несъизмерими по величина, по тази причина е необходимо първо да стандартизираме независимите променливи. Нека

и за i = 1, 2, , r.

Т.е. моделът на множествена регресия сега може да се запише във вида



Y = 0 + 1 Z1 + ... +r Zr + ,

където е r+1-мерен вектор, чиито координати са неизвестни параметри, а e стохастичната грешка с Е = 0 и D = 2 < .

С развитата по-горе теория оценяваме неизвестните коефициенти и после се връщаме в изходния модел. Преимуществото на стандартизацията се състои в това, че Z1,i, ..., Zr,i, i = 1, 2, ,

n, се измерват на една и съща скала.

За да запишем формулите за стандартните грешки на коефициентите ще дадем горния регресионен анализ записан в матричен вид.

Нека

 = (0, 1, , r)Т да е вектор-сталб от неизвестните коефициенти в уравнението на регресия,



Y = (Y1, Y2, , Yn)Т да е вектор-сталб от наблюденията на резултативната величина

 = (1, 2, , n)Т да е вектор-сталб от грешките.

Матрицата на плана, съдържаща стойностите на факторпризнака ще означим с

Х n r + 1 = .

Регресионният модел тогава може да бъде записан във вида



Y = X + .

Тук векторът трябва да има многомерно нормално разпределение N(0, 2I).



SS =  T = ( Y - X)T( Y - X).

Диференцираме горното уравнение по отношение на неизвестните параметри в модела и приравняваме производните на нула. Получаваме



Така се получава като решение на системата нормални уравнения:



X TY = Х TX.

Матрицата ХTX е симетрична и се нарича информационна матрица на Фишер. Ако нейната детерминанта е различна от нула, ХTX има обратна. Тогава решението на тази система има вида



= (ХTX)-1XTY.

Неизместената оценка на дисперсията на грешката е



.

Може да се докаже, че при фиксирани независими променливи, кoвариационната матрица на вектора е



||Cov( )|| = 2(ХTX)-1 .

Доверителният интервал за е



.

Оценката на вариацията на прогнозата в Х0 = (1, Х01, X02, ..., X0r) T e



= Х0 T (ХTX)-1Х0.

Доверителният интервал за средното значение на Y при фиксирани X1, X2, ... Xr е



.

С какво може да ни бъде полезен Excel в случая:

Последователността

Tools  Data Analysis  Regression

извежда всички необходими характеристики на множествената линейна регресия.

15.4. Множествена и частна корелация.

Величината



= = =

се нарича множествен коефициент на корелация между Y и X1, X2, , Xr. Това е частта от дисперсията на Y, която се обяснява с регресионната зависимост на Y от X1, X2, , Xr. Тази величина съвпада с корелационния коефициент на Пирсън. e максималното значение на простите коефициенти на корелация на Y и линейните комбинации на набора от променливи X1, X2, , Xr. е инвариантен относно неизродени линейни преобразования на изходните променливи.



0 1.

При = 1 имаме пълна линейна зависимост на Y от X1, X2, , Xr.

Ако искаме да проверим

Н0: = 0, т.е. 0 = 1 = = r = 0

срещу алтернативата



Н1: 0

критичната област за нулевата хипотеза съвпада с



където С е 1- квантилът на F(r, n r -1).

Ако мерим корелацията на 2 променливи, а фиксираме някое множество от други променливи (т.е. слагаме тези променливи в условието) говорим за частна корелация. Фиксираните променливи се записват след точката (виж по-долу).

Ако фиксираните променливи са k говорим за коефициент на корелация от k – ти порядък.

В сила са следните тъждества между множествените и частните коефициенти на корелация:

1. Т.к.


=

е частта от остатъчната дисперсия, обяснена с добавянето на Xk към набора от променливи X1, , Xk-1.

2. Ако с e множество, което се състои от всички променливи от X1, , Xk с изключение на Xi



= i

Ако искаме да проверим



Н0: = 0

срещу алтернативата



Н1: 0

критичната област за нулевата хипотеза има вида



където s е броят на променливите в набора с, а С е 1- квантилът на t(n s - 2).



има дисперсия равна на , която можем да използваме например при построяване на доверителен интервал на този коефициент или при проверката на Н0: = 0.

  1. 1 - = (1 - )(1 - ).

  2. Частните коефициенти на корелация могат да бъдат изчислени на базата на рекурентни съотношения от предходните.

Ако , и са три различни променливи от множеството {Y, X1, X2, , Xr} то

= .

Ако с е кое да е множество от останалите променливи



= .


1 Броят на независимите променливи в модела.

2 Обемът на извадката минус броя на неизвестните параметри в модела.

3 Останалите подточки ще решим в края на следващата точка.

4 Броят на независимите променливи в модела.

5 Обемът на извадката минус броя на неизвестните параметри в модела.


Последна редакция 13.1.2018 ?.

Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:
1   2   3




©obuch.info 2024
отнасят до администрацията

    Начална страница