Лекции по Въведение в статистиката Павлина Йорданова



страница2/3
Дата13.01.2018
Размер0.73 Mb.
#44871
1   2   3
дали няма регресия, която по-добре да описва нашите данни. Тази проверка се прави с помощта на дисперсионния анализ. За целта е необходимо за едни и същи стойности на X-совете да имаме по повече от едно измервания на резултативната величина Y.

Нека 1, 2, , k са всички различни стойности на Х. За всяка от тях да имаме съответно по п1, п2, , пk измервания на резултативната величина Y.



Н0: Моделът е адекватен.

Алтернативата е:



Н1: Моделът не е адекватен.

Източник на дисперсиятаСума от квадратитеСтепени на свободаДисперсияДисперсия относно регресията k - 2Дисперсия вътре в групитеn - kОтклонение от регресиятаn - 2Критичната област за нулевата хипотеза има вида

където С е 1- квантилът на F(k - 2, n - k).



Въпроси:

1. По какво се различават факторпризнака и резултативния признак? Ще се промени ли извода от регресионния анализ ако сменим местата им? Винаги ли можем да сменим местата им?

2. Какъв е смисълът на коефициента в уравнението на изглаждащата права и как се намира самия коефициент?

3. С какво се различава изглаждащата права от всички останали прави, които можем да прекараме между точките от корелационното поле?

4. Кои са логическите обосновки, които ни дават основание да използваме корелационния коефициент на Пирсън за измерител на силата на зависимостта между наблюдаваните признаци?

Пример 1: По данните от табл. 36 моделирайте формата на зависимостта между производителността на труда (X) и средната работна заплата (Y *100 лв.). Определете силата на зависимостта между тези два признака чрез корелационния коефициент на Пирсън. Пресметнете коефициентите на детерминация и индетерминация и ги обяснете. Начертайте диаграмата на остатъците. Определете силата на зависимостта между независимата променлива и грешката.

Табл.36.

ф. №Ср.РЗПТМеждинни изчисленияXiYiXi YiXi214,506,0027,0020,256,87-0,870,766,0626,007,0042,0036,007,86-0,860,732,1436,008,0048,0036,007,860,140,020,2147,509,0067,5056,258,840,160,030,2957,309,0065,7053,298,710,290,080,2967,209,0064,8051,848,640,360,130,2978,0010,0080,0064,009,170,830,692,3787,708,0061,6059,298,97-0,970,940,2198,208,0065,6067,249,30-1,301,690,21105,709,0051,3032,497,661,341,800,29117,508,0060,0056,258,84-0,840,710,21127,3010,0073,0053,298,711,291,672,37137,109,0063,9050,418,580,420,180,29Общо:90,00110,00770,40636,60110,000,009,4215,23Решение: От корелационното поле на фиг.28 виждаме, че е добре да изберем уравнение на права с > 0. Дори може от графиката да определим приблизителната стойност на . Това е отрезът на линията на регресия от ординатната ос.

За да определим системата нормални уравнения (1), извършваме част от междинните изчисления, показани в Табл.36.

Получаваме

.

Нейното решение е = 0,6553, = 3,9249. Това са коефициентите в уравнението на регресия. Тогава регресионният модел има вида



.

От стойността на правим извода, че според изходните данни ако средната работна заплата нарастне със 100 лв., производителността на труда ще нарасне с 0,6553 изделия на час.



Фиг. 28.

Вече можем да определим оценките на значенията на резултативния признак по формулата



.

Попълваме ги в шестата колонка на Табл.36.

За да определим стандартната грешка на модела намираме разликите между фактическите стойности на резултативния признак и техните оценки (кол. седма на Табл.36.). От формула (2) получаваме

изд. на час.

По непретеглената формула за стандартно отклонение



SY = = = 1,13 изделия на час.

Корелационният коефициент на Пирсън е



= 0,57

и съвпада с корелационния коефициент на Браве. Показва значителна корелационна праволинейна зависимост между наблюдаваните признаци.

Коефициентът на детерминация е = 32,54% и показва, че едва 32,54% от вариацията на производителността на труда се дължи на изменения в средната работна заплата. Останалите = 67,46%. се дължат на невключени в модела фактори. Диаграмата на остатъците от фиг. 29 и корелационния коефициент на Браве -0,00078 между независимата променлива Х и грешката , показват, че те са почти некорелирани.

Фиг. 29.


Пример 2: (Крива на Phillips.) Данните за процентното изменение на средното почасово заплащане (Y) и процентът на безработица (X) в САЩ от 1958 до 1969 г. са дадени в табл. 37.

а) Моделирайте формата на зависимостта между тези два признака с реципрочен модел. Определете коефициента на еластичност и силата на зависимостта между средното почасово заплащане и процента на безработица в САЩ (чрез корелационния коефициент на Пирсън). Пресметнете коефициентите на детерминация и индетерминация и ги обяснете. Начертайте диаграмата на остатъците. Определете силата на зависимостта между независимата променлива и грешката.

б) Постройте модел с крива от втора степен. Определете коефициента на еластичност и сила-

та на зависимостта между средното почасово заплащане и процента на безработица в САЩ (чрез корелационния коефициент на Пирсън). Пресметнете коефициентите на детерминация и индетерминация и ги обяснете. Начертайте диаграмата на остатъците. Определете силата на зависимостта между независимата променлива и грешката.

в) Кой от двата модела е по-добър? Защо?

Решение: Начертаваме корелационното поле на фиг.30.

а) Избираме уравнение





Табл.37.

Год.Yi XiМеждинни изчисленияZi YiZi219584,206,800,150,620,022,771,432,050,0219593,505,500,180,640,033,480,020,000,3219603,405,500,180,620,033,48-0,080,010,4419613,006,700,150,450,022,810,190,031,1419623,405,500,180,620,033,48-0,080,010,4419632,805,700,180,490,033,35-0,550,311,6019642,805,200,190,540,043,70-0,900,811,6019653,604,500,220,800,054,32-0,720,510,2219664,303,800,261,130,075,16-0,860,740,0519675,003,800,261,320,075,16-0,160,030,8719686,103,600,281,690,085,460,640,414,1319696,703,500,291,910,085,621,081,166,93Общо:48,8060,102,5210,820,5648,800,006,0617,79За да сведем до уравнение на права полагаме . Получаваме

Вече можем да използваме системата нормални уравнения (1) за определянето на коефициентите. Извършваме междинните изчисления, показани в Табл.37.

Получаваме

и нейното решение е = 20,5879, = -0,2594. Това са коефициентите в уравнението на регресия. Т.е. регресионният модел има вида




Фиг. 30.

Вече можем да определим оценките на значенията на резултативния признак по формулата



Попълваме ги в седмата колонка на Табл.37.

За да определим стандартната грешка на модела намираме разликите между фактическите стойности на резултативния признак и техните оценки (кол. осма на Табл.37.). От формула (2) получаваме

.

По непретеглената формула за стандартно отклонение



SY = = =1,27.

Корелационният коефициент на Пирсън е



= 0,79.

Той показва значителна корелационна праволинейна зависимост между наблюдаваните признаци.

За разлика от линейния модел, тук темповете на намаляне на заплащането не са едни и същи, а зависят от нивото на безработицата. Ако се направи проверка на хипотезата за статистическа значимост на коефициента ще се види, че той не е статистически значим, т.е. можем да приемем, че = 0. Колкото и да нараства нивото на безработицата интензивността на изменение на заплащането ще намалее до едно ниво и ще се установи, т.е. изменението на заплащането ще стане нула.

Коефициентът на детерминация е = 62,59%. Той показва, че 62,59% от вариацията на средното почасово заплащане в САЩ се дължи на изменения в процента на безработица. Останалите = 37,41%. се дължат на невключени в модела фактори.

В този модел коефициентът на еластичност е

.

и се променя от точка в точка. Често той се смята за средните стойности. В случая = 5 и



Това означава, че при увеличаване на средния процент на безработица с 1%, изменението на средното почасово заплащане е отрицателно и намаляването е с -1.0674%. Диаграмата на остатъците от фиг. 31 и корелационния коефициент на Браве 0,140598 между независимата променлива Х и грешката , показват, че те са слабо корелирани. Тогава, можем да търсим по-добър модел за тази резултативна величина. Той може да бъде с друга независима променлива или с друга форма на зависимост.3



Фиг. 31.



15.2. Полиномна регресия.

Нека изследваме влиянието на фактора Х върху резултативния признак Y. Т.е. r = 1. Изчертаваме корелационно поле на данните. По абсцисната ос се нанасят измерените значения на признака X, а по ординатната, измерените значения на резултативната величина Y. Да предположим, че разполагаме с n на брой двойки от независими наблюдения (X1,Y1), (X2,Y2), ,(Xn,Yn). Изчертали сме корелационното поле и сме видели, че точките се групират около графиката на полином от r-та степен. Избираме линия на регресия



= 0 + 1 x + 2 x2 + ... + 1r xr,

където = (0, 1,... 1r) са неизвестни параметри в модела. Тогава регресионният модел е



Y = 0 + 1 Х + 2 Х 2 + ... + r Х r + .

Тук е стохастичната грешка, която трябва да е със средно Е = 0 и D = 2 < .

Отново най-добрите оценки на 0,1,2, ... r се получават по метода на най-малките квадрати. Те са такива, че минимизират сумата от квадратите на отклоненията

.

Нататък ще продължим при r = 2. По аналогичен начин се работи и и при по-високи степени на полинома. Да означим с , и оценките на неизвестните коефициенти в полинома. Тези оценки ги намираме от системата нормални уравнения, която в случая има вида

(3) .

Ако гледаме на тези оценки като на случайни величини, те са неизместени и имат минимална дисперсия в сравнение с всички неизместени оценки, линейно зависещи от Y1, Y2, , Yn.

Оценката на уравнението на регресия е

Като заместим измерените значения на факторпризнака Х, в уравнението на регресия, намираме съответните оценки за значенията на резултативния признак Y. Сумата и съответно средната аритметична на тези оценки е равна на съответната характеристика на изходните данни.

За да можем да направим статистически изводи за 0, 1, 2 и Y първо трябва да оценим дисперсията 2 и после да опишем разпределението на грешката. От теорията на общите линейни модели, най-добра неизместена оценка за 2 е

.

Тази величина се нарича среден квадрат на грешката.

(4) ,

се нарича обща стандартна грешка на модела.

Ако значи имаме пълно съвпадение на изходните данни с техните оценки.

Резултатите от изследването могат да се оформят в таблица от вида:



Източник на дисперсиятаСума от квадратитеСтепени на свободаДисперсия F - критерийРегресия24F емп = Отклонение от регресиятаn - 35Общо:n - 1Следва “Анализ на остатъците”. Анализира се техния графичен образ или се правят следните проверки на хипотези:

1. Дали остатъците имат случаен характер.

2. Дали са еднакво разпределени. Дали имат равни дисперсии.

3. Дали разпределението им е нормално.

4. Дали са некорелирани. То е все едно да проверим дали има корелация между X и .

Ако независимата променлива и грешката са некорелирани



.

При функционална зависимост между Х и Y, S = 0. Ако оценките на Y не се влияят от Х, S = . Ето защо ако отнесем S към стандартното отклонение на данните от извадката, отнасящи се за резултативния признак, ще получим величина, която е 0 при пълно съвпадение, т.е. при функционална зависимост между Х и Y и е 1 ако оценките на Y не се влияят от Х. В последния случай всички оценки на резултативния признак ще са равни помежду си и по тази причина ще са равни на своята средна аритметична и на средната аритметична на изходните данни за този признак. На основата на тези разсъждения е образуван корелационния коефициент на Пирсън



Той се изменя от 0 до 1. За посоката на зависимостта се съди по знака на . Измерва силата на праволинейната зависимост между X и Y. Равен е на коефициента на корелация на Браве.



С какво може да ни бъде полезен Excel в случая:

В Excel има основно два начина за работа с линейна легресия:

1. Последователността

Tools  Data Analysis  Regression

извежда всички необходими характеристики на множествената линейна регресия, а това означава, че и на полиномната.

2. Оценките на коефициентите в линията на регресия, заедно с корелационния коефициент на Пирсън и коефициента на детерминация могат да бъдат получени от корелационното поле на данните като се маркира полето пред тях преди изчертаването на графиката.

Продължение на решението на Пример 2.

б) Избираме уравнение на регресия от вида





Табл.38.

Год.Yi XiМеждинни изчисленияХi YiХi2Yi19584,206,8046,24314,432138,1428,56194,213,810,390,150,0219593,505,5030,25166,38915,0619,25105,883,020,480,230,3219603,405,5030,25166,38915,0618,70102,853,020,380,140,4419613,006,7044,89300,762015,1120,10134,673,67-0,670,451,1419623,405,5030,25166,38915,0618,70102,853,020,380,140,4419632,805,7032,49185,191055,6015,9690,973,00-0,200,041,6019642,805,2027,04140,61731,1614,5675,713,14-0,340,121,6019653,604,5020,2591,13410,0616,2072,903,88-0,280,080,2219664,303,8014,4454,87208,5116,3462,095,24-0,940,880,0519675,003,8014,4454,87208,5119,0072,205,24-0,240,060,8719686,103,6012,9646,66167,9621,9679,065,740,360,134,1319696,703,5012,2542,88150,0623,4582,086,010,690,476,93Общо:48,8060,10315,751730,529830,31232,781175,4648,81-0,012,9017,79За да определим системата нормални уравнения (3) извършваме междинните изчисления, показани в Табл.38.

Получаваме



.

Нейното решение е = 23,5269, = -7,2352 и = 0,6376. Това са коефициентите в уравнението на регресия. Т.е. регресионният модел има вида



Y = 23,5269 - 7,2352 Х + 0,6376 Х 2 + .

Вече можем да определим оценките на значенията на резултативния признак по формулата



Попълваме ги в деветата колонка на табл.38. Корелационното поле на данните, заедно с изгладените стойности на резултативната величина и техните доверителни интервали са дадени на фиг. 32.



Фиг. 32.

За да определим стандартната грешка на модела, намираме разликите между фактическите стойности на резултативния признак и техните оценки (колона десета на табл.38.). От формула (4) получаваме



.

По непретеглената формула за стандартно отклонение



SY = = =1,33.

Корелационният коефициент на Пирсън е



= 0,9.

Той показва значителна корелационна зависимост от втора степен между наблюдаваните признаци.

Коефициентът на детерминация е = 81%. Т.е. 81% от вариацията на средното почасово заплащане в САЩ се дължи на изменения в процента на безработица. Останалите = 29%. се дължат на невключени в модела фактори.

Диаграмата на остатъците от фиг. 33 и корелационният коефициент на Браве -0,00076 между независимата променлива Х и грешката , показват, че те са почти некорелирани. Т.е. моделът е сравнително добър за тези данни.

в) Сравняваме стандартните грешки на двата модела и виждме, че стандартната грешка на модела от внора степен е по-малка. По тази причина моделът от внора степен е по-добър за

разглежданите данни.



Фиг. 33.




Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:
1   2   3




©obuch.info 2024
отнасят до администрацията

    Начална страница