Лекции по Въведение в статистиката



Дата13.07.2017
Размер132.14 Kb.
#25630

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg





Тема 13. Еднофакторен дисперсионен анализ.

Дисперсионният анализ се прилага, когато се интересуваме от проверката на хипотезата дали влиянието на един или няколко фактор признаци върху друг метриран признак, наречен резултативен, е статистически значимо. В зависимост от броя на фактор признаците имаме еднофакторен, двуфакторен и т.н., многофакторен дисперсионен анализ. По същество това е проверка на хипотези за равенство между средните на две или повече извадки от нормално разпределени и независими съвкупности. Използва се обикновено, когато значенията на фактор признака са повече от две, в противен случай бихме могли да използваме по-кратката проверка на хипотези за равенство между средни на две извадки. Задачата се свежда до проверка на хипотези за равенство между две дисперсии (междугрупова и вътрешногрупова). Методологията му е разработена от Р. Фишер.

Тъй като реализацията му е свързана с много пресмятания, обикновено този анализ се извършва с помощта на компютър. Например със R, Matlab, Statistiсa, Excel, SPSS или др.

Нека наблюдаваме n статистически единици, разпределени според значенията си на признака Х в k групи. Целта ни ще е да отговорим на въпроса дали влиянието на признака Х, върху значенията на метрирания признак Y е статистически значимо. Да предположим, че извадката е от нормално разпределена съвкупност. Резултатите от наблюдението се оформят в следващата таблица..



X

Y

Общо:

X1

y11, y12, …, y1n

n 1







Xk

y11, y12, …, y1n

n k

Общо:

n

Приемаме, че извадките в групите са независими. Да означим средната в i – тата група с

за i = 1, …, k.

Избираме ниво на съгласие . Проверяваме хипотезата



Н0 : , т.е. отклоненията между средните в различните групи се дължат на случайни, кратко действащи фактори, т.е. влиянието на факторпризнака върху резултативния признак не е статистически значимо.

Алтернативата е

Н1 : Някои от са различни, т.е. влиянието на факторпризнака върху резултативната величина е статистически значимо.

Като критерий за проверка на тези хипотези се използва отношението на междугруповата и вътрешногруповата дисперсии. За да ги дефинираме се нуждаем от следните понятия.



Обща девиация (отклонение) се нарича сумата от квадратите на отклоненията на всичките n измерени значения на метрирания признак от тяхната средна аритметична. Ще я означаваме с SSо. Т.е. ако общата средна е тогава Тя измерва разпръснатостта на единиците около общата средна. Има n – 1 степени на свобода.

Вътрешногрупова девиация се нарича сумата от квадратите на отклоненията на всичките n измерени значения на метрирания признак от тяхната средна аритметична в съответната група. Ще

я означаваме с SSВ. Т.е Тази девиация има nk степени на свобода.



Междугрупова девиация се нарича сумата от квадратите на отклоненията на средните аритметични в групите от общата средна аритметична. Ще я означаваме с SSМ и . Тя има k - 1 степени на свобода.

Общата девиация е сума от вътрешногруповата и междугруповата девиации. Същото съотношение, както се вижда от по-горните разсъждения, е в сила и за степените им на свобода.

Като разделим девиациите на степените им на свобода получаваме оценки за съответните дисперсии.



Вътрешногрупова дисперсия ще наричаме

Междугрупова дисперсия ще наричаме

Вече сме готови да построим критичната област за проверка на нулевата хипотеза. Тя има вида



Случайната величина има F - разпределение с k – 1 степени на свобода на числителя и



n – k степени на свобода на знаменателя. Тогава константата С е 1- квантил на това разпреде-ление. Както и при проверката на хипотези за равенство между дисперсиите с критерия на Фишер, така и тук, критичната област се трансформира с еквивалентни преобразования, така че оценката на дисперсията от числителя да е по-голям от тази в знаменателя. Т.е. ако оценката на вътрешно-груповата дисперсия е по-голяма от тази на междугруповата критичната област ще има вида

Случайната величина има F - разпределение с n - k степени на свобода на числителя и



k - 1 степени на свобода на знаменателя. Константата С-1 е 1 - квантилът на това разпределение.

С какво може да ни бъде полезен Excel в случая:

Последователността



Tools  Data Analysis  Anova: Single Factor

извежда всички необходими характеристики на еднофакторния диспердионен анализ.


Въпроси към темата:

1. За какво се използва дисперсионния анализ?

2. В случая, когато оценката на междугруповата дисперсия е по-малка от тази на вътрешногруповата, защо и как се трансформира критичната област?
Задачи за упражнение:

Задача 1: Завод произвежда 3 вида автомобилни гуми. Наблюдавани са 38 от тях. В следващата таблица е даден пробега им в хиляди километри до момента на пълното им износване, поотделно за трите вида. Проверете дали извадките са от нормално разпределени съвкупности (като пренебрегнете факта, че наблюденията са прекалено малко на брой за да получите правилно заключение). С ниво на съгласие , проверете можем ли да твърдим, че вида на гумите е статистически значим за пробега им.


Вид на гумите

Пробег в х.км.

А

4.5, 6.7, 8.8, 7.9, 3.0, 9.4, 6.5, 6.0, 4.4, 7.2, 5.7, 6.1, 8

В

4.4, 6.0, 5.0, 6.4, 3.7, 8.0, 7.9, 3.2, 9.3, 7.5, 6.0, 7.4, 6.3

С

5.4, 6.4, 7.0, 6.8, 5.7, 7.3, 7.7, 3.7, 8.4, 9.7, 7.2, 5.5

Примерни ситуации и решения:

Пример 1: С цел изучаване влиянието на степента на образованост (обр.) на управителя на фирмата върху размера на брутната й печалба са наблюдавани 147 фирми. Резултатите от наблюдението са дадени в следващата таблица. Определете статистически значимо ли е това влияние.

Решение: Имаме един неметриран и един метриран признак. Посредством 2-критерия на Пирсън може да се покаже, че разпределенията в подсъвкупностите са нормални. Освен това може да се провери, че подсъвкупностите са независими. Тогава можем да приложим дисперсионния анализ.



Образование

Размер на брутната печалба в х.лв.

основно

65.7

33.9

54.0

31.0

67.7

54.7

41.4

32.3

43.0

22.6










средно

80.5

46.8

68.6

63.5

72.5

81.1

71.4

53.2

76.6

29.1

85.7

59.3

44.6

74.5

34.5

57.5

55.1

78.5

71.2

65.0

68.2

78.1

78.1

66.8

18.0

59.3

бакалавър

59.1

23.5

68.8

53.1

74.7

64.5

75.9

78.4

75.0

58.0

54.2

47.6

60.2

54.6

27.4

70.6

35.0

26.7

51.0

78.4

72.6

62.1

56.5

28.2

34.4

71.7

44.9

36.5

61.5

45.5

52.7

59.3

74.7

58.3

32.9

77.4

73.9

35.8

42.6

магистър

67.3

41.3

64.1

44.5

68.7

73.0

56.1

47.3

40.7

58.1

55.5

50.3

60.3

51.6

85.8

57.2

47.0

64.6

67.5

44.3

64.3

13.5

63.3

66.2

21.7

64.8

62.7

79.7

51.6

57.1

29.8

67.8

59.6

48.9

70.8

25.9

61.8

27.3

33.1

83.6

65.2

37.0

70.2

73.4

56.7

69.2

61.6

69.3

20.9

63.2

64.7

55.2

40.4

37.8

17.7

13.9

46.5

25.2

45.5

75.8

43.3

14.0

61.8

46.0

44.9

доктор

39.4

33.4

63.4

59.9

86.0

79.5

71.1



















Избираме риск за грешка = 0,05. Средната аритметична на всички наблюдения е = 55,05 х.лв. От предната таблица намираме средните аритметични на петте подсъвкупности. Получаваме третата колонка на следващата таблица

Образование

Междинни изчисления

ni













основно

10

44.6

-10.5

109

1093

средно

26

63.0

7.95

63.1

1641

бакалавър

39

55.3

0.25

0.06

2.35

магистър

65

52.6

-2.45

6.02

392

доктор

7

61.8

6.75

45.5

319

Общо:

147

x

x

x

3447

За да определим критичната област, трябва да изчислим оценките на дисперсиите, а за целта пресмятаме девиациите и определяме техните степени на свобода.

Вътрешногруповата девиация е



и има 147 – 5 = 142 степени на свобода. Тогава



Междугруповата девиация е



и има 5 – 1 = 4 степени на свобода.



Вече сме готови да проверим дали сме в критичната област за нулевата хипотеза. Тъй като междугруповата дисперсия е по-голяма от вътрешногруповата, критичната област има вида



,

където константата С0,05 е 1-0,05=0,95 квантилът на F-разпределението с 4 степени на свобода на числителя и 142 степени на свобода на знаменателя, т.е. С0,05 = 2,37. В нашата задача



и сме в критичната област за нулевата хипотеза, т.е. с риск за грешка 0,05 можем да твърдим, че степента на образованост на управителя на фирмата оказва статистически значимо влияние върху брутната й печалба.





Последна редакция 13.7.2017 г.

Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница