Тема 12. Статистическа проверка на параметрични хипотези



Дата05.12.2018
Размер263 Kb.
#107113

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg




Тема 12. Статистическа проверка на параметрични хипотези

( за равенство между: средни, относителни дялове, дисперсии)

В тази тема ще предполагаме, че е известен типа на разпределението на изследваната величина, а са неизвестни неговите параметри. Параметрична статистическа хипотеза, наричаме тази, която се отнася до параметрите на това разпределение.



12.1. Проверка на хипотези за равенство между средни.

При конкретни емпирични изследвания, често се налага при зададено ниво на доверие  да се провери хипотезата за равенство между средна на нормално разпределена величина с известно стандартно отклонение и константа a, т.е. трябва да проверим хипотезата



Н0 : Е = а

срещу алтернативата,



Н1 : Е > а,

При така дефинирана алтернатива казваме, че имаме едностранна критична област.

Ако алтернативата е от вида

Н1 : Е1  а

говорим за двустранна критична област.

За да тестваме тези хипотези, при едностранната критична област, тя се описва с

Вече знаем, че при изпълнена нулева хипотеза случайната величина има стандартно нормално разпределение и С се определя от условието . Т.е. в случая на едностранна критична област С е 1- квантилът на стандартното нормално разпределение. Ако емпиричната характеристика е по-малка от С, значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако емпиричната характеристика е по-голяма от С, значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. раличията между извадковото средно и тестваната константа са статистически значими и средното на генералната съвкупност е по-голямо от тестваната константа а.

При двустранна критична област

където С е 1- /2 квантилът на стандартното нормално разпределение.



С какво може да ни бъде полезен Excel в случая:

При решаването на подобна задача с Excel можем да подходим по следващите два начина.



1. Функцията NORMDIST(; a; ; 1) с дадените параметри пресмята

Р( ),

където е стандартно нормално разпределена случайна величина. Т.е. ако работим с едностранна критична област и стойността, която връща тази функция е по-малка от 1-, значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако тази стойност е по-голяма от 1-, значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. раличията между извадковото средно и тестваната константа са статистически значими. По аналогичен начин можем да използваме тази функция при двустранна критична област, но ще сравняваме резултата с 1-/2.

2. Функцията NORMINV(1-; a; ), при едностранна критична област връща С.
Ако при решаване на предната задача не разполагаме с дисперсията на генералната съвкупност използваме нейната неизместена оценка , пресметната по данни от извадката. При изпълнена нулева хипотеза, както вече знаем, случайната величина има t-разпределение с n-1 степени на свобода. В този случай едностранната критична област има вида

,

където С е 1- квантилът на t-разпределението с n-1 степени на свобода. Ако емпиричната характеристика е по-малка от С, значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако емпиричната характеристика е по-голяма от С, значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. разпределенията на двете наблюдавани величини са статистически различими.

По аналогичен начин при работа с двустранна критична област

където С/2 е /2 квантилът и С1-/2 е 1-/2 квантилът на разпределението на Стюдент с n-1 степени на свобода.



С какво може да ни бъде полезен Excel в случая:

При решаването на подобна задача с Excel можем да подходим по следните два начина.



1. Функцията TDIST(; n-1; 1) пресмята Р( > ), където е t-разпределена случайна еличина с n-1 степени на свобода. Т.е. ако работим с едностранна критична област и стойността, която връща тази функция е по-голяма от , значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако тази стойност е по-малка от , значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. По аналогичен начин при работа с двустранна критична област.

2. Функцията TINV(1-; n-1) връща С,

Сега ще разгледаме проверка на хипотези за равенство между средни на две независими, нормално разпределени наблюдавани величини с една и съща дисперсия.

Да кажем, че сме избрали едностранна критична област. Формалният запис на хипотезите изглежда така

Н0 : Е1 = Е2

срещу алтернативата



Н1 : Е1 > Е2

От независимостта на извадките получаваме, че дисперсията на разликата на средните им е



Една неизместена оценка на дисперсията 2 на генералната съвкупност, в този случай, се получава като претеглена средна аритметична на неизместените оценки на дисперсиите на двете извадки, с тегла съответно n1 - 1 и n2 - 1, т.е. тя е



По тази причина една неизместена оценка на дисперсията на разликата на средните е



При едностранна критична област, тя има вида



Случайната величина



има t разпределение с степени на свобода. Тогава константата С е 1- квантилът на t(n1 + n22). Т.е. ако емпиричната характеристика е по-малка от С, значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако емпиричната характеристика е по-голяма от С, значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. разпределението на двете наблюдавани величини са статистически различими и средната на първата съвкупност е по-голяма от средната на втората съвкупност.



С какво може да ни бъде полезен Excel в случая:

При решаването на подобна задача с Excel можем да подходим по следните три начина.



1. Функцията

TDIST(; n1 + n22; 1)

пресмята Р( > ), където има t разпределение с n1 + n22 степени на свобода. Т.е. при едностранна критична област, ако стойността, която връща тази функция е по-голяма от , значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако тази стойност е по-малка от , значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. различията в средните на двете наблюдавани величини са статистически значими.

2. Функцията TINV(1-; n1 + n22) връща С,

3. Последователността

Tools  Data Analysis  t – Test: Two – Sample Assuming Equal Variances

Извежда всички необходими характеристики при тази проверка на хипотези.

При двустранна критична област алгоритмите за проверка на хипотези са аналогични, с тази разлика, че С е 1-/2 квантилът на t(n1 + n2 - 2). Да обърнем внимание, че при n1 + n22 > 30 тези квантили почти съвпадат със съответните квантили на стандартното нормално разпределение.

Какво ще се промени ако имаме проверка на хипотези за равенство между средни на две независими нормално разпределени наблюдавани величини с неизвестни и различни дисперсии 12 и 22 ?

От независимостта на извадките получаваме, че дисперсията на разликата на средните им е



Тогава една неизместена оценка на тази дисперсия е .

Критичната област има вида

Т.к.

константата С е 1- квантила на това разпределение. Ако емпиричната характеристика е по-малка от С, значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако емпиричната характеристика е по-голяма от С, значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. разпределението на двете наблюдавани величини са статистически различими.

С какво може да ни бъде полезен Excel в случая:

При решаването на подобна задача с Excel можем да подходим по следните три начина.



1. Функцията TDIST(;; 1) пресмята Р( > ),

където е t-разпределена случайна величина с степени на свобода. Ако при едностранна критична област стойността, която връща тази функция е по-голяма от , значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако тази стойност е по-малка от , значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. разпределението на двете наблюдавани величини са статистически различими. По аналогичен начин можем да използваме тази функция ако критичната област е двустранна.

2. Функцията TINV(1-; ) връща С, при едностранна критична област. По аналогичен начин можем да използваме тази функция ако критичната област е двустранна.

3. Последователността

Tools  Data Analysis  t – Test: Two – Sample Assuming Unequal Variances

Извежда всички необходими характеристики при тази проверка на хипотези.

При сравняване на средните на две нормално разпределени наблюдавани величини, които не са обезателно независими трябва да разполагаме с данни за измерените значения по двата признака X и Y на всяка статистическа единица. Т.е.извадките от наблюдения върху тях са еднакви по обем. Проверяваме хипотезата



Н0 : Е1 = Е2

срещу алтернативата



Н1 : Е1 > Е2

Тези хипотези са еквивалентни на хипотезите



Н0 : Е(1 - 2) = 0

срещу алтернативата



Н1 : Е(1 - 2) > 0

Така задачата се свежда до проверка на хипотези за равенство между средна на разликата и константа. Образуваме разликите между значенията на тези признаци di = Xi – Yi и прилагаме първия подход, разгледан в тази тема.

Като приложим Централната гранична теорема виждаме, че при големи по обем извадки критериите на Стюдент могат да се използват и при неспазено условие за нормалност на разпределението на извадката. Задължително е обаче наблюдаваните величини да са с крайна дисперсия.

Друг важен клас задачи в статистиката се свеждат до проверка на хипотези за равенство между дисперсии. Ще опишем критичните области в два такива случаи.


12.2 Проверка на хипотези за равенство между дисперсии

Първо ще се спрем на проверка на хипотези за равенство между дисперсия на нормално разпределена наблюдавана величина и константа 0. Разполагаме с извадка от n независими наблюдения върху тази съвкупност. При едностранна критична област формалното описание на хипотезите изглежда така



Н0 : 0 = D

Н1 : 0 > D.

Критична област е от вида



Т.к. случайната величина има 2 разпределение с n – 1 степени на свобода, константата С е 1- квантилът на това разпределение.

Сега да разгледаме проверка на хипотези за равенство между две дисперсии на нормално разпределени наблюдавани величини.

Разполагаме с две извадки от наблюдения съответно върху първата и втората величина. Обемите на извадките са n1 и n2, а оценките на дисперсиите съответно и .

При едностранна критична област формалното описание на хипотезите изглежда така:

Н0 : 1 = 2, т.е. разликата между двете оценки на дисперсиите е случайна.

Н1 : 1 > 2, т.е. разликата между двете оценки на дисперсиите се дължи на системно действащи фактори.

Критична област е от вида където винаги алтернативната хипотеза трябва да е подбрана така, че по-голямата ниезместена оценка на дисперсията да е в числителя.

Случайната величина има F - разпределение ( на Фишър ) с n1 – 1 степени на свобода на числителя и n2 – 1 степени на свобода на знаменателя. Тогава константата С е 1- квантилът на това разпределение. Ако емпиричната характеристика е по-малка от С, значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако емпиричната характеристика е по-голяма от С, значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. дисперсията на първото разпределение е статистически значимо по-голяма от дисперсията на втората случайна величина.

За съжаление често пъти проблемът за разпределението на теоретичната характеристика съвсем не е лек и изисква задълбочени знания по Теория на вероятностите. Когато обемът на извадката е голям, за разрешаването на разпределителният проблем, може да се използват различни гранични теореми.



С какво може да ни бъде полезен Excel в случая:

При решаването на подобна задача с Excel можем да подходим по следните три начина.



1. Функцията FDIST ( ; n1 – 1; n2 – 1) пресмята Р( < ), където има

F(n1 – 1; n2 – 1) разпределение. Т.е. при едностранна критична област ако стойността, която връща тази функция е по-малка от 1-, значи извадката не е в критичната област за нулевата хипотеза и нямаме основание да я отхвърлим. В този случай приемаме нулевата хипотеза. Обратно: ако тази стойност е по-голяма от 1-, значи извадката е в критичната област за нулевата хипотеза. В този случай отхвърляме нулевата хипотеза и приемаме алтернативната. Т.е. разпределението на двете наблюдавани величини са статистически различими.

2. Функцията FINV(1-; n1 – 1; n2 – 1) връща С, при едностранна критична област.

3. Последователността

Tools  Data Analysis  F – Test: Two – Sample for Variances

Извежда всички необходими характеристики при тази проверка на хипотези.
При проверка на хипотези за равенство между относителни дялове се подхожда по аналогичен начин. Формулите, които се получават се различават от горните по това, че на мястото на средните аритметични имаме съответните относителни дялове p, а на мястото на дисперсиите имаме p.(1-p).
Въпроси:

1. Какво е ниво на съгласие, критична област, грешка от първи род, риск за грешка от първи род, грешка от втори род, риск за грешка от втори род, мощност на критерия, оптимална критична област?

2. Как се определя грешката от първи род?

Задачи:

Задача 1: С ниво на съгласие 5% постройте критерий(критична област) за проверка на хипотезата, че средното на нормално разпределена генералната съвкупност е 144 срещу алтернативата, че е различно от 144 при предположение, че дисперсиите са известни и равни на 25 и = 0,01.

Задача 2: Млекопреработвателна фирма решава да произвежда и пакетира краве масло. За целта закупува машина, която го пакетира. След началото на производствената дейност, контролните органи решават да проверят дали са спазени изискванията по пакетирането. По случаен начин избират 100 пакетчета и проверяват техните маси. Оказва се, че разпределението на извадката е нормално и средната маса от извадката е 122 гр. С ниво на съгласие 5% можем ли да твърдим, че средната маса на всички произведени пакетчета е 125гр. или трябва да пренастроим машината?

Примери:

Пример 1: С цел изследване влиянието на пола на съпрузите върху средния им месечен доход в гр. Х, са наблюдавани 10 семейни мъже и 12 семейни жени. Оказало се е, че извадките са от нормално разпределени съвкупности със средни съответно 720 лв. и 700 лв. и с неизместени оценки на дисперсиите = 196 и = 144. Имаме ли основание да смятаме, че първата извадка е от съвкупност с по-голяма дисперсия или отклоненията в оценките на дисперсиите се дължат на случайни фактори?

Решение: Избираме ниво на съгласие = 0,05. При едностранна критична област формалното описание на хипотезите изглежда така

Н0 : 1 = 2 т.е. разликата между двете оценки на дисперсиите е случайна.

Н1 : 1 > 2 т.е. разликата между двете оценки на дисперсиите не е случайна.

Критична област е от вида



където константата С0,05 е 1 - 0,05 = 0,95 квантилът на F (9; 11), т.е. С0,05 = 2,9. Тогава, тъй като



извадките не е са критичната област за нулевата хипотеза, т.е. нямаме основание да считаме, че извадките са от съвкупности с различни дисперсии.



Пример 2: С цел изследване влиянието на пола на съпрузите върху средния им месечен доход в гр. Х, са наблюдавани 10 семейни мъже и 12 семейни жени. Оказало се е, че извадките са от нормално разпределени съвкупности със средни съответно 720 лв. и 700 лв. и с неизместени оценки на дисперсиите = 196 и = 144. Имаме ли основание да смятаме, мъжете имат по-висок среден месечен доход или отклоненията в средните на извадките се дължат на случайни фактори?

Решение: Вече показахме, че извадките са от съвкупности с еднакви дисперсии.

Избираме ниво на съгласие = 0,05 и едностранна критична област. Формалното описание на хипотезите изглежда така



Н0 : Е1 = Е2, т.е. полът не влияе на средния месечен доход,

срещу алтернативата



Н1 : Е1 > Е2 т.е. средният месечен доход на мъжете е статистически значимо по-висок от този на жените.

Критичната област има вида



където константата С е 1- = 0,95 квантилът на разпределението на Стюдент с



(n1 – 1) + (n2 – 1) = 20

степени на свобода. При едностранна критична област С = 1,7247. Т.е. критичната област има вида



Проверяваме дали извадката попада в критичната област за нулевата хипотеза. Пресмятаме емпиричната характеристика



Тогава


.

Следователно извадките са критичната област за нулевата хипотеза, т.е. с риск за грешка от първи род 0,05 можем да твърдим, че средният месечен доход на мъжете е статистически значимо по-голям от дохода на жените. (Ако дисперсиите бяха по-големи, например около 900, резултатът нямаше да е такъв. Обяснете влиянието на дисперсиите).



Пример 31: С оглед да се проучи дали при изолация от естествена дневна светлина и други условия, при които се прави експериментът, не се получават вредни влияния върху работниците, са направени психометрични и други наблюдения и е установено, че в експерименталната група от 32 работници, относителният дял на работниците, които са показали по-голяма степен на умора в сравнение с определени норми е 18%, а в контролната група от 30 работници относителният дял е 4%. Може ли при тези данни да се счита, че разликата между относителните дялове в двете извадки е статистически значима и следователно имаме ли основание да твърдим, че условията на работа на експерименталната група влияят неблагоприятно?

Решение: Избираме ниво на съгласие = 0,05 и едностранна критична област. Формалното описание на хипотезите изглежда така

Н0 : p1 = p2, т.е. разликата между относителните дялове в двете извадки не е статистически значима и в двете условията на работа влияят еднакво върху степента на умора на работниците.

Срещу алтернативата



Н1 : p1 > p2, т.е. разликата между относителните дялове в двете извадки е статистически значима и условията на работа в експерименталната група увеличават степента на умора на работниците.

Критичната област има вида



където константата С е 1- = 0,95 квантилът на разпределението на Стюдент с



(n1 – 1) + (n2 – 1) = 60

степени на свобода. При едностранна критична област С = 1,671. Т.е. критичната област има вида



Проверяваме дали извадката попада в критичната област за нулевата хипотеза. Пресмятаме емпиричната характеристика





.

1,8  1,671.

Следователно извадките са критичната област за нулевата хипотеза, т.е. с риск за грешка от първи род 0,05 можем да твърдим, че разликата между относителните дялове в двете извадки е статистически значима и условията на работа в експерименталната група увеличават степента на умора на работниците.





1 Кирил Гатев, Въведение в общата теория на статистиката, Наука и изкуство, 1980.


Последна редакция 05.12.2018 г.

Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница