Лекции по Въведение в статистиката



Дата11.04.2018
Размер168.64 Kb.
#66699

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg




Тема 10. Статистическа оценка на параметри. Точкови оценки. Интервални оценки.

Оценката е отражение на действителността. Зависи от “лещата”,

която пречупва светлината.
На практика често пъти не можем да извършим наблюдения върху цялата генерална съвкупност, а само върху част от нея, т.е. върху извадка. По тази причина не можем да установим параметрите на съвкупността, а пресмятаме само числовите характеристики на извадката. Ако тя е репрезентативна (представителна), на основата на характеристиките й правим заключения за неизвестните параметри на генералната съвкупност. Колкото и правилно да сме подбрали статистическите единици, попадащи в извадката, не можем да пренебрегнем случайния й характер. По тази причина, в основата на тези заключения стои Теорията на вероятностите. Така статистическата съвкупност се анализира в някакво приближение. Числовите характеристики, получени от извадката се наричат точкови оценки. В тази лекция ще разберем каква трябва да е една оценка за да е добра и защо, например вместо първия параметър на нормалното разпределение, т.е. вместо математическото му очакване, се използва средното аритметично, а вместо дисперсия - Sn2 .

10.5. Точкови оценки



Точкова оценка или статистика се нарича всяка функция на извадката, която приемаме за стойност на неизвестния параметър.

Да предположим, че се интересуваме от средната брутна печалба на един работещ, във всички фирми в България, занимаващи се с разглеждана от нас дейност. Един изследовател ще оцени неизвестното средно с медианата, друг със средното аритметично, а трети - с модата. Кой от тримата ще даде по-точна оценка? За да отговорим на този и подобни въпроси, първо трябва да разгледаме някои свойства на оценките.

Да предположим, че разполагаме с извадка X1, X2, …, Xn, от n на брой наблюдения върху някакъв метриран признак. От теоретична гледна точка това са реализациите на n на брой еднакво разпределени случайни величини x1, x2, …, xn с една и съща функция на разпределение F. Търсим оценка за функцията t(q) на неизвестния параметър q в това разпределение. Ще означаваме стойността на оценките на t(q) с tn(X1, X2, …, Xn), а техния теоретичен еквивалент с tn(x1, x2, …, xn). Теоретичният еквивалент на оценката е случайна величина, а tn(X1, X2, …, Xn) е една реализация на тази случайна величина.

Една оценка tn(x1, x2, …, xn) се нарича неизместена оценка за t(q) ако математическото й очакване е равно на оценяваната функция t(q) т.е. ако

Е tn(x1, x2, …, xn) = t(q).

Нататък, когато е необходимо да уточним дали става въпрос за емпиричния или теоретичния вариант на различните числови характеристики, ще пишем след тях съответно (X1, X2, …, Xn ) или (x1, x2, …, xn).

От свойствата на математическото очакване лесно се проверяват следващите резултати.


  • Средното аритметично на x1, x2, …, xn е неизместена оценка за математическото очакване на наблюдаваната величина.

  • sn(x1, x2, …, xn) = е слабо изместена оценка за стандартното отклонение на разпределението на наблюдаваната величина.

  • Дисперсията S2n(x1, x2, …, xn) е неизместена оценка за дисперсията на разпределението на наблюдаваната величина.

Да припомним, че при пресмятането на тази характеристика по данни от извадка, претеглената формула има вида:



.

При това



  • Емпиричната функция на разпределение Fn е неизместена оценка за теоретичната функция на разпределение F на наблюдаваната величина.

Известно е още, че не могат да се получат неизместени оценки за централните моменти от ред, по-голям от обема на извадката.

За една и съща характеристика на генералната съвкупност може да има

повече от една неизместени оценки. Коя от тях да изберем?

Да си припомним, че когато дисперсията на оценката е крайна е в сила неравенството на Чебишов



Разликата се нарича систематична грешка на оценката.

Числото

се нарича надеждност на оценката с точност e > 0.



Естествено е да заключим, че оценката е толкова по-ефективна, колкото по-малка е дисперсията й. Така тя ще има най-малко разсейване около средното си значение и най-близка стойност до оценявания параметър. Да припомним, че според определението на понятието “неизместеност”, оценяваният параметър съвпада със средното значение на оценката. От математическата статистика е известно, че ако съществува неизместена оценка с минимална дисперсия, то тя е единствена и се нарича ефективна оценка. Ако не съществува ефективна оценка, се търси друга функция на извадката, която при увеличаване на обема на извадката се стреми към оценявания параметър. Такива оценки се наричат – състоятелни. При увеличаване на броя на единиците в извадката дисперсиите на тези оценки намаляват. Ще дадем само по-важните за нас твърдения, които се отнасят до състоятелност на оценките.

  • Средното аритметично и медианата са състоятелни оценки за средното значение на разпределението на наблюдаваната величина.

  • Дисперсията на извадката S2n е състоятелна оценка за дисперсията на наблюдаваната величина.

  • Емпиричната функция на разпределение Fn е състоятелна оценка за теоретичната функция на разпределение F на наблюдаваната величина.

  • Емпиричните квантили (при 1:n£ p £ (n-1):n) са състоятелни оценки за съответните квантили на теоретичната функция на разпределение F на наблюдаваната величина.

  • Нека са независими наблюдения над случайния вектор (x, h). Тогава е неизместена и състоятелна оценка за cov(x, h).

  • Нека са независими наблюдения над случайната величина x, която има крайни моменти от степен 2к. к-тият централен момент е състоятелна оценка за Е(x-Ex)k.


10.5 Интервални оценки
Точковите оценки предлагат за неизвестния параметър на изучавания признак конкретно число. Ако вече сме построили такава оценка, например за средната на разглеждания признак и извършим нови наблюдения, средната на новата извадка, в общия случай ще се отклонява от старата оценката за средната на разглеждания признак. По тази причина е за предпочитане да получим цял интервал, в който попада неизвестният параметър, с избрана от нас вероятност 1 - a (0, 1). Т.е. търсеният интервал е такъв, че ако направим достатъчно на брой извадки, в (1 - a)100% от тях неизвестният параметър ще се намира в получения от нас доверителен интервал. В този случай говорим за интервална оценка и доверителен интервал. a (0, 1) се нарича ниво на доверие или равнище на значимост, а 1 - a - гаранционна (доверителна) вероятност. Колкото a е по-близо до 0, толкова доверителният интервал (доверителното множество) е по-широк(о). Обикновено се работи с a Î [0.01, 0.05].

Задачата за определянето на доверителен интервал на един неизвестен параметър изглежда така: Разполагаме с извадка X1, X2, …, Xn, от n на брой наблюдения върху една и съща величина (метриран признак). Търсим две числа аn(X1, X2, …, Xn) и вn(X1, X2, …, Xn) такива, че неизвестният параметър q да попада в интервала (аn(X1, X2, …, Xn), вn(X1, X2, …, Xn)] с вероятност 1- a, т.е.

( 1 ) P(аn(x1, x2, …, xn ) £ q < вn(x1, x2, …, xn )) = 1- a.

За така избраното от нас a можем да построим много доверителни интервали, обикновено се използва този, чиято дължина е минимална или който удовлетворява условието



( 2 ) P(аn(x1, x2, …, xn ) > q ) = P(q ³ вn(x1, x2, …, xn )) = a/2.

В случите, когато едното от аn(X1, X2, …, Xn) = -¥ или вn(X1, X2, …, Xn) = ¥ говорим за едностранен доверителен интервал.

При дискретни разпределения се преминава към консервативни граници, т.е. взема се най-късият интервал такъв, че

P(аn(x1, x2, …, xn ) £ q < вn(x1, x2, …, xn )) ³ 1 - a


  • Алгоритъм за определяне на доверителен интервал на средното на нормално разпределена съвкупност с известна дисперсия.

Да се спрем по-подробно на алгоритъма за определяне на доверителен интервал на средно-то на нормално разпределена съвкупност с известна дисперсия. Нека са извършени n на брой независими наблюдения X1, X2, …, Xn с възвратен подбор, върху нормално разпределена случайна величина с математическо очакване q, т.е. x1, x2, …, xn са независими, еднакво нормално разпределени и q е неизвестният параметър. От математическата статистика е известно, че средната аритметична е най-добрата оценка на математическото очакване. Освен това тя е също нормално разпределена с математическо очакване q и с дисперсия . Тогава

~ N(0, 1).

Определяме квантилите x1 и x2 на разпределението на n така, че



P( x1 £ n < x2 ) = 1 - a.

Разпределението на n е симетрично относно ординатната ос, тогава за да получим възможно най-тесен доверителен интервал трябва

( 3 ) х1 = - х2

Задачата ни ще бъде решена ако намерим едно от числата х1 или х2 (ние ще изберем х1) такова, че

( 4 ) P(-x1 £ n < x1) = F ( x1) - F (-x1) = F (x1) – (1 - F (x1) ) = 2F (x1) – 1 = 1 - a,

където F (x) е функцията на разпределение на стандартно нормално разпределена случайна величина. После използваме ( 3 ) за да намерим x 2.

От последното равенство получаваме F (x1) = 1-a/2. Тогава x1 е 1-a/2 квантилът на стандартното нормално разпределение. Означаваме го с z1- a /2 и получаваме

P( -z 1-a / 2 £ < z 1-a / 2 ) = 1 - a.

С еквивалентни преобразувания, когато в средата на полученото неравенство оставим само q, в ляво от неравенството получаваме търсената оценка аn, а в дясно - вn. Т.е. търсените краища на доверителния интервал са





т.е. с вероятност 1-a, средното на наблюдавания признак се покрива от интервала



В приложната статистика, величината

( 5 )

се нарича стандартна стохастична грешка на средната аритметична, а z1-a/2 – гаранционен множител.



( 6 )

се нарича максимална стохастична грешка или още точност на оценката.

В случаите, когато съвкупността не е нормално разпределена и извадката е достатъчно голяма по обем се използва Централната гранична теорема. Тя гласеше, че асимптотичното разпределение на средното аритметично на всяка извадка от наблюдения върху съвкупност с крайна дисперсия е нормално. С други думи при голям обем на извадката можем да приложим горния алгоритъм за намиране на доверителен интервал на средното на съвкупност с произволно разпределение и с крайна дисперсия.

С какво може да ни бъде полезен Excel в случая:

За да построим доверителен интервал за средното на такава генерална съвкупност можем да използваме функцията CONFIDENCE(; ; n).


  • Алгоритъм за определяне на доверителен интервал на средното на нормално разпределена съвкупност с неизвестна дисперсия.

Често пъти стандартното отклонение s на генералната съвкупност не е известно. В този случай, при определянето на доверителния интервал се използва неговата неизместена оценка . От получаваме, че една подходяща статистика в случая е

n := .

По тази причина определяме 1-a/2 квантилите на разпределението на n (т.е. z1-a/2) не от таблиците на стандартното нормално разпределение, а от таблиците на разпределението на Стюдънт с n-1 степени на свобода. За доверителния интервал в този случай получаваме

( 7 )

Поради приликата на стандартното нормално разпределение и разпределението на Стюдент t(n) при n 30 няма особено голямо значение кой от горните два алгоритъма ще използваме.



Когато подборът е с връщане и обемът на извадката не е много по-малък от обема на генералната съвкупност, стандартната грешка е по-малка в сравнение с тази, определена по формула (5) и оценката й трябва да се коригира. В този случай

( 8 )

където N е обемът на генералната съвкупност, n – обемът на извадката, а



( 9 )

Доверителният интервал за средната на генералната съвкупност, в този случай (при известна дисперсия на генералната съвкупност) е



( 10 )

Когато дисперсията на генералната съвкупност не е известна заменяме s със .



  • Ако построяваме доверителен интервал на вероятността р на събитието А постъпваме по аналогичен начин. Абсолютната честота на А, т.е. mn(А) ~ Bi(n; p). Поради неудобствата при използване на биномната функция на разпределение, ако n е достатъчно голямо можем да използваме нейното нормално приближение, т.е. при достатъчно големи n

Тогава при доверителна вероятност 1-a имаме



,

което е все едно



( 11 ) .

Преработваме неравенствата с еквивалентни преобразувания, така че в средата да остане само р и получаваме





.

Тъй като при големи n почти сигурно в (11) на практика често се сменят местата на mn(A) и np получаваме по-лесен за използване, но по-неточен доверителен интервал



( 12 ) .
Стандартната грешка на този оценка е

Максимелната стохастична грешка е



( 13 )

Изложената методология за определяне на доверителен интервал може да се използва и при оценка на други параметри на извадката. Това, което се променя е разпределението на оценката на съответния параметър q, а от тук и вида на максималната стохастична грешка на съответния доверителен интервал.



  • Доверителен интервал на дисперсията на нормално разпределена съвкупност с известно математическо очакване а.

Нека са извършени n на брой независими наблюдения X1, X2, …, Xn върху нормално разпределена съвкупност, т.е. x1, x2, …, xn са независими, еднакво нормално разпределени случайни величини с неизвестна дисперсия s. От математическата статистика е известно, че

n = .

Определяме квантилите на разпределението на n така, че

P(x1 £ n £ x2) = 1 - a.

Получаваме, че x2 е 1-a /2 квантилът наc2-разпределението с n степени на свобода, а x1 е a/2 квантилът на същото разпределение. Тогава



P(£ s2 < ) = 1 - a.

Търсените краища на доверителния интервал са и .

Това означава, че с вероятност 1-a, дисперсията на съвкупността се покрива от интервала



  • Определяне на доверителен интервал на дисперсията на нормално разпределена съвкупност с неизвестно средно.

Нека са извършени n на брой независими наблюдения X1, X2, …, Xn върху нормално разпределена съвкупност, т.е. x1, x2, …, xn са независими, еднакво нормално разпределени с неизвестна дисперсия s и с неизвестно математическо очакване. От математическата статистика е

известно, че е най-добрата оценка на s2. При това

n = .

Определяме квантилите на разпределението на n така, че



P( x 1 £ n £ x 2 ) = 1 - a.

Получаваме, че x2 е 1-a / 2 квантилът наc2-разпределението с n-1 степени на свобода, а x1 е a/2 квантилът на същото разпределение. Тогава



P(£ s2 < ) = 1 - a.

Търсените краища на доверителния интервал са и .

Това означава, че с вероятност 1-a, дисперсията на съвкупността се покрива от интервала



Въпроси:

1. Кои оценки са най-добри?

2. Ако разполагате с данни от репрезентативна извадка, посочете добри оценки за математическото очакване, дисперсията и емпиричната функция на разпределение на изучавания признак. Обосновете защо избрахте точно тях.

3. Защо се налага при построяване на доверителен интервал на средното на генерална съвкупност да центрираме и нормираме случайните величини и какво означава това?

4. Начертайте графиката на плътността на стандартното нормално разпределение. Посочете мястото на дискутирания гаранционен множител z1-a/2. Обяснете в какви съотношения правата, която минава през него и е успоредна на ординатната ос, разделя лицата под кривата на плътността? Колко е цялото лице на фигурата под кривата на плътността? Само за нормалното разпределение ли е толкова това лице или и за под другите графики на плътността е също толкова?

5. В различните задачи при едно и също ниво на доверие един и същ гаранционен множител ли се получава?

6. Променят ли се стандартната стохастична грешка и максималната стохастична грешка ако данните са различни, а гаранционния множител е един и същ?

7. При една и съща максимална стохастична грешка и гаранционна вероятност, за различни съвкупности еднакъв обем на извадката ли ще получим?



Примерни ситуации и решения:

Пример 1: По данни от представителна извадка с обем 147, средната брутна печалба на фирмите, които се занимават с даден вид дейност е = 55,07 х. лв. и = 17,58. С равнище на значимост 0.05, постройте доверителен интервал за средната брутна печалба на фирмите от генералната съвкупност, от която е формирана извадката.

Решение: В случая не разполагаме с дисперсията на генералната съвкупност за това ще използваме нейната неизместена оценка . Стандартната грешка на оценката е

Освен това 1 - /2 = 0,975. Определяме 0,975 – квантила на стандартното нормално разпределение. Той е z 0,975 = 1.96. Тогава максималната грешка на оценката е



Тогава от ( 7 ), с равнище на значимост 0,05, търсеният доверителен интервал е



Т.е. с риск за грешка 5%, средната брутна печалба на фирмите в генералната съвкупност, от която е формирана извадката, е в интервала (52,23 ;57,91].



Пример 2: По данни от представителна извадка с обем 144, относителната честота на лицата от регион Х, които обичат шоколад е = 65%. С равнище на значимост 0.05, постройте доверителен интервал на относителния дял на лицата от цялата генералната съвкупност, от която е формирана извадката, които обичат шоколад.

Решение: Нека . Тогава

n(A) = npn = 144.0,6 = 86,4.

Точната формула за доверителен интервал на относителен дял е



Т.к. 1 - /2 = 0,975. Определяме 0,975 – квантила на стандартното нормално разпределение. Той е z 0,975 = 1.96.

Тогава търсеният доверителен интервал е





;

Т.е. с риск за грешка 5%, доверителният интервал на относителния дял на лицата от цялата генералната съвкупност, от която е формирана извадката и които обичат шоколад, е



(0,4674246; 0,7427809)

Т.е. те са между 46,74% и 74,28% от лицата в цялата генерална съвкупност.

Сега да сравним този резултат с резултата, получен по приблизителната формула. Стандартната грешка на оценката е

Тогава максималната грешка на оценката е



Тогава от (12), с равнище на значимост 0,05, търсеният доверителен интервал е



Т.е. с риск за грешка 5%, доверителният интервал на относителния дял на лицата от цялата генералната съвкупност, от която е формирана извадката и които обичат шоколад, е



(0,52 ;0,68],

Т.е. те са между 52% и 68% от лицата в цялата генерална съвкупност.


10.3. Определяне обема на извадката при предварително известна

максимална грешка и гаранционна вероятност
При извадкови проучвания, на практика, изследователят определя обема на извадката преди да е извършил самите наблюдения, в зависимост от поставените си цели. Той първо избира каква да е максималната стохастична грешка и гаранционна вероятност на оценките, които предстои да построи, а после използва формулите ( 6 ) или ( 9 ) и определя обема на извадката. Да обърнем внимание, че това може да стане само ако е известна дисперсията на генералната съвкупност. В повечето случаи тя не е известна. В този случай се правят предварителни проучвания и се построяват нейни приблизителни оценки.

И така да предположим, че сме избрали максималната стохастична грешка и гаранционна вероятност и сме намерили приблизителна оценка на дисперсията на съвкупността, тогава

- при възвратен подбор от ( 6 ) получаваме, че обема на извадката, с която ще извършим бъдещи проучвания трябва да е

( 14 )

- при безвъзвратен подбор от ( 9 ) получаваме, че той трябва да е

(15 )

И от двете формули се вижда, че връзката между обема на извадката и максималната стохастична грешка е обратно пропорционална. Това значи, че при по-малки обеми на извадката - n ще получим по-широк доверителен интервал. Не можем, обаче да намалим неограничено максималната стохастична грешка. Работа на изследователя е да намери оптималния вариант.

Ако определяме n, с цел построяване на доверителен интервал на относителен дял, се използват същите формули, но като заменим в тях  с .

Изложената методология за определяне на обема на извадката може да се използва и при оценка на други параметри на извадката. Това, което се променя е връзката между максималната стохастична грешка на съответния параметър и n, а от тук и вида на формулите ( 14 ) и ( 15 ).

Въпроси към темата:

Покажете защо формули ( 14 ) и ( 15 ) са верни. В кои случаи се използват те?

При една и съща максимална стохастична грешка и гаранционна вероятност, за различни съвкупности еднакъв обем на извадката ли ще получим?
Примерни ситуации и решения:

Пример 1: Търговска организация е получила 100 топа плат от един артикул. Приемателните органи са решили да направят проверка на отклонението в метража на платовете от стандартно определения метраж. От досегашните проверки е установено, че дисперсията по този признак е 160 см. Извадката ще бъде излъчена по лотарийния

а) безвъзвратен подбор;

б) възвратен подбор.

Колко топа плат трябва да бъдат проверени, така че резултатите да се гарантират с риск за грешка 10% и максималното отклонение да е 10 см.?



Решение: а) При 1 - = 1- 0,05 = 0,95 определяме 0,95 квантилът на стандартното нормално разпределение. Той е = 2, по условие N = 100, = 10 см., 2 = 160 и т.к. в тази подточка подбора е безвъзвратен, трябва да използваме формула (15). Получаваме

Следователно трябва да проверим дължините на минимум 7 топа плат, за да можем след пресмятането на средната им да твърдим, с 95% сигурност, че средния метраж на всички топове се различава с по-малко от 10 см. от така определената средна.

б) Независимо от начина на подбиране на единиците в извадката, само от гаранционната вероятност определяме същия 0,95 квантил на стандартното нормално разпределение. Той е = 2. По условие = 10 см., 2 = 160 и като използваме формула (14) получаваме

Или независимо от това дали подбора на топовете е възвратен или безвъзвратен за да получим желаната точност за средния метраж на всичките 100 топа трябва да проверим минимум 7 топа плат.


Задачи за упражнение:

Задача 1: В разсадник се отглеждат за продажба дръвчета. В края на зимата трябва да се определи броя на здравите дръвчета за продан. При изследване на леха от сребрист клен с ширина 1 м., и дължина 500 м., по пътя на изчерпателното изследване е намерен средният брой фиданки на м2. Той е 10 броя. Дисперсията се е оказала 49 броя на м2. Колко метра леха трябва да се наблюдават, за да може да се твърди с риск за грешка 5%, че броят на дръвчетата на м2 е средния брой, пресметнат от извадката  2 бр.



Последна редакция 11.4.2018 г.

Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница