Лекции по Въведение в статистиката

Изтегляне 122.39 Kb.

Дата	02.02.2018
Размер	122.39 Kb.
	#53738

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg

Тема 10. Статистическа оценка на параметри. Точкови оценки. Интервални оценки.

Оценката е отражение на действителността. Зависи от “лещата”,

която пречупва светлината.
На практика често пъти не можем да извършим наблюдения върху цялата генерална съвкупност, а само върху част от нея, т.е. върху извадка. По тази причина не можем да установим параметрите на съвкупността, а пресмятаме само числовите характеристики на извадката. Ако тя е репрезентативна (представителна), на основата на характеристиките й правим заключения за неизвестните параметри на генералната съвкупност. Колкото и правилно да сме подбрали статистическите единици, попадащи в извадката, не можем да пренебрегнем случайния й характер. По тази причина, в основата на тези заключения стои Теорията на вероятностите. Така статистическата съвкупност се анализира в някакво приближение. Числовите характеристики, получени от извадката се наричат точкови оценки. В тази лекция ще разберем каква трябва да е една оценка за да е добра и защо, например вместо първия параметър на нормалното разпределение, т.е. вместо математическото му очакване, се използва средното аритметично, а вместо дисперсия - S_n².

10.5. Точкови оценки

Точкова оценка или статистика се нарича всяка функция на извадката, която приемаме за стойност на неизвестния параметър.

Да предположим, че се интересуваме от средната брутна печалба на един работещ, във всички фирми в България, занимаващи се с разглеждана от нас дейност. Един изследовател ще оцени неизвестното средно с медианата, друг със средното аритметично, а трети - с модата. Кой от тримата ще даде по-точна оценка? За да отговорим на този и подобни въпроси, първо трябва да разгледаме някои свойства на оценките.

Да предположим, че разполагаме с извадка X₁, X₂, …, X_n, от n на брой наблюдения върху някакъв метриран признак. От теоретична гледна точка това са реализациите на n на брой еднакво разпределени случайни величини x₁, x₂, …, x_n с една и съща функция на разпределение F. Търсим оценка за функцията t(q) на неизвестния параметър q в това разпределение. Ще означаваме стойността на оценките на t(q) с t_n(X₁, X₂, …, X_n), а техния теоретичен еквивалент с t_n(x₁, x₂, …, x_n). Теоретичният еквивалент на оценката е случайна величина, а t_n(X₁, X₂, …, X_n) е една реализация на тази случайна величина.

Една оценка t_n(x₁, x₂, …, x_n) се нарича неизместена оценка за t(q) ако математическото й очакване е равно на оценяваната функция t(q) т.е. ако

Е t_n(x₁, x₂, …, x_n) = t(q).

Нататък, когато е необходимо да уточним дали става въпрос за емпиричния или теоретичния вариант на различните числови характеристики, ще пишем след тях съответно (X₁, X₂, …, X_n) или (x₁, x₂, …, x_n).

От свойствата на математическото очакване лесно се проверяват следващите резултати.

Средното аритметично на x₁, x₂, …, x_n е неизместена оценка за математическото очакване на наблюдаваната величина.
s_n(x₁, x₂, …, x_n) = е слабо изместена оценка за стандартното отклонение на разпределението на наблюдаваната величина.

Дисперсията S²_n(x₁, x₂, …, x_n) е неизместена оценка за дисперсията на разпределението на наблюдаваната величина.

Да припомним, че при пресмятането на тази характеристика по данни от извадка, претеглената формула има вида:

При това

Емпиричната функция на разпределение F_n е неизместена оценка за теоретичната функция на разпределение F на наблюдаваната величина.

Известно е още, че не могат да се получат неизместени оценки за централните моменти от ред, по-голям от обема на извадката.

За една и съща характеристика на генералната съвкупност може да има

повече от една неизместени оценки. Коя от тях да изберем?

Да си припомним, че когато дисперсията на оценката е крайна е в сила неравенството на Чебишов

Разликата се нарича систематична грешка на оценката.

Числото

се нарича надеждност на оценката с точност e > 0.

Естествено е да заключим, че оценката е толкова по-ефективна, колкото по-малка е дисперсията й. Така тя ще има най-малко разсейване около средното си значение и най-близка стойност до оценявания параметър. Да припомним, че според определението на понятието “неизместеност”, оценяваният параметър съвпада със средното значение на оценката. От математическата статистика е известно, че ако съществува неизместена оценка с минимална дисперсия, то тя е единствена и се нарича ефективна оценка. Ако не съществува ефективна оценка, се търси друга функция на извадката, която при увеличаване на обема на извадката се стреми към оценявания параметър. Такива оценки се наричат – състоятелни. При увеличаване на броя на единиците в извадката дисперсиите на тези оценки намаляват. Ще дадем само по-важните за нас твърдения, които се отнасят до състоятелност на оценките.

Средното аритметично и медианата са състоятелни оценки за средното значение на разпределението на наблюдаваната величина.
Дисперсията на извадката S²_n е състоятелна оценка за дисперсията на наблюдаваната величина.
Емпиричната функция на разпределение F_n е състоятелна оценка за теоретичната функция на разпределение F на наблюдаваната величина.
Емпиричните квантили (при 1:n£ p £ (n-1):n) са състоятелни оценки за съответните квантили на теоретичната функция на разпределение F на наблюдаваната величина.
Нека са независими наблюдения над случайния вектор (x, h). Тогава е неизместена и състоятелна оценка за cov(x, h).

Нека са независими наблюдения над случайната величина x, която има крайни моменти от степен 2к. к-тият централен момент е състоятелна оценка за Е(x-Ex)^k.

10.5 Интервални оценки
Точковите оценки предлагат за неизвестния параметър на изучавания признак конкретно число. Ако вече сме построили такава оценка, например за средната на разглеждания признак и извършим нови наблюдения, средната на новата извадка, в общия случай ще се отклонява от старата оценката за средната на разглеждания признак. По тази причина е за предпочитане да получим цял интервал, в който попада неизвестният параметър, с избрана от нас вероятност 1 - a  (0, 1). Т.е. търсеният интервал е такъв, че ако направим достатъчно на брой извадки, в (1 - a)100% от тях неизвестният параметър ще се намира в получения от нас доверителен интервал. В този случай говорим за интервална оценка и доверителен интервал. a (0, 1) се нарича ниво на доверие или равнище на значимост, а 1 - a - гаранционна (доверителна) вероятност. Колкото a е по-близо до 0, толкова доверителният интервал (доверителното множество) е по-широк(о). Обикновено се работи с a Î [0.01, 0.05].

Задачата за определянето на доверителен интервал на един неизвестен параметър изглежда така: Разполагаме с извадка X₁, X₂, …, X_n, от n на брой наблюдения върху една и съща величина (метриран признак). Търсим две числа а_n(X₁, X₂, …, X_n) и в_n(X₁, X₂, …, X_n) такива, че неизвестният параметър q да попада в интервала (а_n(X₁, X₂, …, X_n), в_n(X₁, X₂, …, X_n)] с вероятност 1- a, т.е.

( 1 ) P(а_n(x₁, x₂, …, x_n) £ q < в_n(x₁, x₂, …, x_n)) = 1- a.

За така избраното от нас a можем да построим много доверителни интервали, обикновено се използва този, чиято дължина е минимална или който удовлетворява условието

( 2 ) P(а_n(x₁, x₂, …, x_n) > q ) = P(q ³ в_n(x₁, x₂, …, x_n)) = a/2.

В случите, когато едното от а_n(X₁, X₂, …, X_n) = -¥ или в_n(X₁, X₂, …, X_n) = ¥ говорим за едностранен доверителен интервал.

При дискретни разпределения се преминава към консервативни граници, т.е. взема се най-късият интервал такъв, че

P(а_n(x₁, x₂, …, x_n) £ q < в_n(x₁, x₂, …, x_n)) ³ 1 - a

Алгоритъм за определяне на доверителен интервал на средното на нормално разпределена съвкупност с известна дисперсия.

Да се спрем по-подробно на алгоритъма за определяне на доверителен интервал на средно-то на нормално разпределена съвкупност с известна дисперсия. Нека са извършени n на брой независими наблюдения X₁, X₂, …, X_nс възвратен подбор, върху нормално разпределена случайна величина с математическо очакване q, т.е. x₁, x₂, …, x_n са независими, еднакво нормално разпределени и q е неизвестният параметър. От математическата статистика е известно, че средната аритметична е най-добрата оценка на математическото очакване. Освен това тя е също нормално разпределена с математическо очакване q и с дисперсия

. Тогава

~ N(0, 1).

Определяме квантилите x₁ и x₂ на разпределението на _n така, че

P( x₁ £ _n < x₂ ) = 1 - a.

Разпределението на _n е симетрично относно ординатната ос, тогава за да получим възможно най-тесен доверителен интервал трябва

( 3 ) х₁ = - х₂

Задачата ни ще бъде решена ако намерим едно от числата х₁или х₂ (ние ще изберем х₁) такова, че

( 4 ) P(-x₁ £ _n < x₁) = F ( x₁) - F (-x₁) = F (x₁) – (1 - F (x₁) ) = 2F (x₁) – 1 = 1 - a,

където F (x) е функцията на разпределение на стандартно нормално разпределена случайна величина. После използваме ( 3 ) за да намерим x₂.

От последното равенство получаваме F (x₁) = 1-a/2. Тогава x₁ е 1-a/2 квантилът на стандартното нормално разпределение. Означаваме го с z_1-_a_/2 и получаваме

P( -z_1-_a_{/ 2} £ < z _1-_a_{/ 2} ) = 1 - a.

С еквивалентни преобразувания, когато в средата на полученото неравенство оставим само q, в ляво от неравенството получаваме търсената оценка а_n, а в дясно - в_n. Т.е. търсените краища на доверителния интервал са

т.е. с вероятност 1-a, средното на наблюдавания признак се покрива от интервала

В приложната статистика, величината

( 5 )

се нарича стандартна стохастична грешка на средната аритметична, а z_1-_a_/2 – гаранционен множител.

( 6 )

се нарича максимална стохастична грешка или още точност на оценката.

В случаите, когато съвкупността не е нормално разпределена и извадката е достатъчно голяма по обем се използва Централната гранична теорема. Тя гласеше, че асимптотичното разпределение на средното аритметично на всяка извадка от наблюдения върху съвкупност с крайна дисперсия е нормално. С други думи при голям обем на извадката можем да приложим горния алгоритъм за намиране на доверителен интервал на средното на съвкупност с произволно разпределение и с крайна дисперсия.

С какво може да ни бъде полезен Excel в случая:

За да построим доверителен интервал за средното на такава генерална съвкупност можем да използваме функцията CONFIDENCE(; ; n).

Алгоритъм за определяне на доверителен интервал на средното на нормално разпределена съвкупност с неизвестна дисперсия.

Често пъти стандартното отклонение s на генералната съвкупност не е известно. В този случай, при определянето на доверителния интервал се използва неговата неизместена оценка

. От

получаваме, че една подходяща статистика в случая е

_n := .

По тази причина определяме 1-a/2 квантилите на разпределението на _n (т.е. z_1-_a_/2) не от таблиците на стандартното нормално разпределение, а от таблиците на разпределението на Стюдънт с n-1 степени на свобода. За доверителния интервал в този случай получаваме

( 7 )

Поради приликата на стандартното нормално разпределение и разпределението на Стюдент t(n) при n  30 няма особено голямо значение кой от горните два алгоритъма ще използваме.

Когато подборът е с връщане и обемът на извадката не е много по-малък от обема на генералната съвкупност, стандартната грешка е по-малка в сравнение с тази, определена по формула (5) и оценката й трябва да се коригира. В този случай

( 8 )

където N е обемът на генералната съвкупност, n – обемът на извадката, а

( 9 )

Доверителният интервал за средната на генералната съвкупност, в този случай (при известна дисперсия на генералната съвкупност) е

( 10 )

Когато дисперсията на генералната съвкупност не е известна заменяме s със .

Ако построяваме доверителен интервал на вероятността р на събитието А постъпваме по аналогичен начин. Абсолютната честота на А, т.е. m_n(А) ~ Bi(n; p). Поради неудобствата при използване на биномната функция на разпределение, ако n е достатъчно голямо можем да използваме нейното нормално приближение, т.е. при достатъчно големи n

Тогава при доверителна вероятност 1-a имаме

което е все едно

( 11 ) .

Преработваме неравенствата с еквивалентни преобразувания, така че в средата да остане само р и получаваме

Тъй като при големи n почти сигурно в (11) на практика често се сменят местата на m_n(A) и np получаваме по-лесен за използване, но по-неточен доверителен интервал

( 12 ) .

Изложената методология за определяне на доверителен интервал може да се използва и при оценка на други параметри на извадката. Това, което се променя е разпределението на оценката на съответния параметър q, а от тук и вида на максималната стохастична грешка на съответния доверителен интервал.

Доверителен интервал на дисперсията на нормално разпределена съвкупност с известно математическо очакване а.

Нека са извършени n на брой независими наблюдения X₁, X₂, …, X_nвърху нормално разпределена съвкупност, т.е. x₁, x₂, …, x_n са независими, еднакво нормално разпределени случайни величини с неизвестна дисперсия s. От математическата статистика е известно, че

_n = .

Определяме квантилите на разпределението на _n така, че

P(x₁ £ _n £ x₂) = 1 - a.

Получаваме, че x₂ е 1-a /2 квантилът наc²-разпределението с n степени на свобода, а x₁ е a/2 квантилът на същото разпределение. Тогава

£ s² <

) = 1 - a.

Търсените краища на доверителния интервал са и .

Това означава, че с вероятност 1-a, дисперсията на съвкупността се покрива от интервала

Определяне на доверителен интервал на дисперсията на нормално разпределена съвкупност с неизвестно средно.

Нека са извършени n на брой независими наблюдения X₁, X₂, …, X_nвърху нормално разпределена съвкупност, т.е. x₁, x₂, …, x_n са независими, еднакво нормално разпределени с неизвестна дисперсия s и с неизвестно математическо очакване. От математическата статистика е

известно, че е най-добрата оценка на s². При това

_n = .

Определяме квантилите на разпределението на _n така, че

P( x₁ £ _n £ x ₂ ) = 1 - a.

Получаваме, че x₂ е 1-a / 2 квантилът наc²-разпределението с n-1 степени на свобода, а x₁ е a/2 квантилът на същото разпределение. Тогава

£ s² <

) = 1 - a.

Търсените краища на доверителния интервал са и .

Това означава, че с вероятност 1-a, дисперсията на съвкупността се покрива от интервала

Въпроси:

1. Кои оценки са най-добри?

2. Ако разполагате с данни от репрезентативна извадка, посочете добри оценки за математическото очакване, дисперсията и емпиричната функция на разпределение на изучавания признак. Обосновете защо избрахте точно тях.

3. Защо се налага при построяване на доверителен интервал на средното на генерална съвкупност да центрираме и нормираме случайните величини и какво означава това?

4. Начертайте графиката на плътността на стандартното нормално разпределение. Посочете мястото на дискутирания гаранционен множител z_1-_a_/2. Обяснете в какви съотношения правата, която минава през него и е успоредна на ординатната ос, разделя лицата под кривата на плътността? Колко е цялото лице на фигурата под кривата на плътността? Само за нормалното разпределение ли е толкова това лице или и за под другите графики на плътността е също толкова?

5. В различните задачи при едно и също ниво на доверие един и същ гаранционен множител ли се получава?

6. Променят ли се стандартната стохастична грешка и максималната стохастична грешка ако данните са различни, а гаранционния множител е един и същ?

7. При една и съща максимална стохастична грешка и гаранционна вероятност, за различни съвкупности еднакъв обем на извадката ли ще получим?

Последна редакция 02.2.2018 г.

Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език

Изтегляне 122.39 Kb.

Сподели с приятели: