Проверка на хипотези. Правила за проверка. Равенство за проверка. Еднократност за дисперсия. Критерй за откриване на грешка. Дисперсионен анализ



Дата18.12.2018
Размер88.72 Kb.
Проверка на хипотези. Правила за проверка. Равенство за проверка. Еднократност за дисперсия. Критерй за откриване на грешка. Дисперсионен анализ.

Значимост на оценки на параметри и адекватност на модели. Значимост на оценка на параметъра в регресионен модел. Пригодност на модели. Адекватност на теоритични модели и моделни теории. Статистически анализ на аналогови модели

I.Проверка на хипотези

Н
а първо място е хипотезата за математичната структура на модела, която се проверява посредством анализа на адекватност на модела. Не по - малко значение има и хипотезата за факторите, които влияят на процеса, и нейната проверка при определяне значимостта на параметрите. Проверката на хипотезите се свежда до анализиране на някое основно следствие от хипотезата, което най – често представлява случайна величина. За тази цел се използват правила, които представляват критерии за проверка или критерии за значимост.

Като правила за проверка се използват нулевата хипотеза и алтернативната хипотеза. Нулевата хипотеза представлява параметър на разпределението на случайната величина Y е равен на конкретно число а0:
H0: a = a0
Веднага може да се формира и алтернативната хипотеза:
H1: a  a0
За проверка на Но се търси случайна величина ξ(a), зависеща от а. Определя се плътността на ξ при условие, че хипотезата е вярна се построява доверителния интервал на ξ. При доверителна вероятност β и ниво на значимост α = 1 – β. Този интервал има вида:

Редица задачи от статистическия анализ на моделите се свеждат до проверка на хипотезата за равенство на дисперсиите. Нулевата хипотеза има следния вид: H0: σ12 = σ22. За тази цел се използва разпределението на Фишер (F – разпределение):




ако нулевата хипотеза е вярна: σ12 = σ22, то F добива вида:




Доверителният интервал при ниво на значимост 2α e:




А
ко се използва свойството на F – разпределението:


с
е получава непосредствено:
Това дава основание да се използва едностранен критерий при S12 > S22, т.е.:



Ако това уравнение е изпълнено нулевата хипотеза се приема.



Еднородност на дисперсии. За задачи от статистическия анализ е необходимо доказването на на хипотезата за еднородност на няколко дисперсии. Изчислява се случайната величина:



където:


S – e максималната от оценките S1, ..., Sk.

Изчислената стойност за G се сравнява с табличните стойности на G ( α, k, ν ) при зададено ниво на значимост, с брой на извадките к и обеми n (ν = n – 1). Условието: G  G(α, k, ν ) потвърждава нулевата хипотеза.



Критерий за откриване на груби грешки. Наличието на груби грешки може да компрометира резултатите от статистическия анализ на наблюдения, които се базират на предпоставката за случайност на всички грешки. Това налага предварителното откриване на грубите грешки и отстраняване на наблюденията. Това става чрез отклонението на грубата грешка y* от оценката на математичното очакванe my и сравнението на тази разлика с оценката на средноквадратичното отклонение. За целта се изчислява случайната величина:
И се сравнява с табличните стойности за  = (1 – ,n). Ако  (1– , n), y* не е резултат на груба грешка.

Дисперсионният анализ на влиянието на фактора А върху целевата функция y изисква наличието на експериментални данни yij при Аi нива на факторите, като при всяко ниво на фактора се провеждат n опита. Ако с i означим математичното очакване на експериментални данни на всяко ниво на А, проверката на хипотезата:


позволява да се определи влиянието на фактора. Той не влияе на целевата функция, ако хипотезата Н0 е вярна. За определяне на математичните очаквания трябва да се определят средно аритметичните резултати от опитите:

Фактора А не влияе на случайната величина y, ако дисперсията свързана с неговото влияние е еднаква с дисперсията в резултат на експерименталните грешки. В този смисъл е удобно да се изследва случайната величина:

Отношението на двете случайни величини имат разпределение на Фишер. От това следва, че при:

Фактора А не влияе на случайната величина, тъй като се доказва хипотезата:

В противен случай влиянието на фактора е значимо.


II. Значимост на параметри и адекватност на модели

Основна задача на статистическия анализ на моделите е проврката на значимостта на оценките на параметрите и адекватността на моделите. Решаването на тези задачи се свеждат до доказването на две статистически хипотези. В първия случай се доказва хипотезата:

b=0, където b е оценката на разглеждания параметър. Във втория случай се доказва хипотезата Н: 2 =2, където 2 е дисперсията на модела, а 2 - на експерименталните данни. Статистическия анализ на значимостта на коефицентите на регресията се прави посредством доказване на хипотезата за наличие на нулеви коефиценти. Предполага се, че коефицентите в модела са независими. Незначимостта на оценката може да се определи разпределението на Стюдънт, което в този случай има вида:

При зададено ниво на значимост  може да се намери табличната стойност на Стюдънт:

kъдето:

За коефицента bi потвърждава хипотезата bi = 0, т.е. този коефицент е независим.



Използването на модели за симулиране на процеси е коректно само след доказване на тяхната адекватност. Тя зависи от удачния избор на математичната структура и точното изчисляване на параметрите в нея. След оценката на значимостта на параметрите, адекватнотта зависи от правилния избор на вида и броя на функциите fi (i = 1, …, k):

Методите за проверка на адекватността не зависи от структурата на модела и формата на неговото представяне. Определят се от наличието на няколкократни измервания на целевата функция при постоянни стойности на факторите за един или няколко режима на протичане на процеса. Трябва да се докаже хипотезата за равенство на дисперсията на грешката на модела с дисперсията на грешката на експеримента.

Например, когато статистическият анализ на адекватността на модела се прави на базата на n допълнителни експеримента при един режим за модел, чиито коефициенти са получени от данните на N експеримента. За тази цел се използва остатъчната сума от квадратите:

където:


ŷu е изчислената стойност на y посредством модела:

Qост е случайна величина, изразяваща грешката на модела.

Оценката на нейната дисперсия се получава от:

където:


ост =N – k е броя на степените на свобода.

Това се определя от общия брой на опитите N и броя на линейните връзки между y­u в:


Дисперсията на случайната грешка на експериментите S2 се изчислява непосредствено от (9) и (10), което позволява да се определи дисперсионното отношение:

където: Sост2 >S2, тъй като с Sост2 се отчита не само неадекватността на модела, но и грешката на експериментите.

Условието за адекватност на модела е:

където: F( ост,  ) е табличната стойност на разпределението на Фишер.

Друг пример представлява наличието на повторни наблюдения, където за оценка на дисперсията на грешката на експеримента S2 не е необходимо провеждането на допълнителни експерименти.

Ако p е номерът на експеримента (p = 1, … , n ), а q – номера на наблюденията за експеримента p (q = 1, …, Vp), за общия брой на експериментите може да се напише:

В този случай може да се запише:


Qост = QL + Q ,
където:

QL е свързана с неадекватността на модела (системна грешка);

Q е свързана с грешката на експеримента (случайна грешка).

Броят на степените на свобода се получават аналогично:


Проверка за адекватност се прави чрез изчисляване на оценките на дисперсиите и дисперсионното отношение:

и сравняване с табличната стойност на разпределението на Фишер F( ост,  ). Условието за адекватност на модела е: F  F( ост,  ).

В някои случаи няма възможност за повторни експерименти за определяне на S2. Това се получава при използване на данни от пасивен експеримент за определянето на параметрите b, напр. При моделиране на биотехнологични процеси. В тези случаи пригодността на модела за целите на симулирането може да се оцени въз основа на коефициента на множествена корелация R. Това изисква определянето на сумата:


и нейното определяне като:

Броят на степените на свобода за сумите Q, QR и Qост се определя от:


  N – 1, R = k – 1, ост = N – k.
Коефициентът на множествена корелация има вида:

Условието за пригодност на модела е R да бъде по–близо до единица, но са възможни случаи, когато R=1, а модела да не е адекватен.

Параметрите в теоретичните модели и моделните теории се смятат за точно зададени, т.е. не са случайни величини и отпада необходимостта от тяхното определяне и проверка за значимост.

Целевата функция в теоретичните модели има вида:


ŷ = (x1, …, xm; 1, …, k)
Характеризира се с това, че параметрите 1, …, k участват с истинските си стойности и като превило  е линейна по отношение на 1, …, k.

Наличието на експериментални данни за целевата функция yu при N различни режими x1u, …, xmu, u = 1, …, N позволява да се изчисли остатъчната сума от квадратите:

където ŷu се изчислява от модела:
ŷu = (x1, …, xm; 1, …, k), u = 1, … N.
Тук ŷu не е случайна величина, тъй като може да бъде изчислена точно от точни стойности на x и . Поради тази причина степените на свобода на Qост е ост = N, което позволява да се определи оценката на нейната дисперсия:

След изчисляване на дисперсионното отношение:


условието за адекватност на теоретичния модел е:


F  F(, N, n – 1),
където F(, N, n – 1) е табличната стойност на разпределението на Фишер при ниво на значимост .

Параметрите на аналоговите модели се определят от експериментални данни и са случайни числа. Определянето на тяхната значимост, когато са в размерен вид е лишено от физически смисъл. Това може да се направи при безизмерната форма на параметрите с методи на обобщения анализ.

Статистическият анализ на адекватността на аналоговите модели се затруднява силно от нелинейността на целевата функция по отношение на параметрите. Поради тази причина адекватността на аналоговите модели се определя като при теоретичните модели с тази разлика, че ŷu (n = 1, …, N) е случайна величина поради грешките в определянето на b1, …, bk. Това води до проблем при определянето степените на свобода ост, което може да се направи с известно приближение както при линейните регресии ост = N – k. Тогава има вида:

Разгледаните модели за статистически анализ на моделите са валидни при условие, че са налице три основни предпоставки:



  1. Целевата функция е нормално разпределена случайна величина;

  2. Дисперсията на грешката на всички експерименти е еднаква;

  1. Грешката при измерването на факторите е пренебрежима по отношение на грешката от измерването на целевата функция.


База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница