Обработка на масив от данни въвеждане на изходни данни и построяване на хистограми



Дата14.04.2017
Размер71.16 Kb.
#19205
ОБРАБОТКА НА МАСИВ ОТ ДАННИ
1. Въвеждане на изходни данни и построяване на хистограми

Има явления в природата, които протичат по определен начин, който не се променя при повтарянето им при същите условия. За такива явления са в сила физическите закони, изразени с математически формули. Но има и явления, които протичат многократно при едни и същи условия, но всеки път по „непредвидим” начин – тях наричаме случайни. За изучаване на случайните явления можем да си служим с модели. Когато възможните резултати са повече от един и не може да се определи точно кой от тях ще се реализира, експеримента се нарича стохастичен или случаен. Резултатите на един стохастичен експеримент ще наричаме елементарни събития и ще ги означаваме с . Множеството от всички елементарни изходи на експеримента ще наричаме пространство на елементарните събития и ще го означаваме с . Дискретната случайна величина е функция, стойностите на която образуват крайна или безкрайна числова редица и всяка стойност се реализира с определена вероятност – това е вероятността функцията да бъде равна на стойността в един стохастичен експеримент. Има дискретни случайни величини и непрекъснати случайни величини. Графичната визуализация на формираното честотно разпределение на случайната величина е чрез хистограма. За нейното построяване е необходимо да се определят: броя на интервалите; големината на всеки интервал (най-често големината на интервала е постоянен); броя на наблюденията във всеки интервал.



Задачи за изпълнение

  • Въведете масива от данни за обработка;

  • Определете броя на елементите и минималния и максималния елементи. За извеждане на числените стойности използвайте функцията fprintf;

  • Постройте хистограмата на разпределение на данните. Броя на интервалите на хистограмата с постоянна широчина да се определи от опитно определена зависимост ; . При изобразяването на хистограмата за прегледност добавете по 5% от нейната широчина в двата и края. За построяване на хистограмата използвайте функцията hist , а за определяне на границите по абцисната ос функцията xlim.


2. Числови характеристики на случайните величини

Основните числови характеристики, които характеризират случайната величина са математичното очакване , дисперсията , средноквадратичното отклонение , асиметрия и ексцес . Те се определят чрез следните формули:





.

Математическото очакване се получава като сума от наблюденията разделена на броя им. Дисперсията, респективно средното квадратично отклонение, характеризират разсейването на стойностите на случайната величина спрямо математичното очакване. Колкото разсейването е по-малко толкова и числените стойности на тези величини са по-малки. Дисперсията се нарича още момент от втори ред, защото се определя от квадрата на разликите на стойностите и математичното очакване. Моментът от трети ред се нарича асиметрия и отразява несиметричността на графиката на плътността на вероятността . При положителна асиметрия графиката на е изтеглена надясно, а при отрицателна – наляво. Симетричната отляво и отдясно графика има асиметрия равна на нула. Моментът от четвърти ред се нарича ексцес. Той изразява „издигнатостта” на графиката на вероятностната плътност в средната й част. Както асиметрията, така и ексцесът са характеристики на всяка непрекъсната случайна величина, но те са избрани в този вид, като е използвана конкретна случайна величина, избрана за еталон, асиметрията и ексцесът на която са равни на нула. Тази случайна величина има нормален закон на разпределение.



Задачи за изпълнение:

  • Изчислете посочените числови характеристики на случайната величина по дадените стойности;

  • Отпечатате получените резултати посредством функцията fprintf.


3. Определяне закона на разпределение и неговите параметри

Законът за теоретичното разпределение се определя от формата на хистограмата. Предполагаме, че законът за разпределение е един от четирите вида:



  • Нормално разпределение – плътност на вероятността , закон за разпределение . Параметрите на закона са равни съответно на математичното очакване и средноквадратичното отклонение определени от извадката: , ;

  • Показателно (експоненциално) разпределение – плътност на вероятността , закон за разпределение . За показателното разпределение параметъра се определя от израза ;

  • Равномерно разпределение – плътност на вероятността , закон за разпределение . Параметрите на равномерното разпределение и са равни на

, ;

  • Релеевско разпределение – плътност на вероятността , закон на разпределение . Параметърът за разпределението се определя от израза .


Задачи за изпълнение:

  • Изчислете и изведете параметрите на посочените закони за разпределение;

  • Постройте на една графика теоретичните и емпиричната плътност на разпределение. Емпиричната плътност на разпределение това е същата хистограма, за която мащабът по ординатната ос се променя по такъв начин, че площта под кривата да бъде равна на единица. За тази цел стойностите по ординатната ос трябва да се разделят на , където - броя на експерименталните данни, а - широчината на интервала при построяване на хистограмата. Кривите на отделните плътности на разпределение да се изчертаят с различни цветове.


4. Проверка на статистически хипотези

Всяка хипотеза за вида на разпределението на някоя случайна величина, или за параметрите, от които то зависи, наричаме статистическа хипотеза. Статистическите хипотези подлежат на проверка. Те се проверяват върху модели, съставени от случайни величини. Тези специални случайни величини, които служат за проверка на хипотези, се наричат статистически критерии. Част от стойностите на този критерии ще съответстват на вярна хипотеза – тяхното множество се нарича област за приемане на хипотезата. Други стойности ще съответстват на грешна хипотеза. Тяхното множество ще наричаме област на отхвърляне на хипотезата или критична област. Точката, която разделя двете области се нарича критична точка . Един такъв критерии е критерия на съгласие на Пирсон (или критерии). Ще приложим този критерии върху извадката при хипотеза за нормално разпределение. Разглеждат се същите интервали, за които е построена хистограмата. Емпиричните числа на попаденията в тези интервали сравняваме с теоретичния брой на попадения , където е вероятността за попадението на случайната величина в -тия интервал. По данните от извадката ще получим стойност на критерия . При вярна хипотеза съгласно избрания критерии ще имаме неравенството , като същевременно ще имаме вероятност за нарушаване на неравенството: . Тази вероятност ще наричаме ниво на значимост. Например при избрано ниво на значимост , сумарната квадратична относителна разлика между теоретичното и реално попадение в всеки интервал трябва да изпълнява условието



, където се определя от таблица 1.

Степента на свобода се определя от формулата , където - брой на интервалите в хистограмата, - брой на определените параметри от извадката.


Таблица 1


Задача за изпълнение: Постройте таблица с резултатите, в която да има: номер на интервала (1-вата колона), границите на интервала и (2-рата и 3-тата колона), практическия брой на попаденията (4-тата колона), вероятността за попадение в интервал (5-тата колона), теоретичното число за попадения (6-тата колона) и стойността (7-мата колона). Вероятността за попадение в -тия интервал се изчислява по формулата . Стойностите на функцията на Лаплас се изчислява от таблица 2.

Таблица 2


Не винаги процедурата при проверка на хипотези приключва с правилно решение. Това е така, тъй като проверката е един несигурен процес – използва се ограничена информация (от извадката), за да се направи заключение за стойността на неизвестен популационен параметър. Нулевата хипотеза, която проверяваме, може да бъде в действителност вярна или не. Статистически нулевата хипотеза може да бъде приета или отхвърлена. В таблица3 са показани възможните правилни и неправилни изводи, свързани с проверката на хипотези. Ако нулевата хипотеза е вярна, процедурата по проверка би показала, че трябва да приемем , ако разполагаме с наблюденията на голям процент от всевъзможните извадки. Понякога може да се стигне и до извода, че трябва да отхвърлим , която в действителност е вярна. Това наистина би било една досадна и неприятна грешка, която ще наричаме грешка от I-ви род. Вероятността за допускане на грешка от I-ви род не бива да е по-голяма от - нивото на съгласие, което има близки до нула стойности. Така още със започване на процедурата по проверка на хипотези изследователят сам осъзнава и задава оная максимална вероятност , с която може да отхвърли вярната в същност нулева хипотеза. Например, ако взетото решение в 5 от 100 случая сигурно ще бъде неправилно. Вероятностите за приемане и отхвърляне на вярна нулева хипотеза са съответно и .

Таблица 3






В действителност е

Решение за

Вярна

Невярна

Приемане за вярна

Правилно решение -

Неправилно решение грешка от II-ри род -

Отхвърляне

Неправилно решение грешка от I-ви род -

Правилно решение -


Задачи за изпълнение:

  1. Разучете Matlab-инструмента "dfittool"

  2. Чрез "dfittool" открийте теоретичното статистическо разпределение, отговарящо на дадената емпирична информация.

  3. Разучете свойствата на най-често срещаните статистически разпределения: Гаусово (нормално), биномно, Поасоново, унитарно.


Използвани специализирани Matlab-функции в това упражнение: sort(); length(); min(); max(); hist(); xlim(); mean(); std(); normpdf(); exppdf(); unifpdf(); raylpdf(); dfittool








Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница