Самостоятелна работа №2
Задача 2:
В таблицата по-долу са подредени регистрираните индивидуални възрасти на 70 работника от фирма “Х” към 31.12.2012 година:
20
|
21
|
22
|
22
|
23
|
24
|
24
|
25
|
26
|
27
|
28
|
29
|
29
|
29
|
30
|
30
|
30
|
31
|
31
|
32
|
32
|
33
|
33
|
34
|
34
|
35
|
36
|
36
|
37
|
38
|
38
|
39
|
39
|
39
|
40
|
40
|
41
|
41
|
41
|
42
|
43
|
44
|
44
|
45
|
46
|
46
|
46
|
47
|
47
|
47
|
47
|
48
|
49
|
49
|
50
|
50
|
50
|
50
|
51
|
51
|
52
|
53
|
53
|
54
|
55
|
56
|
57
|
57
|
58
|
59
|
1/. Да се групират резултатите в интервали и да се попълни таблицата:
li=1 ; lr
|
20-25,6
|
25,6-31,2
|
31,2-36,8
|
36,8-42,4
|
42,4-48
|
48-53,6
|
53,6-59,2
|
Ср.mi
|
22,8
|
28,4
|
34
|
39,6
|
45,2
|
50,8
|
56,4
|
fi
|
8
|
11
|
9
|
12
|
12
|
11
|
7
|
Σ fi:
|
70
|
70
|
70
|
70
|
70
|
70
|
70
|
Pi=fi:n
|
0,11
|
0,16
|
0,13
|
0,17
|
0,17
|
0,16
|
0,10
|
Σpi
|
1
|
1
|
1
|
1
|
1
|
1
|
1
|
Σpi%
|
11
|
16
|
13
|
17
|
17
|
16
|
10
|
Кумулативна честота
|
8
|
19
|
28
|
40
|
52
|
63
|
70
|
Относителна кумулативна честота
|
0,11
|
0,27
|
0,4
|
0,57
|
0,74
|
0,9
|
1
|
Относителна кумулативна честота в %
|
11
|
27
|
40
|
57
|
74
|
90
|
100
|
За определяне на ширината на интервала ще използваме формулата , защото не е определен предварително броят на групите.
= 39/ (1+3,222lg70)=39/ . (1+3,222.1,845)=39/6,94459=5,6
2/. Да се построят хистограмата и полигонът и да се оцени вида на разпределението. Какво показва натрупаната релативна честота за третият интервал?
Хистограмата е графично представяне на честотното разпределение на дадена променлива посредством правоъгълни стълбове, чиито лице е пропорционално на честотата на случаите.
Линейната диаграма се нарича полигон на честотите. Това е точкова диаграма при която измерванията са нанесени по хоризонталата и се свързват с отсечки, така, че да образуват крива.
Задача 4:
Дадено е разпределението на 60 работника от фирма “Х” по възраст към 10.01.2011г.
Интервал по възраст
|
Брой работника
(f)
|
х”
|
х” f
|
20-30
|
8
|
25
|
200
|
30-40
|
20
|
35
|
700
|
40-50
|
22
|
45
|
990
|
50-60
|
6
|
55
|
330
|
Над 60
|
4
|
65
|
260
|
Общо
|
60
|
-
|
2480
|
Да се пресметнат средните алгебрични – средна аритметична; средна хармонична; средна геометрична; както и средните позиционни величини - медиана, мода, 15-я процентил; третия квартил, както и да се дадат съответни тълкувания.
Решение:
Средната аритметична величина при групирани данни се изчислява по формулата ,
където:
fi са честотите,
х” – средa на интервалa
- средната възраст на работниците във фирма “Х” е 41 години.
Средната хармонична претеглена величина се изчислява по формулата:
Средната възраст на работниците, изчислена с помощта на средна хармонична величина е 39 години.
Медианата се изчислява по формулата:
,
където:
LMe е долната граница на медианния интервал,
CMe-1 са кумулативна честоти в предмедианния интервал,
fMe е броят на единиците в медианния интервал,
h– ширината на интервала на медианния интервал.
За да намерим интервала, който съдържа единицата с пореден номер n/2 или 30, е необходимо да изчислим кумулираните честоти, за да определим медианната група.
Интервал по възраст
|
Брой работника
(f)
|
Кумулативана честота
Cme
|
20-30
|
8
|
8
|
30-40
|
20
|
28
|
40-50
|
22
|
50
|
50-60
|
6
|
56
|
Над 60
|
4
|
60
|
Общо
|
60
|
-
|
Единицата с пореден номер 30 се намира в интервала от 40 до 50 години т.е. това е медианния интервал.
≈ 41 години
Модата при групирани данни се изчислява по формулата:
, където:
LMo е долна граница на модалния интервал,
f са честотите в различните групи,
h е ширината на интервала.
Модалният интервал е интервалът, в който има най-много значения на признака. В конкретния пример има една мода и това е интервала от 40 до 50 години.
години е средната възраст на работниците във фирма “Х”, изчислена чрез модата.
Първи квартил се изчислява по следният начин:
Определя се номерът на квартилният случай по формулата: Q1= ∑fi / 4=60/4=15.
За да намерим интервала, който съдържа единицата с пореден номер n/4 или 15, е необходимо да изчислим кумулираните честоти, за да определим квартилната група.
Единицата с пореден номер 15 се намира в интервала от 30 до 40 години т.е. това е квартилния интервал.
≈34 години
Трети квартил се изчислява по следният начин:
Определя се номерът на квартилният случай по формулата: Q3=3 ∑fi/4 =3. 60 /4 = 45
За да намерим интервала, който съдържа единицата с пореден номер 3n/4 или 45, е необходимо да изчислим кумулираните честоти, за да определим квартилната група.
Единицата с пореден номер 45 се намира в интервала от 40 до 50 години т.е. това е квартилния интервал.
≈ 48 години
Задача 6:
Дадено е разпределението на 60 работника във фирма “Х” според средно месечният им трудов доход за 2010 година:
Да се намерят характеристиките на разсейване – размах, квартилно отклонение, линейно отклонение, дисперсия, стандартно отклонение, коефициент на вариация и др. и да се дадат съответните тълкования.
Решение:
- размах - Абсолютен размер:
= 800-300=500 лв.
Относителен размер (коефициент на вариация по размаха):
където:
xmax - максимално значение на признака ;
xmin - минимално значение на признака;
е средната аритметична.
=500/501,67.100=99,67%
- средна аритметична величина - = 30100/60=501,67 лв. е средната работна заплата
Интервал според средномесечния трудовия доход
|
Брой работници
(f)
|
Среда на интервала
x’
|
x’f
|
300-400
|
8
|
350
|
2800
|
400-500
|
26
|
450
|
11700
|
500-600
|
15
|
550
|
8250
|
600-700
|
9
|
650
|
5850
|
700-800
|
2
|
750
|
1500
|
общо
|
60
|
-
|
30100
|
- линейно отклонение (средно аритметично отклонение)
Средно аритметичното отклонение се намира по формулата:
, където:
хi са индивидуалните значения на признака ;
fi - абсолютни честоти (тегла);
е средната аритметична.
За да го изчислим е необходимо да се извършат следните изчисления:
Интервал според средномесечния трудовия доход
|
Брой работници
(f)
|
Среда на интервала
x’
|
|х-|
|
|х-|f
|
300-400
|
8
|
350
|
151,67
|
1213,36
|
400-500
|
26
|
450
|
51,67
|
1343,42
|
500-600
|
15
|
550
|
48,33
|
724,95
|
600-700
|
9
|
650
|
148,33
|
1334,97
|
700-800
|
2
|
750
|
248,33
|
496,66
|
общо
|
60
|
-
|
|
5113,36
|
лв.
Относителен размер (коефициент на вариация по средно аритметично отклонение):
=85,22/501,67.100=16,99%
Средно квадратично(стандартно) отклонение.
където:
хi са индивидуалните значения на признака ;
fi - абсолютни честоти (тегла);
е средната аритметична.
Интервал според средномесечния трудовия доход
|
Брой работници
(f)
|
Среда на интервала
x’
|
(х-)
|
(х-)2
|
(х-)2f
|
300-400
|
8
|
350
|
-151,67
|
23003,79
|
184030,3
|
400-500
|
26
|
450
|
-51,67
|
2669,789
|
69414,51
|
500-600
|
15
|
550
|
48,33
|
2335,789
|
35036,83
|
600-700
|
9
|
650
|
148,33
|
22001,79
|
198016,1
|
700-800
|
2
|
750
|
248,33
|
61667,79
|
123335,6
|
общо
|
60
|
-
|
-
|
-
|
609833,3
|
Относителен размер (коефициент на вариация по средно квадратично отклонение):
=100,82/501,67*100=20,09%
Дисперсия.
=10163,89 лв.
Извод:
Разсейването в средната работна заплата, изчислено чрез средноаритметично отклонение е ± 85,22 лв., а чрез стандартното отклонение е съответно ± 100,82 лв. от оценката на средната работна заплата на един работник от фирма “Х”. Отклонението е малко и е в размер на 20,09%, което показва, че няма големи различия в заплащането на труда на работниците в анализираната фирма.
Задача 8:
Дадено е разпределението на 60 работника от фирма “Х” по възраст към 10.01.2011г.
Интервал по възраст
|
Брой работника
(f)
|
20-30
|
8
|
30-40
|
20
|
40-50
|
22
|
50-60
|
6
|
Над 60
|
4
|
Общо
|
60
|
Да се намерят стандартното отклонение и коефициентите на асиметрия и ексцес на разпределението и се дадат съответните тълкования.
Решение:
Средната аритметична величина при групирани данни се изчислява по формулата ,
където:
fi са честотите,
х” – средa на интервалa
Интервал по възраст
|
Брой работника
(f)
|
х”
|
х” f
|
20-30
|
8
|
25
|
200
|
30-40
|
20
|
35
|
700
|
40-50
|
22
|
45
|
990
|
50-60
|
6
|
55
|
330
|
Над 60
|
4
|
65
|
260
|
Общо
|
60
|
-
|
2480
|
- средната възраст на работниците във фирма “Х” е 41 години.
Средно квадратично(стандартно) отклонение се изчислява по формулата:
където:
хi са индивидуалните значения на признака ;
fi - абсолютни честоти (тегла);
е средната аритметична.
Интервал по възраст
|
Брой работника
(f)
|
Среда на интервал
|
|
2
|
2 fi
|
20-30
|
8
|
25
|
-16,33
|
266,6689
|
2133,351
|
30-40
|
20
|
35
|
-6,33
|
40,0689
|
801,378
|
40-50
|
22
|
45
|
3,67
|
13,4689
|
296,3158
|
50-60
|
6
|
55
|
13,67
|
186,8689
|
1121,213
|
Над 60
|
4
|
65
|
23,67
|
560,2689
|
2241,076
|
Общо
|
60
|
-
|
|
-
|
6593,334
|
Коефициентът на асиметрия на Пирсън се изчислява по следната формула:.
Модата при групирани данни се изчислява по формулата:
, където:
LMo е долна граница на модалния интервал,
f са честотите в различните групи,
h е ширината на интервала.
Модалният интервал е интервалът, в който има най-много значения на признака. В конкретния пример има една мода и това е интервала от 40 до 50 години.
години е средната възраст на работниците във фирма “Х”, изчислена чрез модата.
Коефициентът на Пирсън > 0 , следователно имаме дясна асиметрия.
Коефициентът на асиметрия на Юл се изчислява по следната формула:.
Медианата се изчислява по формулата:
,
където:
LMe е долната граница на медианния интервал,
CMe-1 са кумулативна честоти в предмедианния интервал,
fMe е броят на единиците в медианния интервал,
h– ширината на интервала на медианния интервал.
За да намерим интервала, който съдържа единицата с пореден номер n/2 или 30, е необходимо да изчислим кумулираните честоти, за да определим медианната група.
Интервал по възраст
|
Брой работника
(f)
|
Кумулативана честота
Cme
|
20-30
|
8
|
8
|
30-40
|
20
|
28
|
40-50
|
22
|
50
|
50-60
|
6
|
56
|
Над 60
|
4
|
60
|
Общо
|
60
|
-
|
Единицата с пореден номер 30 се намира в интервала от 40 до 50 години т.е. това е медианния интервал.
≈ 41 години
Коефициентът на асиметрия на Юл :.
Коефициентът на асиметрия на Юл Кас.> 0, следователно имаме дясна асиметрия.
Коефициентът на асиметрия на Боули се изчислява по формулата:
=
≈ 41 години
≈34 години
≈ 48 години
=този коефициент показва, че има симетрия,
т.е. на лице е симетрично разпределение.
моментният коефициент на асиметрията- той се изчислява по формулата:
Интервал по възраст
|
Брой работника
(f)
|
Среда на интервал
|
|
3
|
3 fi
|
20-30
|
8
|
25
|
-16,33
|
-4354,7
|
-34837,6
|
30-40
|
20
|
35
|
-6,33
|
-253,636
|
-5072,72
|
40-50
|
22
|
45
|
3,67
|
49,43086
|
1087,479
|
50-60
|
6
|
55
|
13,67
|
2554,498
|
15326,99
|
Над 60
|
4
|
65
|
23,67
|
13261,56
|
53046,26
|
Общо
|
60
|
-
|
|
-
|
29550,38
|
=> σ = 10,48 години
=> σ3 =1151,022
=0,43 – счита се, че асиметрията е значителна, когато абсолютната стойност на моментният коефициент на асиметрия е по-голяма от 0,5.
Интервал по възраст
|
Брой работника
(f)
|
Среда на интервал
|
|
4
|
4 fi
|
20-30
|
8
|
25
|
-16,33
|
71112,3
|
568898,4
|
30-40
|
20
|
35
|
-6,33
|
1605,517
|
32110,33
|
40-50
|
22
|
45
|
3,67
|
181,4113
|
3991,048
|
50-60
|
6
|
55
|
13,67
|
34919,99
|
209519,9
|
Над 60
|
4
|
65
|
23,67
|
313901,2
|
1255605
|
Общо
|
60
|
-
|
|
|
2070125
|
=> σ = 10,48 години
- когато ексцесът е отрицателен, върхът на кривата на емпиричното разпределение е под върха на нормалната крива.
Самостоятелна работа №3
Задача 2:
От намиращите се в склада на фирма за пакетиране на брашно 2050 пакета е направена случайна безвъзвратна извадка от 410 пакета и е установено, че 16 от тях имат по-малко от обявеното в опаковката тегло. Да се намери в какви граници се намира относителният дял на пакетите в цялата партида, които имат по-малко тегло при доверителна вероятност 95%.
Решение:
р =16/410=0,04
р +q=1
q=1-p=1-0,04=0,96
n=410
N=2050
P(z)=0,95 => z=1,96
където:
р е относителният дял, получен от данни на извадката;
q = 1 – p;
n е обемът на извадката.
При безвъзвратен подбор:
където:
N – обем на генералната съвкупност.
С вероятност 95% може да се твърди, че максималната стохастична грешка на оценката не възлиза на повече от 1,7% (0,017).
Доверителен интервал на относителен дял:
където:
Р е относителен дял в генералната съвкупност
0,04-0,017
0,023
Резултата показва, че действителният относителен дял на пакетчетата, които имат по-малко от обявеното в опаковката тегло, не е по-малък от 0,023 (2,3%) и не е по-голям от 0,057 (5,7%). Този извод се гарантира с вероятност 0,95 или 95%.
Задача 4:
За да се установи средната фактическа продължителност на работният ден в една фирма трябва да се проведе репрезентативно статистическо изучаване. Какъв трябва да бъде обема на извадката излъчена безвъзвратно, при максимално допустима грешка равна на 20 мин. При доверителна вероятност 95%, ако общият брой на работниците и служителите във фирмата е 2000 души и е известно, че разсейването според средната продължителност на работният ден възлиза на 40 минути.
Решение:
По условие е дадено:
=±20
P(z)=0,95 => z=1,96
N=2000
σ0= 40
n=?
Обемът на извадка при подбор без връщане се определя по формулата:
Обема на извадката излъчена безвъзвратно трябва да бъде 15 души.
Задача 6:
Да се провери с ниво на значимост 2,5% дали произведената партида вино отговаря на стандарта за нетно съдържание 700 милилитра, ако за случайно избрани бутилки са получени следните резултати:
Нетно съдържание в милилитри xi
|
685
|
690
|
697
|
699
|
703
|
705
|
Брой бутилки fi
|
5
|
6
|
8
|
5
|
7
|
3
|
Да се използват данните като пилотна извадка, за да се определи на колко най-малко бутилки трябва да се определи нетното съдържание с цел установяване съответствие със стандарта на значимост 5% и мощност на критерия 99%, ако е допустима разлика от 3 милилитра.
Решение:
Нетно съдържание в милилитри xi
|
685
|
690
|
697
|
699
|
703
|
705
|
Брой бутилки fi
|
5
|
6
|
8
|
5
|
7
|
3
|
xifi
|
|
|
|
|
|
|
|
126,34
|
38,94
|
0,58
|
7,62
|
45,7
|
76,74
|
n=34
Задача 8:
По договор за доставка на сладкарски изделия тяхното средно тегло трябва да бъде 100 гр. при разсейване + или – 2%. Управител на търговски обект решил да провери дали се изпълняват договорните задължения. За целта той претеглил 18 случайно подбрани опаковки и установил за тях средно тегло 93 грама. Да се провери дали различието в средните тегла се дължи на случайни фактори или представлява нарушение на договора при риск за грешка от първи род 5%.
Решение:
За да се провери дали различието в средните тегла се дължи на случайни фактори или представлява нарушение на договора е необходимо да се направи проверка на хипотези. Проверката на хипотеза ще е относно разлика между средна на генерална съвкупност и на извадката.
По условие са дадени:
Средната на генералната съвкупност (0) => 100;
Средната на извадката ( )=>93.
Обем на извадката (n) => 18
Разсейването (дисперсията)2 = 2%
Нулевата хипотеза (Н0) гласи, че разликата между средната на извадкатаи средната на генералната съвкупност0 е случайна, че фактически между тях няма разлика, т.е. Н0: =0
На нулевата хипотеза се противопоставя алтернативната хипотеза (Н1), която може да гласи, че има разлика между средната на извадката и средната на генералната съвкупност 0, т.е. Н1: ≠0, >0, <0- двустранна критична област.
Равнището на значимост е α=0,05 (5%).
Когато извадката е сравнително малка (под 30), както е в конкретния пример (n = 18), се използва t-характеристиката, която се изчислява по следната формула:
.
Изчисляваме емпиричната стойност като заместваме по формулата:
===
От таблицата може да се намери теоретичната й стойност при предварително прието равнище на значимост α =0,05(5%).
От таблицата намираме,че t T=2,11
φ=n-1=18-1=17- Критичната област е двустранна.
Таблица с критичните стойности на t-разпределението
Степени на
|
при двустранна критична област
|
свобода:
|
0,10
|
0,05
|
0,02
|
0,01
|
1
|
6,31
|
12,71
|
31,82
|
63,66
|
2
|
2,92
|
4,30
|
6,97
|
9,92
|
3
|
2,35
|
3,18
|
4,54
|
5,84
|
4
|
2,13
|
2,78
|
3,75
|
4,60
|
5
|
2,02
|
2,57
|
3,37
|
4,03
|
6
|
1,94
|
2,45
|
3,14
|
3,71
|
7
|
1,90
|
2,36
|
3,00
|
3,50
|
8
|
1,86
|
2,31
|
2,90
|
3,36
|
9
|
1,83
|
2,26
|
2,82
|
3,25
|
10
|
1,81
|
2,23
|
2,76
|
3,17
|
11
|
1,80
|
2,20
|
2,72
|
3,11
|
12
|
1,78
|
2,18
|
2,68
|
3,05
|
13
|
1,77
|
2,16
|
2,65
|
3,01
|
14
|
1,76
|
2,14
|
2,62
|
2,99
|
15
|
1,75
|
2,13
|
2,60
|
2,95
|
16
|
1,75
|
2,12
|
2,58
|
2,92
|
17
|
1,74
|
2,11
|
2,57
|
2,90
|
|
0,05
|
0,025
|
0,01
|
0,005
|
|
при едностранна критична област
|
При емпирична характеристика на хипотезата по-малка от теоретичната, приемаме нулевата хипотеза. При емпирична характеристика на хипотезата по-голяма от теоретичната, отхвърляме нулевата хипотеза и приемаме алтернативната, т.е. при tтемп. отхвърляме нулевата хипотеза и при tт>tемп. приемаме нулевата хипотеза.
В задачата tтемп, следователно отхвърляме нулевата хипотеза (Н0) и се приема алтернативната хипотеза (Н1), която гласи, че има разлика между и 0 , т.е има разлика между средната на генералната съвкупност и средната на извадката, и различието се дължи на неслучайни фактори. Следователно това представлява нарушение на договора при риск за грешки от първи род, равен на 0,05 (5%).
Сподели с приятели: |