Факултет Управление и Информартика



Дата05.12.2018
Размер191.85 Kb.
#107115


Университет за Национално и Световно Стопанство

Факултет Управление и Информартика

Специалност Информатика

___________________________________________________________



К У Р С О В А Р А Б О Т А

по дисциплината Програмни продукти за статистически анализ



София 2003

___________________________________________________________



Съдържание

1.Едномерни разпределения…………………………………………… 3стр




    1. Едномерно разпределение по количествен прекъснат признак… 4стр

    2. Едномерно разпределение по количествен непрекъснат признак................................................................................................ 5стр

    3. Едномерно разпределение по качествен признак.......................... 6стр

    4. Едномерно разпределение по признак с многовариантни значения дихотомена променлива................................................... 7стр

    5. Едномерно разпределение по признак с многовариантни значения категорийна променлива................................................... 8стр

2.Проверка на хипотези............................................................................. 9стр


2.1 Проверка на хипотези за разлика между средните на две

свързани извадки по непараметричен критерий.......................... 10стр

2.2. Проверка на хипотези за разлика между средните на две

несвързани извадки по непараметричен критерий........................ 11стр

2.3. Проверка на хипотези за разлика между средни на две

извадки по параметричен критерий................................................ 12стр


3.Хи-квадрат метод и двумерни разпределения (cross tables)............... 13стр
4.Дисперсионен анализ............................................................................. 14стр
4.1.Еднифакторен непараметричен....................................................... 15стр

4.2.Еднофакторен параметричен............................................................ 16стр

4.3.Многофакторен.................................................................................. 18стр
5.Регресионен анализ................................................................................ 19стр
5.1.Еднофакторен.................................................................................... 19стр

5.2.Многофакторен ( двуфакторен )...................................................... 21стр


6.Клъстерен анализ.................................................................................... 23стр
6.1. Йерархичен клъстерен анализ......................................................... 23стр

1.Едномерно разпределение
В едномерния статистически анализ уастват всички единици от избраната съвкупност и само един признак, т.е. обхваща се само едно от хоризонталните измерения на куба на данните (единиците), като се фиксира и броя на признаците. Броят на наблюденията при едномерния статистически анализ е равен на броя на единиците, които имат значения по съответния признак, като се отчитат липсващите наблюдения. Основните елементи които ще разглеждаме в разпределенията по-долу са обобщаващите характеристики. В зазвисимост от предназначението си те биват три групи – характеристики на центъра, мащаба и формата. Характеристиките на центъра определят мястото на разпределението по абсцисната ос на двумерната координатна система – те са средна аритметична (алгебрична средна), медиана (средна на положение) и мода (средна на гъстота). Характеристиките на мащаба се характеризират с разсейването (различията между единиците) и вариацията (относителен измерител на разсейването спрямо средната величина) в съвкупността. Разсейването се измерва с размах (разлика между максималната и миналмата стийност), стандартно отклонение (определя до каква степен единиците са отдалечени от центъра), дисперсия(квадрата на стандартното отклонение). Характеристики на формата са асиметрията и ексцеса

1.1.Едномерно разпределение по количествен прекъснат признак
Зад. Да се определи разпределението на студентите по възраст в навършени години


Възрастта, дохода, трудовия стаж и др. подобни променливи се измерват на силната скала и са непрекъснати. Броя на етажите, на колите, на студентите и т.н. са също на силната скала но са прекъснати. Въсможно е непрекъснат признак да се преобразува в прекъснат – така например възрастта в навършени години става прекъснат, защото не може да заема всякакви стойности – ограничава се само до цели числа.

Първата таблица полазва, че имаме 25 валидни случея и нито един липсващ. Средната алгебрична възраст е 21,8, средната по положение е 22, а по гъстота (модата) е 21 години. Стандартното отклонение и вариацията са съответно 1,07 и 1,14, което показва че разсейването не е голямо. Размаха е 3 (разлика между максимума 24 и минимума 21 години). Асиметрията е положителна, т.е. дясна, ексцеса също, следователно положителен висок.

Втората таблица показва различните случаи – три (21 – където са и най—многото представители, 22 и 24 годишните – с най-малко представители). Общия и валидния процент тук съвпадат, защото няма липсващи случаи.




1.2.Едномерно разпределение по количествен непрекъснат признак
Зад. Да се определи разпределението на студентите по доход в 3 групи





Първо определяме големината на интервала h=(max-min)/k, където к е броя групи. За h получаваме приблизително 100. Тук медианата и средната не носят информация, а само модата сочи към най-пълната група - първата(тези с доход 110-209 лв.). Тук отново нямаме липсващи случеи. Асиметрията е положителна, т.е. дясна, ексцеса също, следователно положителен остър.

Втората таблица показва различните случаи – трите групи (110-209, 210-309 и 310-409), ясно се вижда че най-много представители попадат в първата група. Тук отново общия и валидния процент съвпадат, защото няма липсващи случаи.

Накрая сме представили графично разпределението по трите групи и от хистограмата се вижда ясно че дроят на случеите в първата група значително надвишава този на другите две.

1.3.Едномерно разпределение по качествен признак
Зад. Да се определи разпределението на студентите по оценката им за нивото на обучение в УНСС.


Тук средното отклонение и дисперсията на носят съществена информация. Разпределението е качествено, защото оценката за обучение е на слабата скала и е бална. Имаме само валидни отговори – 25, като средната оценка е 3,4 приблизително среден, средните по положение и гъстота са 3,00. Минималната е 3 от възможна 2, а максималната е 4 от възможна 6

Във следващата таблица виждаме двете групи – оценка среден са дали 2/3 от запитаните, останалата 1/3 добър.



1.4.Едномерно разпределение по признак с многовариантни значения –дихотомна променлива
Зад. Да се определи разпределението на студентите по затруднилите ги

дисциплини, в реда Икономика, Математика, Статистика, Информатика.


Разпределението тук е по четири признака, затова ще използваме многовариантни значения с алтернативен метод, понеже възможните отговори за (1-затруднен и 2-незатруднен). Тук имаме 4 липсващи случея от 25-имата отговорили. Общия брой на отговорите е 28, т.е. някои от запитаните са дали по повече от един отговор. Най-много са затруднените по математика 17 или 60,7% от всички запитани и 81% от всички отговори, а най-малко по икономика – 2 или 7,1% от всички запитани или 9,5% от отговорите. Процента на отговорите е 133, т.е. на всеки три въпроса са получавани по четири отговора. По-отдолу е показана и таблицата със съответните разпределения.


Group $HARD hardness

(Value tabulated = 1)
Pct of Pct of

Dichotomy label Name Count Responses Cases


HARDNESS IKO X9.1 2 7.1 9.5

HARDNESS MATH X9.2 17 60.7 81.0

HARDNESS STAT X9.3 5 17.9 23.8

HARDNESS INFO X9.4 4 14.3 19.0

------- ----- -----

Total responses 28 100.0 133.3


4 missing cases; 21 valid cases


1.5.Едномерно разпределение по признак с многовариантни значения –категорийна променлива
Зад. Да се определи разпределението на студентите по харесвани преподаватели.

Group $LIKE likeall


Pct of Pct of

Category label Code Count Responses Cases


Murgeva 1 25 62.5 100.0

Duke 2 6 15.0 24.0

Bourdin 3 2 5.0 8.0

Jeliazkov 4 5 12.5 20.0

Gechev 5 2 5.0 8.0

------- ----- -----

Total responses 40 100.0 160.0
0 missing cases; 25 valid cases
Тук липсващи случаи няма. Броят на отговорите е 40, т.е. повече от запитаните са посочили по двама преподаватели. Най-харесвана е Мурджева 25 предпочитания е получила, което е 62,5% от всички отговори и 100% от запитаниете , вече отбелязахме че процентите надхвърлят 100, понеже запитаните са дали по повече от един отговор. Най-малко предпочитания са получили Бурдин и Гечев, кодирани съответно с 3 и 5 – по 2 гласа, което е по 5% от отговотите и 8% от запитаните.

Броя на всички от отговорите за всеки от учителите, поставени на първо или второ място от анкетираните (Count );относителните честоти, по отношение на положителните отговори (% от Responses ); относителните честоти, по отношение на броя на анкетираните, т.е. отговорили поне на едно място ( % Cases )




2.Проверка на хипотези
За проверката на хипотези се минава през шест етапа.

1 етап) Дефинира се нулевата и алтернативната хипотези. Нулевата се означава с H0 и гласи че няма разлика между твърдението и следствието, а алтернативната H1 и гласи че съществува статистистически значима разлика между твърдението и следствието.

2 етап) Дефиниране на рисковете за грешка от първи и втори род. Риска от първи род се определя стандартно :  =0,05.

3 етап) Избор на критерии за проверка на хипотези.

4 етап) Определяне на критичната област на значимост (едностранна или двустранна).

5 етап) Определяне на теоретичните характеристики

6 етап) Сравняване на t теоретично с t емпирично :

Ако t ем < t теор то не можем да отхвърлим нулевата хипотеза

Ако t ем > t теор то отхвърляме нулевата и приемаме алтернативната хипотеза.

Освен тези шест етапа обаче, трябва и да се избере подходящия метод за проверка на хипотезите – избора на критерий (парамертичен или непараметричен). Параметричен се използва, когато тестваната променлива е измерена на силната скала – метрирани признаци (интервални или относителни) и има разпределение близко до нормалното. Във всички останали случаи се използва непараметричния критерии. Това дали една променлива е нормално разпределена се проверява с теста на Колмогоров-Смирнов за една извадка, намиращ се при непараметричните тестове. Сега нека пристъпим към решаването на конкретните задачи за проверка на статистическите хипотези.



2.1.Проверка на хипотези за разлика между средни на две свързани извадки по непараметричен критерий.
Зад. Да се провери има ли съществена разлика между оценките на по Информатика

и Математика.


Тук и двете променливи са измерени на слабата ординална (бална) скали, така че единствено може да предпиемем действия чрез непараметричния критериий.

От полученото равнище на значимост 2-Tailed Sig. =0.022 <  =0.05, следва, че не можем да приемем Но, т.е. изводът е, че има съществена разлика между оценките на студентите за обучението по информатика и математика. Трябва да проверим за правдоподобността на формулирано предположение (разлика между оценките за обучение по информатика и математика). Ето защо е удачно да се използва метода за проверка на хипотези.

В конкретната задача имаме оценките за обучение по математика и статистика ,които са измерени на балната (която е слаба ) скала . От друга страна нямаме групиране в рамките на едната променлива , което означава , че двете извадки са зависими помежду си.Следователно имаме всички предпоставки да използваме критерий за проверка на хипотези за две свързани извадки.
1.Дефинираме нулева и алтернативна хипотези :

Но: Няма съществена разлика между оценките за обучението по информатика и математика .

Н1 : Има статистически значима разлика между оценките за по информатика и математика.

2.Дефинираме риска за грешка :  =0.05;


Използваме теста на Уилкокс за проверка за хипотези по две свързани извадки :
В първата таблица оценката по информатика е по малко от тази по математика в 12 случея, а в 9 те са равни. Отново имаме 25 отговора, и логично няма липсващи зашиси.



2.2.Проверка на хипотези за разлика между средни на две несвързани извадки по непараметричен критерий

Зад. Да се провери има ли съществена разлика между дохода на работещите и неработещите студенти.


Заетостта е на слабата скала, а дохода е измерен на силна скала, затова проверяваме дали е нормално разпределена. От теста на Колмогоров-Смирнов значимостта Sig.=0.039<0.05, т.е. приемаме алтернативната хипотеза, която гласи, че тестваната променлива не е нормално разпределена, следователно трябва да се непараметричен критерии за проверка на хипотезата, поставена в условието.


От първата таблица се вижда, че работещите студенти са 7, а неработещите са 18. От следващата таблица, следим разпределението по Ман-Уитни, там значимостта Sig.=0,883>0,05, т.е. приемаме нулевата хипотеза, която гласи, че няма статистически значима разлика между дохода на работещите и неработещите студенти.



2.3.Проверка на хипотези за разлика между средни на две несвързани извадки по параметричен критерий
Зад. Да се провери има ли съществена разлика между възрастта на мъжете и жените студенти.
В тази задача пола се измерва на слаба скала, а възрастта е на силната скала, и за да проверим дали разпределението в самата извадка е нормално проверяваме въавастта с Колмогоров-Смирнов за една извадка. По-долу се вижда че значимостта 2-tailed P=0,039<0,05, което означава че не можем да приемем нулевата хипотеза. Нека приемем, че разпределението на дохода е нормално и тогава можем да приложим параметричния тест за проверка на хипотези.

Тук значимостта е от теста на Леване 0,76, което означава че трябва да приемем нулевата хипотеза, която гласи, че дисперсиите са еднакви. Там значимостта за цялата хипотеза е 0,518 > 0,05 следователно приемеме нулевата хипотеза, която гласи че няма статистически значима разлика между възрастта на мъжете и жените студенти.


Хи-квадрат метод и

двумерни разпределения (cross tables)

 ² метода има важна методологическа роля при анализа на категорийни и двумерни разпределения.При двумерни разпределения методът оценява характера и степента на свързаност между двете променливи величини. Използва се при наличието на кaчествен тип на фактора и качествен на резултатната променлива.

В случая и едната величина е качествена променлива – заетостта - дихотомна променлива, и втората -пол също, а това ни дава основание да използваме ² метода, за да анализираме отношенията.

Първо определяме двете хипотези:


Но: няма връзка между възрастта и заетостта ;

Н1: съществува връзка между възрастта и заетостта ;


Дефинираме риска за грешка  = 0.05;
² тестът има три основни ограничения ( условия за приложение ), които трябва да бъдат изпълнени , за да можем да приложим критерия :
1.Теоритичните честоти да са не по – малки от 1.

2.Ако имаме теоритични честоти по – малки от 5 , то клетките с такива стойности да са по – малко от 20% от общия брой клетки.

3.Достатъчно голяма извадка .
Зад. Да се потърси връзка между заетостта и пола на студентите.

Тук и двете условия не са изпълнени – минималната теоретична честота е 3,08 > 1 и 50% от клетките са под пет. Нека приемем че усповията са изпълнени и да продължим анализа.



Така, ако наистина всички условия бяха изпълнени, то тогава значимостта по Пиърсън е 0,93 > 0,05 следователно не можем да отхвърлим нулевата хипотеза, която гласи че няма статистическа връзка между пола и заетостта на студентите. С помощта на последната таблица можем да получим информация за слата на връзката, ако тя наистина съществуваше. Тя е слаба, защото стойността по Крамер и Фи е 0,014<0,3.

4.Дисперсионен анализ
По същество методът е един вид проверка на статистически хипотези, който се прилага при наличието на качествена факторна променлива и количествена резултатна променлива. Също така трябва да се преминат и шестте етапа за проверка на хипотези:

1.Дефинираме нулевата (Но) и алтернативна (Н1) хипотези:


Но: полът не оказва съществено влияние върху месечният доход.

Н1: полът оказва съществено влияние върху месечният доход.


2.Дефиниране на риск за грешка =0.05.

3.Избор на критерий за проверка на хипотези : F em;

4.Опеделяне на ида на критичната област – едностранна ;

5.Определяне на теоритичните характеристики Ft;

6.Сравняване между двете характеристики .
За да бъде коректен направения извод при параметричен дисперсионен анализ трябва да са изпълнени две важни условия:

1.Във всяка група на факторния признак разпределението по резултативната променлива трябва да бъде нормално – проверява се с теста на Колмогоров-Смирнов за една извадка за всяка група по отделно.

2.Дисперсиите в групите е необходимо да са приблизително равни по стойност – това се проверява с теста на Леване за равенство на дисперсиите.

4.1.Еднифакторен непараметричен

Зад. Да се провери оказва ли влияние пола на студентите върху техния доход.



Понеже факторната променлива пол (Х10) е качествена, а резултатната е количествена, използваме дисперсионен анализ. Значимостта от теста на Леване е 0,005 < 0,05 следователно не можем да приемем нулевата хипотеза и приемаме алтернативната, която гласи че дисперсиите не са равни, следователно ще използваме непараметричен критерии.




Първата таблица ни показва разпределението на мъжете и жените : 14 мъже и 11 жени. Втората ни показва значимостта sig.=0,867 > 0,05, т.е. приемаме нулевата хипотеза, която гласи, че пола на студентите не оказва влияние върху техния доход.



4.2.Еднифакторен параметричен

Зад. Да се провери оказва ли влияние успеха на студентите върху техния доход.


Факторната променлива е качествена, а резултатната е количествена, следователно ще използваме дисперсионен анализ.

Дефинираме нулевата (Но) и алтернативна (Н1) хипотези:

Но: Средният успех не оказва съществено влияние върху месечният доход.

Н1: Средният успех оказва съществено влияние върху месечният доход.

Дефинираме на риск за грешка =0.05.

Първо трябва да се проверят условията за приложение на параметричен дисперсионен анализ :

1.Във всяка група на факторния признак разпределението по резултативната променлива трябва да бъде нормално.

2.Дисперсиите в групите е необходимо да са равни.


Проверяваме за нормално разпределение в двете групи на средния успех (има само две такива – успех 5 и 6 ) по месечния доход. Това се осъществява с теста на Колмогоров-Смирнов за една извадка:

2-Tailed Sig. (за успех 5 ) = 0.109 >  = 0.05

2-Tailed Sig. ( за успех 6) = 0.846 >  =0.05
Следователно и в двата случая приемаме нулевата хипотеза ( Но )- разпределенията са близки до нормалното и условието е изпълнено.

За проверката за равенство на дисперсиите използваме теста на Левене.Сравняваме равнището на значимост ( Sig.) с риска за грешка . И тъй като Sig. = 0.168 >  = 0.05, то приемаме, че дисперсиите са равни.





След като всички условия за приложение са изпълнени използваме параметричен дисперсионен анализ.От Sig.= 0.195 >  = 0.05 , следва че можем да приемем Но ( нулевата хипотеза ) , т.е . няма статистически значима разлика между месечния доход на двете групи студенти (със среден успех 5 и 6 ) или средният успех не влияе върху месечния доход .



4.3.Многофакторен параметричен дисперсионен анализ
Зад. Да се провери оказват ли съществено влияние пола и заетостта върху месечния доход.
В тази задача трябва определим дали пола и заетостта влияят върху месечния доход на студентите, т.е. нуждаем се от статистически метод за изследване връзка и зависимост между фактор и зависима величина .Тъй като имаме два фактора , които са по същество качествени променливи, а месечният доход (резултативна променлива ) е количествена променлива, то използваме многофакторен дисперсионен анализ. Дефинираме хипотезите и определяме риска за грешка от първи род.

1.Дефинираме нулевата (Но) и алтернативна (Н1) хипотези:

Но: полът и заетостта не оказва съществено влияние върху месечният доход.

Н1: полът и заетостта оказва съществено влияние върху месечният доход.

2.Дефиниране на риск за грешка =0.05.

* * * A N A L Y S I S O F V A R I A N C E * * *


X12 INCOME

by X10 SEX

X13 WORKING?
UNIQUE sums of squares

All effects entered simultaneously

Sum of Mean Sig

Source of Variation Squares DF Square F of F


Main Effects 24518,974 2 12259,487 2,308 ,124

X10 14698,144 1 14698,144 2,767 ,111

X13 8116,701 1 8116,701 1,528 ,230
2-Way Interactions 8116,701 1 8116,701 1,528 ,230

X10 X13 8116,701 1 8116,701 1,528 ,230


Explained 27244,000 3 9081,333 1,710 ,196
Residual 111540,000 21 5311,429
Total 138784,000 24 5782,667

25 cases were processed.

0 cases (,0 pct) were missing.

От 2-Way Interactions получаваме информация за взаимодействието между отделните фактори, тук имаме равнище на значимост Sig. F=0,230 >  = 0.05 .Ето защо бихме могли да приемем Но , т.е. няма съществено взаимодействие между отделните фактори ( пол и заетост ). Разглеждаме влиянието на двата фактора.Техните равнища на значимост (съответно 0,111 и 0,23 >  =0.05 ) ни дават основание да приемем Но ,която гласи, че влиянието на пола и заетостта върху месечния доход са несъществени .

Що се отнася до влиянието им върху резултативната променлива – месечен доход, разглеждаме реда Explained и на база на равнището на значимост Sig. =0,196 >  = 0.05 .Следователно това ни дава основание да приемем Но , което означава , че няма влияние от страна на пола и заетостта върху месечния доход на студентите.

5.Регресионен анализ
В този вид задачи се изследва влиание на една величина върху друга такава и за целта се нуждаем от метод за изследване на статистически връзки и зависимости. Нужно е и факторните и резултатните променливи да са количествени променливи. При приложението на този вид анализ би трябвало да се имат пред вид няколко особености. Първо изледваните връзки и зависимости трябва да са съдържателно обусловени т.е. да имат приемлива смислова интерпретация.

Първата стъпка при изследването на стохастичната връзка между двата признака е да се подбере подходящата функция (от елементарните математически функции), която да представя най–точно разглежданата зависимост. За целта разглеждаме равнищата на значимост на всички елементарни функции (Sig. f )..



5.1.Еднофакторен регресионенен анализ
Зад. Да се изследва влиянието на възрастта върху дохода (това са двата единствени количествени признаци в нашата анкета).
От таблицата виждаме, че никой от моделите не е адекватен, защото статистическата значимост на всеки модел надхвърля 0,05, но нека приемем че те са адекватни, тогава понеже всички са с много близки стойности на Rsq, то избираме линейния модел, понеже е най-прост по форма.

MODEL: MOD_3.

Independent: X11
Upper

Dependent Mth Rsq d.f. F Sigf bound b0 b1 b2


X12 LIN .128 23 3.37 .079 737.018 -25.468

X12 LOG .131 23 3.46 .076 1959.08 -576.87

X12 INV .133 23 3.54 .073 -417.36 13035.4

X12 QUA .165 22 2.17 .138 8273.33 -698.89 15.0000

X12 COM .134 23 3.55 .072 2199.70 .8893

X12 POW .136 23 3.61 .070 601220 -2.6514

X12 S .138 23 3.68 .067 2.3908 59.7714

X12 GRO .134 23 3.55 .072 7.6961 -.1173

X12 EXP .134 23 3.55 .072 2199.70 -.1173

X12 LGS .134 23 3.55 .072 . .0005 1.1245

MODEL: MOD_4.
Dependent variable.. X12 Method.. LINEAR
Listwise Deletion of Missing Data
Multiple R .35759

R Square .12787

Adjusted R Square .08995

Standard Error 72.54324


Analysis of Variance:
DF Sum of Squares Mean Square
Regression 1 17745.99 17745.988

Residuals 23 121038.01 5262.522


F = 3.37215 Signif F = .0793
-------------------- Variables in the Equation --------------------
Variable B SE B Beta T Sig T
X11 -25.467836 13.868801 -.357586 -1.836 .0793

(Constant) 737.017544 303.241903 2.430 .0233

Тълкуваме получената таблица Rsq=0,127 показва колко процента от изменението на резултатната променлива се обяснява с факторната. Значимостта е 0,079>0,05 следователно модела не е адекватен, ако беше то той щеше да изглежда така : X12 = 737,017 – 25,468*X11 + E. Значимостта на промеливата X11 е 0,079>0,05 и следоватено не можем да я тълкуваме, понеже не е значима, констаната е значима но тя не се тълкува.


5.2.Многофакторен параметричен дисперсионен анализ
Зад. Да се провери оказват ли съществено влияние възрастта и средния успех на студентите върху месечния доход.

В тази задача изследваме връзката между факторна и резултативна променливи. Възрастта е количествена променива, докато средният успех е качествена. За да използваме регресионния анализ е необходимо и двата фактора да са на силната скала, ето защо приемаме че средният успех е количествена променлива. Другото условие (за резултативната променлива) е изпълнено, т.е. дохода е качествен признак. За да приложим множествената регресия е необходимо да няма връзка между двете факторни променливи. Проверката се извършва с помощта на корелационната матрица:



От матрицата виждаме, че няма коефициенти по-големи от 0,7, следователно няма връзка между двата фактора.






От видяното по-горе първо можем да интерпретираме множественият корелационен коефициент (multiple R) е на стойност 0,399, т.е. е положителен и е между 0,3 и 0,7 , което означава ,че връзката е еднопосочна и средно по сила. За този модел 15% от резултативната променлива се обяснява с фактора (R Square=0.159). Сега разглеждаме коефициентите пред двата фактора от равнището им на значимост SigT ( 0,145 и 0,376 ) > =0.05 ( приетия риск за грешка ) можем да заключим, че нямаме право да ги интерпретираме.






6.Кластер анализ
Клъстерният анализ се има за цел при n на брой обекта да се групират в k на брой групи, наречени кластери, като се използват p на брой признаци (променливи). Кластер анализа е събирателно понятие и включва много на брой различни кластеризационни процедури. Те са толкова много, че едва ли биха могли да бъдат разгледани всичките. Едно важно деление на кластеризационните процедури е в зависимост от това, дали се заздава предварително броя на кластерите или не. При предварително зададен брой на кластерите един много популярен метод е K-Means Cluster (Кластер анализ на К-средните). Когато броя на кластерите не е предварително определен, се използва т.нар. йерархични кластеризационни процедури (Hierarchical Cluster).

6.1.Нейерархичен клъстерен анализ
Зад. Да се прецени кои са повече - доволните или недовоните студенти спорде средния им успех и оценките по Икономика, Математика, Статистика и Информатика.
Тук виждаме първоначалното разделение на кластерите, не наблюдаваме различия по среден успех и оценки по икономика.

Таблицата на итерациите показва че края е достигнат при втората итерация при минимало разстояние мажду клъстерните центрове 2,236.




Тук виждаме всеки от 25-те случея към кой клъстер спада и накакво разстояние е от кластерния център..

Тук вече се наблюдава, че случеите във втория клъстер са на студентите с най-високи оценки, във третия с по-слаби, а най-слабите оценки попадат в първия скластер.



Тук виждаме че разстиянието между втори и трети кластер е най-голямо 1,970, а между първи и трети е най-малко 1,348


Оценката по предметите на база значимост оказват съществено статистически значимо влияние, което се изразява във разлика между трите клъстера на оцемките по математика, статистика и информатика.

В по-долната таблица виждаме че най-малко случаи имаме във втория кластер – 4, в първия – 10, а в третия – 11.






Каталог: files -> files
files -> Р е п у б л и к а б ъ л г а р и я
files -> Дебелината на армираната изравнителна циментова замазка /позиция 3/ е 4 см
files -> „Европейско законодателство и практики в помощ на добри управленски решения, която се състоя на 24 септември 2009 г в София
files -> В сила oт 16. 03. 2011 Разяснение на нап здравни Вноски при Неплатен Отпуск ззо
files -> В сила oт 23. 05. 2008 Указание нои прилагане на ксо и нпос ксо
files -> 1. По пътя към паметник „1300 години България
files -> Георги Димитров – Kreston BulMar
files -> В сила oт 13. 05. 2005 Писмо мтсп обезщетение Неизползван Отпуск кт


Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница