Линеен регресионен модел
-
Основният линеен модел в това изследване разглежда резултатите на учениците от националното оценяване в 7 клас като линейна комбинация от резултатите на националното оценяване в 4 клас, характеристиките на ниво ученик и характеристиките на ниво училище.
(1)
-
В уравнението е вектор с индикаторите за език, който се говори в къщи, е вектор с параметрите за езика. Аналогично, е вектор с индикаторите за school type1, представени в Таблица 1 и е съответния вектор с параметрите. Променливата е индикатор за пола на ученика, а е индикатор за това дали училището е частно или не е.
-
Получените оценки за параметрите са дадени в Таблица 4. Втората колона е стойността на получената оценка, а третата и четвъртата – съответно долната и горната граница на 95% доверителен интервал. Всички параметри са статистически значими (т.е. оказват влияние на модела), с изключение на и , понеже техните доверителни интервали съдържат нулата (и може да се предположи, че тяхната стойност е 0). Положителните стойности показват положително влияние върху ученическите постижения, а отрицателните стойности – отрицателно влияние. Стойността на коефициента на детерминация , показващ какъв процент от данните описват модела, е . Ниската му стойност се дължи на вида на разпределенията на резултатите от националното оценяване в 7 клас. То почти няма опашки и е с голяма дисперсия. Това оказва влияние върху квантилното разпределение на остатъците (normal probability plot of the residuals), представена на фигура 9. (Остатък се нарича разликата между истинския резултат на ученика и оценения, т.е. този, който се получава след като в оценения модел заместим характеристиките на ученика и училището му.)
Таблица 4. Получени оценки за параметрите от уравнение (1)
параметър
|
стойност
|
95% долна граница
|
95% горна граница
|
обяснение на параметъра
|
|
6.4759
|
4.5542
|
8.3975
|
свободен коефициент
|
|
2.0579
|
2.0200
|
2.0958
|
ефект на теста от 4 клас
|
|
1.0500
|
0.7951
|
1.3048
|
ефект на пола (1 – момче)
|
|
4.5588
|
2.8331
|
6.2845
|
ефект на български език
|
|
-3.5199
|
-5.2965
|
-1.7432
|
ефект на ромски език
|
|
-1.2140
|
-2.9780
|
0.5501
|
ефект на турски език
|
|
0
|
0
|
0
|
ефект на „друг“ език
|
|
-7.3172
|
-7.9581
|
-6.6762
|
ефект на type1 училище – код 1
|
|
-7.1268
|
-7.7726
|
-6.4810
|
ефект на type1 училище – код 2
|
|
-12.6446
|
-14.3030
|
-10.9861
|
ефект на type1 училище – код 3
|
|
-14.4907
|
-15.5329
|
-13.4485
|
ефект на type1 училище – код 4
|
|
-7.2046
|
-8.7632
|
-5.6459
|
ефект на type1 училище – код 5
|
|
-7.5115
|
-11.0925
|
-3.9305
|
ефект на type1 училище – код 6
|
|
7.1163
|
5.5123
|
8.7204
|
ефект на type2 училище (1 – частно)
|
-
Ако разпределението е нормално (Гаусово), всички точки от графиката трябва да лежат приблизително върху права линия (в случая пунктираната линия на графиката). Разпределението от горната графика не е нормално, защото се отклонява от правата в двата си края. То е по-скоро разпределение с тежки опашки.
-
Същият модел е приложен и за резултатите по български език и литература.
(2)
-
Оценките на параметрите са представени в Таблица 5. Всички параметри са статистически значими с изключение на . Стойността на коефициента е – тя е по-голяма от тази в модела за математика. Това се дължи на една ясно изразена мода в разпределението на резултатите по български език и литература в 7 клас. Квантилното разпределение на остатъците, представен на фигура 10, е по-близко до нормалното разпределение.
Таблица 5. Получени оценки за параметрите от уравнение (2)
параметър
|
стойност
|
95% долна граница
|
95% горна граница
|
обяснение на параметъра
|
|
2.9583
|
1.4743
|
4.4423
|
свободен коефициент
|
|
2.0211
|
1.9906
|
2.0516
|
ефект на теста от 4 клас
|
|
3.9328
|
3.7350
|
4.1307
|
ефект на пола (1 – момче)
|
|
3.3546
|
2.0248
|
4.6844
|
ефект на български език
|
|
-5.4834
|
-6.8516
|
-4.1153
|
ефект на ромски език
|
|
-2.8116
|
-4.1701
|
-1.4531
|
ефект на турски език
|
|
0
|
0
|
0
|
ефект на „друг“ език
|
|
-4.4447
|
-4.9381
|
-3.9513
|
ефект на type1 училище – код 1
|
|
-4.4936
|
-4.9905
|
-3.9966
|
ефект на type1 училище – код 2
|
|
-11.8883
|
-13.1654
|
-10.6112
|
ефект на type1 училище – код 3
|
|
-10.0912
|
-10.8934
|
-9.2889
|
ефект на type1 училище – код 4
|
|
-6.2648
|
-7.4652
|
-5.0643
|
ефект на type1 училище – код 5
|
|
-1.7285
|
-4.4874
|
1.0304
|
ефект на type1 училище – код 6
|
|
6.3130
|
5.0776
|
7.5458
|
ефект на type2 училище (1 – частно)
|
-
Полученото за общия резултат от математика и български език и литература
(3)
е представено в Таблица 6 и фигура 11. Стойността на коефициента е .
Таблица 6. Получени оценки за параметрите от уравнение (3)
параметър
|
стойност
|
95% долна граница
|
95% горна граница
|
обяснение на параметъра
|
|
-3.1193
|
-6.1076
|
-0.1311
|
свободен коефициент
|
|
2.4434
|
2.4104
|
2.4764
|
ефект на теста от 4 клас
|
|
4.4311
|
4.0381
|
4.8242
|
ефект на пола (1 – момче)
|
|
6.1654
|
3.5139
|
8.8168
|
ефект на български език
|
|
-7.3737
|
-10.1025
|
-4.6448
|
ефект на ромски език
|
|
-3.6692
|
-6.3781
|
-0.9603
|
ефект на турски език
|
|
0
|
0
|
0
|
ефект на „друг“ език
|
|
-10
|
5454
|
-11.5305
|
ефект на type1 училище – код 1
|
|
-10.5784
|
-11.5704
|
-9.5864
|
ефект на type1 училище – код 2
|
|
-22.6714
|
-25.2189
|
-20.1238
|
ефект на type1 училище – код 3
|
|
-23.1396
|
-24.7405
|
-21.5388
|
ефект на type1 училище – код 4
|
|
-12.8293
|
-15.2230
|
-10.4356
|
ефект на type1 училище – код 5
|
|
-6.0858
|
-11.5870
|
-0.5846
|
ефект на type1 училище – код 6
|
|
12.7191
|
10.2557
|
15.1825
|
ефект на type2 училище (1 – частно)
|
-
Под „общ резултат“ се разбира сборът от точките получени по математика и по български език и литература. Хистограмата му е показана на Фигура 12.
Мерки за добавената стойност с използване на остатъците
-
Остатъците при оценяване на общия резултат с регресионния модел се използват за пресмятане на добавената стойност на училищата
-
Тук е множеството на всички ученици в j-тото училище, е номера на ученика в съответното училище и е оценката на предиктора.
Фигура 13 представя хистограмата на добавените стойности на училищата, Вижда се, че разпределението е близко до нормалното.
Мерки за добавената стойност с използване на остатъците от регресията
-
Обобщение на последния модел е моделът със смесени ефекти (the mixed effect model или the multilevel model)
(4)
който включва случайния ефект , представляващ случайния ефект на училището (в модела се предполага, че представените училища са случайна извадка от безкрайна популация от училища).
-
Получените оценки на параметрите са дадени в таблица 7. Дисперсиите на случайните компоненти и на грешката са съответно и . Хистограмата на разпределението на променливата, указваща ефекта на училището, е представена на фигура 14. Разпределението е близко до нормалното.
Таблица 7. Получени оценки за параметрите от модела със случайни ефекти (уравнение (4))
параметър
|
стойност
|
обяснение на параметъра
|
|
-2.3582
|
свободен коефициент
|
|
2.0353
|
ефект на теста от 4 клас
|
|
4.2371
|
ефект на пола (1 – момче)
|
|
5.8462
|
ефект на български език
|
|
-7.3670
|
ефект на ромски език
|
|
-3.9434
|
ефект на турски език
|
|
0.0721
|
ефект на „друг“ език
|
|
-9.4099
|
ефект на type1 училище – код 1
|
|
-8.9013
|
ефект на type1 училище – код 2
|
|
-21.1540
|
ефект на type1 училище – код 3
|
|
-18.3575
|
ефект на type1 училище – код 4
|
|
-11.1989
|
ефект на type1 училище – код 5
|
|
-5.8928
|
ефект на type1 училище – код 6
|
|
12.7297
|
ефект на type2 училище (1 – частно)
|
Опростен модел
-
Опростеният модел
(5)
дава подобни резултати, които са представени в Таблица 8.
Таблица 8. Получени оценки за параметрите от опростения модел (уравнение (5))
параметър
|
стойност
|
обяснение на параметъра
|
|
-6.0984
|
свободен коефициент
|
|
1.0854
|
ефект на теста от 4 клас
|
-
Хистограмата е представена на Фигура 15. Разпределението е близко до нормалното. Оценките на дисперсиите с и .
-
Първата препоръка е свързана с обогатяване на базата с повече данни за учениците и училищата (така наречените контекстуални данни). Подготвеният въпросник би могъл да се попълва от учениците по време на националните оценявания. Това значително ще повиши процента на попълнените въпросника и ще даде възможност повече контекстуални данни да се използват в модела.
-
От направената апробация на различни модели с наличните данни, изглежда че най-подходящ е класическият линеен регресионен модел с използване на следните две контекстуални променливи: вида училище и езика, който се говори в къщи.
-
Моделът със смесени ефекти (the multilevel model) дава подобни резултати когато началната точка на оптимизационния процес е векторът, съставен от максимално правдоподобните оценки на линейния модел. Малки промени на началната точка водят до нестабилност на резултата. Процесът на сходимост изисква много време и е много чувствителен към избор на начална точка. Често не е възможно да се получи резултат, т.е. не може да се намери максимума или да се намери втората производна на обратната функция. Възможна причина за това е вида на разпределенията на резултатите от националното оценяване след 7 клас, които описахме по-горе (няма ясно изразени опашки и е с дисперсия много по-голяма от очакваната). Чувствителността от началната точка прави този метод ненадежден.
-
Примерите по-долу са направени с класическия линеен регресионен модел.
-
Получените резултати изглеждат смислени за България. Например, потвърждава се предимството на българския език като език за общуване в къщи; ефикасността на някои видове училища, когато се направи списък с добавената стойност и др. Разбира се, допълните анализи биха прибавили още щрихи в тази картина.
Примери
Първи пример – представяне чрез регресионна права
-
На Фигура 16 всяко училище е представено с точка в координатна система, на която абсцисата е средната стойност на резултатите от националното оценяване по математика и български език и литература в края на 4 клас, а ординатата е същата средна стойност в края на 7 клас.
-
Червената (горната) права представя очакваната средна стойност на резултатите от националното оценяване в края на 7 клас за момчетата, които говорят български в дома си в училища от вида type1 = 1 и type2 = 0. Зелената (долната) права представя очакваната средна стойност на резултатите от националното оценяване в края на 7 клас момчетата, които говорят ромски в дома си в същия тип училища.
-
Разстоянието по вертикал (по ординатната ос) между точката, представяща училището, и съответната права е добавената стойност на училището.
-
Така, точките между двете линии представят училища, за които говоренето на български език в къщи при момчетата има отрицателно влияние върху постиженията им, а говоренето на ромски език в къщи – положително влияние.
Втори пример – корелация между тестовия резултат и добавената стойност
-
С корелационен анализ са сравнени средните резултатите от националното оценяване в края на 7 клас (сборът от точките от математика и български език и литература) и оценките за добавената стойност за всички училища. Полученият корелационен коефициент е 0.8241, което показва много добра линейна корелация между двата параметъра. Това означава, че (най-общо казано) по-високи средни стойности на резултатите от националното оценяване в края на 7 клас съответстват на по-високи добавени стойности на училищата и обратно, по-ниски средни стойности на резултатите от националното оценяване в края на 7 клас съответстват на по-ниски добавени стойности на училищата
-
На Фигура 17 всяко училище е представено с точка в координатна система, на която абсцисата е средната стойност на резултатите от националното оценяване по математика и български език и литература в края на 4 клас, а ординатата е същата средна стойност в края на 7 клас. Училищата, представени със звездичка (в червено) са училищата от София-град. Добре се забелязва доброто представяне на училищата от София-град със средна стойност над средната за страната.
Сподели с приятели: |