Юни 2013 Световна банка Регион Европа и Централна Азия

Изтегляне 0.62 Mb.

страница	3/5
Дата	21.01.2018
Размер	0.62 Mb.
	#50566

1 2 3 4 5

Регресионни модели

Линеен регресионен модел

Основният линеен модел в това изследване разглежда резултатите на учениците от националното оценяване в 7 клас като линейна комбинация от резултатите на националното оценяване в 4 клас, характеристиките на ниво ученик и характеристиките на ниво училище.

(1)

В уравнението е вектор с индикаторите за език, който се говори в къщи, е вектор с параметрите за езика. Аналогично, е вектор с индикаторите за school type1, представени в Таблица 1 и е съответния вектор с параметрите. Променливата е индикатор за пола на ученика, а е индикатор за това дали училището е частно или не е.
Получените оценки за параметрите са дадени в Таблица 4. Втората колона е стойността на получената оценка, а третата и четвъртата – съответно долната и горната граница на 95% доверителен интервал. Всички параметри са статистически значими (т.е. оказват влияние на модела), с изключение на и , понеже техните доверителни интервали съдържат нулата (и може да се предположи, че тяхната стойност е 0). Положителните стойности показват положително влияние върху ученическите постижения, а отрицателните стойности – отрицателно влияние. Стойността на коефициента на детерминация , показващ какъв процент от данните описват модела, е . Ниската му стойност се дължи на вида на разпределенията на резултатите от националното оценяване в 7 клас. То почти няма опашки и е с голяма дисперсия. Това оказва влияние върху квантилното разпределение на остатъците (normal probability plot of the residuals), представена на фигура 9. (Остатък се нарича разликата между истинския резултат на ученика и оценения, т.е. този, който се получава след като в оценения модел заместим характеристиките на ученика и училището му.)

Таблица 4. Получени оценки за параметрите от уравнение (1)

параметър	стойност	95% долна граница	95% горна граница	обяснение на параметъра
	6.4759	4.5542	8.3975	свободен коефициент
	2.0579	2.0200	2.0958	ефект на теста от 4 клас
	1.0500	0.7951	1.3048	ефект на пола (1 – момче)
	4.5588	2.8331	6.2845	ефект на български език
	-3.5199	-5.2965	-1.7432	ефект на ромски език
	-1.2140	-2.9780	0.5501	ефект на турски език
	0	0	0	ефект на „друг“ език
	-7.3172	-7.9581	-6.6762	ефект на type1 училище – код 1
	-7.1268	-7.7726	-6.4810	ефект на type1 училище – код 2
	-12.6446	-14.3030	-10.9861	ефект на type1 училище – код 3
	-14.4907	-15.5329	-13.4485	ефект на type1 училище – код 4
	-7.2046	-8.7632	-5.6459	ефект на type1 училище – код 5
	-7.5115	-11.0925	-3.9305	ефект на type1 училище – код 6
	7.1163	5.5123	8.7204	ефект на type2 училище (1 – частно)

Ако разпределението е нормално (Гаусово), всички точки от графиката трябва да лежат приблизително върху права линия (в случая пунктираната линия на графиката). Разпределението от горната графика не е нормално, защото се отклонява от правата в двата си края. То е по-скоро разпределение с тежки опашки.
Същият модел е приложен и за резултатите по български език и литература.

(2)

Оценките на параметрите са представени в Таблица 5. Всички параметри са статистически значими с изключение на . Стойността на коефициента е – тя е по-голяма от тази в модела за математика. Това се дължи на една ясно изразена мода в разпределението на резултатите по български език и литература в 7 клас. Квантилното разпределение на остатъците, представен на фигура 10, е по-близко до нормалното разпределение.

Таблица 5. Получени оценки за параметрите от уравнение (2)

параметър	стойност	95% долна граница	95% горна граница	обяснение на параметъра
	2.9583	1.4743	4.4423	свободен коефициент
	2.0211	1.9906	2.0516	ефект на теста от 4 клас
	3.9328	3.7350	4.1307	ефект на пола (1 – момче)
	3.3546	2.0248	4.6844	ефект на български език
	-5.4834	-6.8516	-4.1153	ефект на ромски език
	-2.8116	-4.1701	-1.4531	ефект на турски език
	0	0	0	ефект на „друг“ език
	-4.4447	-4.9381	-3.9513	ефект на type1 училище – код 1
	-4.4936	-4.9905	-3.9966	ефект на type1 училище – код 2
	-11.8883	-13.1654	-10.6112	ефект на type1 училище – код 3
	-10.0912	-10.8934	-9.2889	ефект на type1 училище – код 4
	-6.2648	-7.4652	-5.0643	ефект на type1 училище – код 5
	-1.7285	-4.4874	1.0304	ефект на type1 училище – код 6
	6.3130	5.0776	7.5458	ефект на type2 училище (1 – частно)

Полученото за общия резултат от математика и български език и литература

(3)

е представено в Таблица 6 и фигура 11. Стойността на коефициента е .

Таблица 6. Получени оценки за параметрите от уравнение (3)

параметър	стойност	95% долна граница	95% горна граница	обяснение на параметъра
	-3.1193	-6.1076	-0.1311	свободен коефициент
	2.4434	2.4104	2.4764	ефект на теста от 4 клас
	4.4311	4.0381	4.8242	ефект на пола (1 – момче)
	6.1654	3.5139	8.8168	ефект на български език
	-7.3737	-10.1025	-4.6448	ефект на ромски език
	-3.6692	-6.3781	-0.9603	ефект на турски език
	0	0	0	ефект на „друг“ език
	-10	5454	-11.5305	ефект на type1 училище – код 1
	-10.5784	-11.5704	-9.5864	ефект на type1 училище – код 2
	-22.6714	-25.2189	-20.1238	ефект на type1 училище – код 3
	-23.1396	-24.7405	-21.5388	ефект на type1 училище – код 4
	-12.8293	-15.2230	-10.4356	ефект на type1 училище – код 5
	-6.0858	-11.5870	-0.5846	ефект на type1 училище – код 6
	12.7191	10.2557	15.1825	ефект на type2 училище (1 – частно)

Под „общ резултат“ се разбира сборът от точките получени по математика и по български език и литература. Хистограмата му е показана на Фигура 12.

Мерки за добавената стойност с използване на остатъците

Остатъците при оценяване на общия резултат с регресионния модел се използват за пресмятане на добавената стойност на училищата

Тук е множеството на всички ученици в j-тото училище, е номера на ученика в съответното училище и е оценката на предиктора.

Фигура 13 представя хистограмата на добавените стойности на училищата, Вижда се, че разпределението е близко до нормалното.

Мерки за добавената стойност с използване на остатъците от регресията

Обобщение на последния модел е моделът със смесени ефекти (the mixed effect model или the multilevel model)

(4)

който включва случайния ефект , представляващ случайния ефект на училището (в модела се предполага, че представените училища са случайна извадка от безкрайна популация от училища).

Получените оценки на параметрите са дадени в таблица 7. Дисперсиите на случайните компоненти и на грешката са съответно и . Хистограмата на разпределението на променливата, указваща ефекта на училището, е представена на фигура 14. Разпределението е близко до нормалното.

Таблица 7. Получени оценки за параметрите от модела със случайни ефекти (уравнение (4))

параметър	стойност	обяснение на параметъра
	-2.3582	свободен коефициент
	2.0353	ефект на теста от 4 клас
	4.2371	ефект на пола (1 – момче)
	5.8462	ефект на български език
	-7.3670	ефект на ромски език
	-3.9434	ефект на турски език
	0.0721	ефект на „друг“ език
	-9.4099	ефект на type1 училище – код 1
	-8.9013	ефект на type1 училище – код 2
	-21.1540	ефект на type1 училище – код 3
	-18.3575	ефект на type1 училище – код 4
	-11.1989	ефект на type1 училище – код 5
	-5.8928	ефект на type1 училище – код 6
	12.7297	ефект на type2 училище (1 – частно)

Опростен модел

Опростеният модел

(5)

дава подобни резултати, които са представени в Таблица 8.

Таблица 8. Получени оценки за параметрите от опростения модел (уравнение (5))

параметър	стойност	обяснение на параметъра
	-6.0984	свободен коефициент
	1.0854	ефект на теста от 4 клас

Хистограмата е представена на Фигура 15. Разпределението е близко до нормалното. Оценките на дисперсиите с и .
Първата препоръка е свързана с обогатяване на базата с повече данни за учениците и училищата (така наречените контекстуални данни). Подготвеният въпросник би могъл да се попълва от учениците по време на националните оценявания. Това значително ще повиши процента на попълнените въпросника и ще даде възможност повече контекстуални данни да се използват в модела.
От направената апробация на различни модели с наличните данни, изглежда че най-подходящ е класическият линеен регресионен модел с използване на следните две контекстуални променливи: вида училище и езика, който се говори в къщи.
Моделът със смесени ефекти (the multilevel model) дава подобни резултати когато началната точка на оптимизационния процес е векторът, съставен от максимално правдоподобните оценки на линейния модел. Малки промени на началната точка водят до нестабилност на резултата. Процесът на сходимост изисква много време и е много чувствителен към избор на начална точка. Често не е възможно да се получи резултат, т.е. не може да се намери максимума или да се намери втората производна на обратната функция. Възможна причина за това е вида на разпределенията на резултатите от националното оценяване след 7 клас, които описахме по-горе (няма ясно изразени опашки и е с дисперсия много по-голяма от очакваната). Чувствителността от началната точка прави този метод ненадежден.
Примерите по-долу са направени с класическия линеен регресионен модел.
Получените резултати изглеждат смислени за България. Например, потвърждава се предимството на българския език като език за общуване в къщи; ефикасността на някои видове училища, когато се направи списък с добавената стойност и др. Разбира се, допълните анализи биха прибавили още щрихи в тази картина.

Примери

Първи пример – представяне чрез регресионна права

На Фигура 16 всяко училище е представено с точка в координатна система, на която абсцисата е средната стойност на резултатите от националното оценяване по математика и български език и литература в края на 4 клас, а ординатата е същата средна стойност в края на 7 клас.
Червената (горната) права представя очакваната средна стойност на резултатите от националното оценяване в края на 7 клас за момчетата, които говорят български в дома си в училища от вида type1 = 1 и type2 = 0. Зелената (долната) права представя очакваната средна стойност на резултатите от националното оценяване в края на 7 клас момчетата, които говорят ромски в дома си в същия тип училища.
Разстоянието по вертикал (по ординатната ос) между точката, представяща училището, и съответната права е добавената стойност на училището.
Така, точките между двете линии представят училища, за които говоренето на български език в къщи при момчетата има отрицателно влияние върху постиженията им, а говоренето на ромски език в къщи – положително влияние.

Втори пример – корелация между тестовия резултат и добавената стойност

С корелационен анализ са сравнени средните резултатите от националното оценяване в края на 7 клас (сборът от точките от математика и български език и литература) и оценките за добавената стойност за всички училища. Полученият корелационен коефициент е 0.8241, което показва много добра линейна корелация между двата параметъра. Това означава, че (най-общо казано) по-високи средни стойности на резултатите от националното оценяване в края на 7 клас съответстват на по-високи добавени стойности на училищата и обратно, по-ниски средни стойности на резултатите от националното оценяване в края на 7 клас съответстват на по-ниски добавени стойности на училищата

На Фигура 17 всяко училище е представено с точка в координатна система, на която абсцисата е средната стойност на резултатите от националното оценяване по математика и български език и литература в края на 4 клас, а ординатата е същата средна стойност в края на 7 клас. Училищата, представени със звездичка (в червено) са училищата от София-град. Добре се забелязва доброто представяне на училищата от София-град със средна стойност над средната за страната.

Изтегляне 0.62 Mb.

Сподели с приятели:

1 2 3 4 5