Юни 2013 Световна банка Регион Европа и Централна Азия



страница3/5
Дата21.01.2018
Размер0.62 Mb.
#50566
1   2   3   4   5

Регресионни модели


Линеен регресионен модел

  1. Основният линеен модел в това изследване разглежда резултатите на учениците от националното оценяване в 7 клас като линейна комбинация от резултатите на националното оценяване в 4 клас, характеристиките на ниво ученик и характеристиките на ниво училище.

(1)

  1. В уравнението е вектор с индикаторите за език, който се говори в къщи, е вектор с параметрите за езика. Аналогично, е вектор с индикаторите за school type1, представени в Таблица 1 и е съответния вектор с параметрите. Променливата е индикатор за пола на ученика, а е индикатор за това дали училището е частно или не е.

  2. Получените оценки за параметрите са дадени в Таблица 4. Втората колона е стойността на получената оценка, а третата и четвъртата – съответно долната и горната граница на 95% доверителен интервал. Всички параметри са статистически значими (т.е. оказват влияние на модела), с изключение на и , понеже техните доверителни интервали съдържат нулата (и може да се предположи, че тяхната стойност е 0). Положителните стойности показват положително влияние върху ученическите постижения, а отрицателните стойности – отрицателно влияние. Стойността на коефициента на детерминация , показващ какъв процент от данните описват модела, е . Ниската му стойност се дължи на вида на разпределенията на резултатите от националното оценяване в 7 клас. То почти няма опашки и е с голяма дисперсия. Това оказва влияние върху квантилното разпределение на остатъците (normal probability plot of the residuals), представена на фигура 9. (Остатък се нарича разликата между истинския резултат на ученика и оценения, т.е. този, който се получава след като в оценения модел заместим характеристиките на ученика и училището му.)

Таблица 4. Получени оценки за параметрите от уравнение (1)

параметър

стойност

95% долна граница

95% горна граница

обяснение на параметъра



6.4759

4.5542

8.3975

свободен коефициент



2.0579

2.0200

2.0958

ефект на теста от 4 клас



1.0500

0.7951

1.3048

ефект на пола (1 – момче)



4.5588

2.8331

6.2845

ефект на български език



-3.5199

-5.2965

-1.7432

ефект на ромски език



-1.2140

-2.9780

0.5501

ефект на турски език



0

0

0

ефект на „друг“ език



-7.3172

-7.9581

-6.6762

ефект на type1 училище – код 1



-7.1268

-7.7726

-6.4810

ефект на type1 училище – код 2



-12.6446

-14.3030

-10.9861

ефект на type1 училище – код 3



-14.4907

-15.5329

-13.4485

ефект на type1 училище – код 4



-7.2046

-8.7632

-5.6459

ефект на type1 училище – код 5



-7.5115

-11.0925

-3.9305

ефект на type1 училище – код 6



7.1163

5.5123

8.7204

ефект на type2 училище (1 – частно)





  1. Ако разпределението е нормално (Гаусово), всички точки от графиката трябва да лежат приблизително върху права линия (в случая пунктираната линия на графиката). Разпределението от горната графика не е нормално, защото се отклонява от правата в двата си края. То е по-скоро разпределение с тежки опашки.

  2. Същият модел е приложен и за резултатите по български език и литература.

(2)

  1. Оценките на параметрите са представени в Таблица 5. Всички параметри са статистически значими с изключение на . Стойността на коефициента е – тя е по-голяма от тази в модела за математика. Това се дължи на една ясно изразена мода в разпределението на резултатите по български език и литература в 7 клас. Квантилното разпределение на остатъците, представен на фигура 10, е по-близко до нормалното разпределение.

Таблица 5. Получени оценки за параметрите от уравнение (2)



параметър

стойност

95% долна граница

95% горна граница

обяснение на параметъра



2.9583

1.4743

4.4423

свободен коефициент



2.0211

1.9906

2.0516

ефект на теста от 4 клас



3.9328

3.7350

4.1307

ефект на пола (1 – момче)



3.3546

2.0248

4.6844

ефект на български език



-5.4834

-6.8516

-4.1153

ефект на ромски език



-2.8116

-4.1701

-1.4531

ефект на турски език



0

0

0

ефект на „друг“ език



-4.4447

-4.9381

-3.9513

ефект на type1 училище – код 1



-4.4936

-4.9905

-3.9966

ефект на type1 училище – код 2



-11.8883

-13.1654

-10.6112

ефект на type1 училище – код 3



-10.0912

-10.8934

-9.2889

ефект на type1 училище – код 4



-6.2648

-7.4652

-5.0643

ефект на type1 училище – код 5



-1.7285

-4.4874

1.0304

ефект на type1 училище – код 6



6.3130

5.0776

7.5458

ефект на type2 училище (1 – частно)



  1. Полученото за общия резултат от математика и български език и литература

(3)

е представено в Таблица 6 и фигура 11. Стойността на коефициента е .



Таблица 6. Получени оценки за параметрите от уравнение (3)

параметър

стойност

95% долна граница

95% горна граница

обяснение на параметъра



-3.1193

-6.1076

-0.1311

свободен коефициент



2.4434

2.4104

2.4764

ефект на теста от 4 клас



4.4311

4.0381

4.8242

ефект на пола (1 – момче)



6.1654

3.5139

8.8168

ефект на български език



-7.3737

-10.1025

-4.6448

ефект на ромски език



-3.6692

-6.3781

-0.9603

ефект на турски език



0

0

0

ефект на „друг“ език



-10

5454

-11.5305

ефект на type1 училище – код 1



-10.5784

-11.5704

-9.5864

ефект на type1 училище – код 2



-22.6714

-25.2189

-20.1238

ефект на type1 училище – код 3



-23.1396

-24.7405

-21.5388

ефект на type1 училище – код 4



-12.8293

-15.2230

-10.4356

ефект на type1 училище – код 5



-6.0858

-11.5870

-0.5846

ефект на type1 училище – код 6



12.7191

10.2557

15.1825

ефект на type2 училище (1 – частно)





  1. Под „общ резултат“ се разбира сборът от точките получени по математика и по български език и литература. Хистограмата му е показана на Фигура 12.



Мерки за добавената стойност с използване на остатъците

  1. Остатъците при оценяване на общия резултат с регресионния модел се използват за пресмятане на добавената стойност на училищата



  1. Тук е множеството на всички ученици в j-тото училище, е номера на ученика в съответното училище и е оценката на предиктора.

Фигура 13 представя хистограмата на добавените стойности на училищата, Вижда се, че разпределението е близко до нормалното.



Мерки за добавената стойност с използване на остатъците от регресията

  1. Обобщение на последния модел е моделът със смесени ефекти (the mixed effect model или the multilevel model)

(4)

който включва случайния ефект , представляващ случайния ефект на училището (в модела се предполага, че представените училища са случайна извадка от безкрайна популация от училища).







  1. Получените оценки на параметрите са дадени в таблица 7. Дисперсиите на случайните компоненти и на грешката са съответно и . Хистограмата на разпределението на променливата, указваща ефекта на училището, е представена на фигура 14. Разпределението е близко до нормалното.

Таблица 7. Получени оценки за параметрите от модела със случайни ефекти (уравнение (4))

параметър

стойност

обяснение на параметъра



-2.3582

свободен коефициент



2.0353

ефект на теста от 4 клас



4.2371

ефект на пола (1 – момче)



5.8462

ефект на български език



-7.3670

ефект на ромски език



-3.9434

ефект на турски език



0.0721

ефект на „друг“ език



-9.4099

ефект на type1 училище – код 1



-8.9013

ефект на type1 училище – код 2



-21.1540

ефект на type1 училище – код 3



-18.3575

ефект на type1 училище – код 4



-11.1989

ефект на type1 училище – код 5



-5.8928

ефект на type1 училище – код 6



12.7297

ефект на type2 училище (1 – частно)

Опростен модел

  1. Опростеният модел

(5)

дава подобни резултати, които са представени в Таблица 8.



Таблица 8. Получени оценки за параметрите от опростения модел (уравнение (5))



параметър

стойност

обяснение на параметъра



-6.0984

свободен коефициент



1.0854

ефект на теста от 4 клас



  1. Хистограмата е представена на Фигура 15. Разпределението е близко до нормалното. Оценките на дисперсиите с и .

  2. Първата препоръка е свързана с обогатяване на базата с повече данни за учениците и училищата (така наречените контекстуални данни). Подготвеният въпросник би могъл да се попълва от учениците по време на националните оценявания. Това значително ще повиши процента на попълнените въпросника и ще даде възможност повече контекстуални данни да се използват в модела.

  3. От направената апробация на различни модели с наличните данни, изглежда че най-подходящ е класическият линеен регресионен модел с използване на следните две контекстуални променливи: вида училище и езика, който се говори в къщи.

  4. Моделът със смесени ефекти (the multilevel model) дава подобни резултати когато началната точка на оптимизационния процес е векторът, съставен от максимално правдоподобните оценки на линейния модел. Малки промени на началната точка водят до нестабилност на резултата. Процесът на сходимост изисква много време и е много чувствителен към избор на начална точка. Често не е възможно да се получи резултат, т.е. не може да се намери максимума или да се намери втората производна на обратната функция. Възможна причина за това е вида на разпределенията на резултатите от националното оценяване след 7 клас, които описахме по-горе (няма ясно изразени опашки и е с дисперсия много по-голяма от очакваната). Чувствителността от началната точка прави този метод ненадежден.

  5. Примерите по-долу са направени с класическия линеен регресионен модел.

  6. Получените резултати изглеждат смислени за България. Например, потвърждава се предимството на българския език като език за общуване в къщи; ефикасността на някои видове училища, когато се направи списък с добавената стойност и др. Разбира се, допълните анализи биха прибавили още щрихи в тази картина.

Примери

Първи пример – представяне чрез регресионна права

  1. На Фигура 16 всяко училище е представено с точка в координатна система, на която абсцисата е средната стойност на резултатите от националното оценяване по математика и български език и литература в края на 4 клас, а ординатата е същата средна стойност в края на 7 клас.

  2. Червената (горната) права представя очакваната средна стойност на резултатите от националното оценяване в края на 7 клас за момчетата, които говорят български в дома си в училища от вида type1 = 1 и type2 = 0. Зелената (долната) права представя очакваната средна стойност на резултатите от националното оценяване в края на 7 клас момчетата, които говорят ромски в дома си в същия тип училища.

  3. Разстоянието по вертикал (по ординатната ос) между точката, представяща училището, и съответната права е добавената стойност на училището.

  4. Така, точките между двете линии представят училища, за които говоренето на български език в къщи при момчетата има отрицателно влияние върху постиженията им, а говоренето на ромски език в къщи – положително влияние.



Втори пример – корелация между тестовия резултат и добавената стойност

  1. С корелационен анализ са сравнени средните резултатите от националното оценяване в края на 7 клас (сборът от точките от математика и български език и литература) и оценките за добавената стойност за всички училища. Полученият корелационен коефициент е 0.8241, което показва много добра линейна корелация между двата параметъра. Това означава, че (най-общо казано) по-високи средни стойности на резултатите от националното оценяване в края на 7 клас съответстват на по-високи добавени стойности на училищата и обратно, по-ниски средни стойности на резултатите от националното оценяване в края на 7 клас съответстват на по-ниски добавени стойности на училищата





  1. На Фигура 17 всяко училище е представено с точка в координатна система, на която абсцисата е средната стойност на резултатите от националното оценяване по математика и български език и литература в края на 4 клас, а ординатата е същата средна стойност в края на 7 клас. Училищата, представени със звездичка (в червено) са училищата от София-град. Добре се забелязва доброто представяне на училищата от София-град със средна стойност над средната за страната.




Сподели с приятели:
1   2   3   4   5




©obuch.info 2024
отнасят до администрацията

    Начална страница