Д-р Екатерина Маркова

Изтегляне 416.11 Kb.

страница	1/3
Дата	22.07.2016
Размер	416.11 Kb.
	#237

1 2 3

Уводни бележки
Резултати от сравнителен анализ на използване методите на претегляне и приписване в чуждестранния опит

Методът „Приписване” на значения на липсващи данни

д-р Екатерина Маркова

БАН, Институт по Социология, Българска Академия на Науките
Резюме: В статията се обръща внимание на развитието на методите за оптимизация на извадкови данни при непълноти в обхвата в исторически аспект, като се поставя акцент върху различни подходи при класификацията на метода „приписване на значения” (imputation). Използван е пример от чуждестранната практика за сравнителен анализ на предимствата и ограниченията на претеглянето и многомерното „приписване”. Накрая е направен кратък обзор на нововъведенията в статистическите програмни пакети, по-специално на тези, чрез които е възможно прилагането на различни модификации на „приписването” на значения.

Ключови думи: извадка; представителност; обхват; липсващи данни;

Претегляне.

JEL: А14.

Уводни бележки

В практиката на емпиричното социологическо изследване (ЕСИ) (извадкови и изчерпателни) феноменът „липсващи данни”^¹ е иманентно присъщ. Социолозите не са единодушни какъв е допустимият дял необхванати единици, при който „шумът” в информацията не би представлявал изследователски проблем. В българската и чуждестранната практика на ЕСИ се използват различни методи за редуциране на необхвата и неотговорилите. Невинаги тези подходи решават възникналия проблем и понякога могат да доведат до противоречиви и нееднозначни резултати.

В българската специализирана литература все още не се отделя достатъчно внимание на проблемите с обхвата и методите за тяхното решаване, въпреки че потребността от това значително нараства и вероятно в близко бъдеще все повече ще се засилва. В чуждестранната теория и практика се правят интензивни изследвания и се търсят методологически решения на проблемите с обхвата. Излагат се и се обосновават редица подходи, процедури и методи, чрез които в различна степен се търсят решения на този проблем. Струва ни се, че най-оживена е научната дискусия за сравнителните предимства, ограничения и приложение на метода „приписване”^² на значения на липсващи данни (Imputation). Нашите проучвания показват, че в България не са правени специални методически изследвания върху възможностите на този метод и оценки на ефективността му при решаване на проблемите с липсващите данни. Затова бихме искали да акцентираме именно върху същността и ефективността на този, интензивно развиващ се в последните години метод.

Същност на метода „Приписване на значения” на липсващи данни

Основната задача на „приписването”, според Ming-xiu и Salvucci (2001), е да позволи на изследователите да приложат съществуващите статистически методи спрямо всеки информационен масив, съдържащ липсващи данни, без промяна в обема на извадката, като относително се запази структурата така, все едно че в наличния масив загубени данни не съществуват. Стремежът на изследователите при използване разновидностите на метода е да се изпълни тази основна задача, но това често поражда сериозни проблеми.

Съществено важна цел пред „приписването” е и осигуряването на статистическа валидност. За целта се прилагат различни модели за приписване на липсващите значения. Изхожда се от презумпцията, че основните данни на пълния масив са статистически валидни за дадено изследване. При прилагане на същите аналитични подходи спрямо непълен масив от данни, резултатите би следвало да останат статистически валидни за същата изследователска цел. Затова обаче се изисква заложеният в информационния масив модел да бъде адекватен. За съжаление при някои модификации на „приписването” постигането на тази цел често е невъзможно^³.

Искаме да подчертаем, че различните разновидности могат да дадат добри резултати при различни обстоятелства. Препоръчително е да се използва сензитивен подход, когато за определено извадково изследване се избира метод за приписване.

Най-общо, за създаване на пълен масив от данни (без загубени значения) „приписването” може да има следните предимства: 1) Изследователят обикновено притежава повече „вътрешна” информация за причините за загуба на данни. Това знание може да бъде използвано като основа за „приписване”. 2) Липсващите значения усложняват структурата на данните, така че в анализа се налага да се включат по-сложни статистически методи. „Приписването” може да преодолее това затруднение. 3) Методът може да предотврати загуба на информация при изтриване на непълни записи, когато използваните статистически методи изискват пълен масив с данни (например регресионен анализ). 4) В някои случаи, „приписването” може да намали систематичната грешка при неотговаряне (nonresponse bias).

Някои автори (Rubin, 1996; Ming-xiu, Salvucci., 2001) са привърженици на тезата, че при прилагане на претеглянето съществуват сериозни проблеми. Методът за приписване на значения (imputation) намира решение на тези проблеми и поради тази причина „...става един от най-популярните методи, използвани за компенсиране на липсващите данни при извадковите изследвания”. (Ming-xiu, Salvucci, 2001, 1).

В последните години са създадени голям брой приписващи техники^⁴ и програмни продукти.

Класификация на метода „Приписване на значения” на липсващи данни

Съществуват много и различни модификации на метода. Те се класифи-цират според различни критерии, например:

Според вида на признака, чиито значения се приписват, модификациите могат да бъдат:

- количествени,

- качествени.

Според начина, по който се приписват липсващите значения на признака, те се представят като включващи:

- донор (по определен начин се избира подходяща единица, която е донор; липсващите значения се заместват с характеристиките на донора);

- математическа или логическа процедура (когато се работи с мода при категорийни признаци например) - намира се характеристика, която се използва за приписване на липсващото значение.

Според броя на признаците, за които се осъществява „приписването”, то бива едномерно и многомерно. Например осредняване на резултатите от няколко цикъла приписване на значения на липсващи данни на повече от един признака, т.нар. многомерно приписване (а също и други смесени методи).
Според класификацията^⁵ на Ming-xiu, Salvucci (2001) „приписването” може да се представи и с други основни групи: стохастично (случайно) и детерминистично^⁶ (чрез избор).

Съгласно класификацията на тези автори се различават пет основни групи импутационни методи, а именно:

Просто детерминистично приписване;
Просто стохастично приписване;
Детерминистично приписване при използване на

моделирана база;

Стохастично приписване при използване на

моделирана база;

Методи за приписване, свързани с Байесовските закони.

Характерно за детерминистичния подход е определянето на едно и само едно възможно значение, което се приписва на всяка липсваща единица (или липсващо значение по дадена променлива). Веднъж, щом като масивът с данни е обработен чрез приписване, резултатът е уникален и неповторим и създава една симулирана база от данни. От друга страна, стохастичният подход изтегля по случаен начин значения, които да бъдат приписани или от наблюдаваните данни, или от тяхно предполагаемо, вероятностно разпределение. Същевременно този подход (метод) по изкуствен начин намалява вариацията и води, но само фиктивно, до намаляване на стохастичната грешка.

Една алтернатива на това са стохастичните модификации, които като цяло осигуряват повече изменчивост (variability) в данните, отколкото детерминистичните.

Основната хипотеза при приписването на значения на липсващи данни е допускането, че механизмът на неотговаряне може да бъде игнориран, но че липсващата информация по всяка вероятност зависи поне от някоя от наблюдаваните променливи. Такъв тип данни се наричат „загубени по случаен начин – missing at random (MAR)” или „изцяло загубени по случаен начин – missing completely at random (MCAR)”.

Втората базова за метода хипотеза е, че неотговорилите имат приблизително еднакво разпределение с това на отговорилите (Bartholomew, 1961, Cochran, 1977, Samaranayake, 1993).

Според нас невероятното изобилие на разновидности на импутацията е доказателство, от една страна, за разнопосочните изследователски търсения на изследователите за същностно оптимизиране на метода, както и за установяване на базови хипотези с доказателствена стойност. От друга страна, „приписването” има множество подвидове поради разнообразния характер на емпиричните данни и същностната необходимост от прилагане на сензитивен подход при избор на оптимизационни процедури, различни за всеки „уникален” информационен масив.

Едновременно с дискусията относно същността на различните модификации на метода, в специалната литература се обръща съществено внимание на търсенето на неоспорими доказателства в защита на претенцията за общоприложимост и многофункционалност на приписването на значения в сравнение с останалите методи, третиращи проблема с липсващи данни.

Резултати от сравнителен анализ на използване методите на претегляне и приписване в чуждестранния опит

Сравнителният анализ се извършва според няколко избрани критерия: 1) заложените хипотези за механизма на загубата на данни, както и за формиране на съвкупността, която ще бъде третирана; 2) използваните методи за оптимизация и техните модификации; 3) оценката на резултатите, т.е. ефективността на направените корекции.

Както вече изтъкнахме, един от редовно прилаганите в българската практика методи за оптимизация на извадката при необхват е претеглянето. Нашите проучвания показаха, че у нас нерядко се правят анализи само въз основа на получените данни. Често използвана стратегия при анализ на данни с неотговорили (и в българската практика на ЕСИ) е изследователските усилия да се ограничат върху получените случаи (събраната информация) и реализираната съвкупност да се възприеме като случайна извадка от генералната съвкупност (въпреки нарушения обем и структура). Това обаче може да доведе до заключения, обременени с изместване, ако отговорите зависят от наблюдаваните (или ненаблюдаваните) променливи, връзки и взаимодействия.

Методът „Приписване на значения” на липсващи данни не се познава и не се прилага в българската практика на ЕСИ. Това обстоятелство наложи да изследваме сравнителната ефективност на многомерното приписване през призмата и с данните от опита на страни, в които тя е била използвана.

В сравнителен аспект ще анализираме ефектите от използването на три групи подходи и методи: 1) най-често прилаганите подвидове на импутацията, 2) няколко модификации на класическо претегляне на данни, както и 3) изключване на единиците, за които липсват данни, и анализ само на тези, за които е получена информация (по-нататък наричаме последния подход - консервативен). Известни ограничения в изследванията ни се породиха от затруднения достъп до конкретни емпирични данни. Затова сравнителните анализи се основават предимно на обобщени данни от литературни източници. Използвани са изводи и генерализации на западни автори, като сме направили опит за систематизации и критична оценка на постигнатото.

Основни хипотези

В цитирания пример на Рао и колектив (1998) са използвани различни съвременни техники за решаване на проблемите с липсващи данни. Случаят се отнася до реално проведено лонгитюдинално изследване. Авторските решения се основават на няколко работни хипотези, характерни за метода „приписване” на значения на липсващи данни. Накратко те се свеждат до следното: 1) неотговорилите се третират при презумпцията, че механизмът на неотговаряне може да бъде игнориран; 2) характерът на величината на липсващата информация вероятно зависи от характера на наблюдаваните показатели; 3) налице е и зависимост от вълните (повторенията) на провежданото извадково изследване.

Основна хипотеза в анализа, че данните са „загубени по случаен начин – missing at random (MAR)”, се обосновава с факта, че при множество повторения (вълни) загубените данни най-често са „изцяло загубени по случаен начин (MCAR)” или MAR.

Друга важна работна хипотеза е, че неотговорилите са с еднакви характеристики, достатъчно близки до тези на отговорилите във всичките вълни или поне на отговорилите в последната вълна, при последното повторение на изследването (Bartholomew, 1961, Cochran, 1977, Samaranayake, 1993). Иначе казано, авторите предполагат и залагат идеята за приблизително еднакви разпределения на двете части на извадките – отговорили и неотговорили.

Методите на претеглянето се използват, за да се намали систематичното отклонение при оценките от извадковото изследване. При прилагането им се залага противоположната хипотеза, че вероятностите за получаване на отговори се различават при отговорилите и неотговорилите и че по някакъв начин различните вероятности са известни или биха могли да се оценят. По-нататък изследователите ползват няколко начина на претегляне, като за тегла служат тези различни вероятности. Част от тях изискват наличие на информация за връзките и зависимостите между всички респонденти (Brick, 1996, Madow, 1983), т.е. включително и хипотези за наличието на връзки между част (или между всички) променливи, също и за характера (модела) на последните.

Авторите (Rao et al., 1998) се опитват да докажат, че приписването на значения е по-усъвършенстван метод при работа със загубени данни. Следователно техниката на приписване може успешно да замества определени значения за неотговорилите. За целта се използват разпола-гаемите данни при презумпцията за различни типове разпределения на отговорили и неотговорили.

За да се справи с изменчивостта и неустановеността на липсващите данни, Рубин (1978) предлага многократно приписване на значения и след това синтезиране (обединяване) на резултатите. Така той се надява да получи обобщените оценки (Madow 1983, Rubin 1977, 1978, 1986, 1987, Rubin and Schenker 1986). Очаква се още тези оценки да елиминират както вътре-импутационната, така и междуимпутационната неустановеност.

В лонгитюдиналното изследване, посветено на употребата на контрацептивни средства (Rao et al., 1998), за решаване на проблемите с липсващите данни са приложени няколко метода, след като авторите са заложили в анализа три ключови хипотези: 1) неотговорилите не се различават от отговорилите по признака „възраст”; 2) неотговорилите не се различават от отговорилите в последната вълна, контролирани по „възраст”; 3) вероятността за употреба/неупотреба на контрацептиви (обект на изследова-телския интерес) може да бъде проектирана (оценена) чрез тренда между различните вълни на изследването; 4) съществува неслучайна регресионна връзка между част от променливите при двете групи - в конкретния случай връзката между възраст, отговорили/неотговорили и поредна вълна на изследването.

Използвани са два претеглящи фактора – единият според възрастта, а другият според комбинацията от променливите „възраст” и „вълна на изследването”.

Модел на изследването

Ще отбележим, че основната разлика между сравняваните методи се свързва с формиране на съвкупността, която служи за база при третирането (отговорили, неотговорили, всички респонденти от всички вълни, само от една вълна и пр.). Оценяваме това изследване като един оригинален изследо-вателски подход, засягащ пряко проблемите с липсващите данни.

В таблица 1 анализираме разликите (в сравнителен аспект) между прилаганите оптимизационни процедури.

Критериите за сравнителни оценки в случая са: 1) базова съвкупност; 2) приети работни хипотези и други.

Таблица 1. Основни характеристики на сравняваните методи

Метод	Базова съвкупност	Хипотези и други условия
Консервативен подход	Само отговорилите	МСАR
Претеглящи измерители по клетки	Отговорили и неотговорили	Първи измерител, контролиран по възраст. Вторият измерител е контролиран по възраст и вълна на изследването.
Hot deck приписване	Всички респонденти	Неотговорилите са разпреде-лени както отговорилите във всяка възрастова група.
Предиктивно приписване	Всички респонденти	Неотговорилите не се разли-чават от отговорилите.
Hot deck приписване	Отговорили в последната вълна	Неотговорилите са разпределени подобно на отговорилите в пос-ледната вълна във всяка възрастова група.
Предиктивно приписване	Отговорили в последната вълна	Неотговорилите са както отговорилите в последната вълна.
Конкретизиран модел	Отговорили в последната вълна	Вълните в изследването се третират като интервална променлива. Моделът се контролира по вълни и възраст.

1) Анализ на получените данни при консервативния подход

Игнорирането на липсващите данни с анализ само на получената информация нарекохме „консервативен подход”. Авторите използват резултатите от консервативния подход като основа за сравнение на ефектите при: 1) третиране и 2) при липса на действия за компенсация на липсващите данни от информационния масив. За целта се анализират само отговорилите. Неотговорилите са напълно игнорирани. Предположението в този случай е, че механизмът на загубата на данните е „напълно загубен по случаен начин – MCAR”. Това е равнозначно на хипотезата, че двете разпределения са достатъчно близки, различията между тях са случайни и достатъчно малки, за да бъдат пренебрегнати.

2) Претеглящи измерители по клетки

Измерителите третират неотговорилите чрез претегляне на отговорилите, чрез използване на реципрочни вероятности при отговорите. Претеглящите клетки се създават така, че да се осигури максимална хетерогенност между клетките и съответно - максимална хетерогенност вътре в клетките. Изчисляват се два претеглящи измерителя по формулата на Литъл и Рубин (1987).

При първия измерител възрастта се разделя на десет равни подгрупи, т.е. J (=10) претеглящи клетки.

При втория измерител за претегляне се използват факторите „възраст” и „вълна на изследването”, като възрастта се разделя на 10 равни подгрупи (J=10 категории); вълните на изследването са четири (К=4). Комбинацията от двата фактора е използвана за създаване на претеглящи клетки.

3) Hot-Deck^⁷ приписване на всички респонденти

Основното предположение тук е, че неотговорилите са разпределени както всички отговорили във всяка възрастова група. За всеки неотговорил по случаен начин се приписва значение за употреба на контрацептивни средства от всеки отговорил в същата възрастова група (през 5 години). По-нататък е използвана лог-линейната регресия спрямо завършените масиви от данни, с цел да се оцени връзката между променливите и употребата на контрацептиви. Този процес се итерира (повтаря) 5 пъти и оценките се обединяват за получаване на обща оценка според правилата на многомерното приписване.

4) Предиктивно приписване на всички респонденти

Основната хипотеза е, че разпределението на неотговорилите не се различава от това на отговорилите^⁸. Оценяват се - регресионните коефициенти от лог-линейната регресия, само на база отговорили. За -тото приписване се използват оценките от нормалното разпределение . Импутира се употребата/неупотребата на контрацептиви за неот-говорилите с помощта на предвидените вероятности. Процедурата се итерира 5 пъти, оценките се осредняват, за да се получи обща оценка.

Авторите използват два предиктивни (предвиждащи) модела: единият е с контрол по възрастта, а вторият – по всички факторни променливи (възраст, година на включване в изследването, местоживеене, метод на включване в изследването).

5) Hot-Deck приписване на отговорилите в последната вълна

И при този метод важи предположението, че неотговорилите са разпределени подобно на последните отговорили във всяка възрастова категория. На всеки неотговорил, по случаен начин, се приписва значение на съдържателната променлива (употреба на контрацептиви) от отговорилите в последната вълна на изследването за същата възрастова група. Използва се също лог-линейна регресия за получените масиви от данни, за измерване връзката между факторните променливи и употребата на контрацептиви (разглеждана като резултативна променлива). Използваната при този метод съвкупност е тази на отговорилите в последната вълна на изследването.

6) Предиктивно приписване на отговорилите в последната вълна

Работната хипотезата тук е, че разпределението на неотговорилите е както при отговорилите в последната вълна. Оценяват се - регресионните коефициенти от лог-линейна регресия, само на база отговорили в последната вълна на изследването. За -то приписване се изтеглят параметри от разпределението . Приписва се употребата на контрацептиви за неотговорилите спрямо предвидените вероятности.

Отново се използват два предиктивни модела: контролиран по възраст и по всички факторни променливи. Освен това се използва модел, който не съдържа признака „година на включване”, за да се измери чувствителността на резултатите спрямо включване/изключване на силно значими фактори в модела.

7) Конкретизиран модел с отговорилите в последната вълна

Тук се използва един много интересен подход - вълните на изследването се третират като интервална променлива: 1-4 за отговорилите и 5 за неотговорилите. Моделът се контролира според вълните и техните взаимодействия (връзки и зависимости) с променливата „възраст”. Процедурата се изпълнява, както бе посочено по-горе. Осъществяват се 5 итерации, от които в крайна сметка се получава общата оценка по смисъла на многомерното приписване.

Симулирани информационни масиви. Анализ и оценки.

В основата на последващите трансформации на данните са три стратегии, които третират съвкупността на неотговорилите, а именно: 1) неотговорилите са както всички отговорили, контролирано по възраст (чрез лог-линейна регресия); 2) неотговорилите са както отговорилите в последната вълна; и 3) съществува тренд между употребата на контрацептиви и вълната на изследването, като неотговорилите могат да се обособят в отделна, пета вълна.

Данните, симулирани според тези три стратегии, се използват за оценка на потенциалното отклонение при различните трансформации, както и за съпоставка на оценките и стандартните грешки с тези при резултатите, получени от консервативния подход.

В конкретния пример лонгитюдиналното изследване е организирано по повод национална програма за повишаване здравната култура в САЩ. Жените на възраст между 12 и 59 години, които приемат определен медикамент, представляват целевата група на проучването. Използвани са различни подходи за установяване на контакт с жените по време на лечението. Авторите (Rao, 1998) ограничават анализа само спрямо жени, изследвани 6 месеца след края на терапията, които са се включили в програмата в периода 1990-1993.

Изследването е повторено 4 пъти по метода на пощенската анкета (Rao, 1998, 3). Описаните по-горе подходи и методи са приложени спрямо получените от него данни. От общо 106 463 жени, включени в изследването, 59,7 % отговарят на първото пощенско запитване, 13,6 % - на второто, 9,4 % при контакт чрез куриер и 2,3 % - по телефона. 15 % изобщо не са отговорили. От изследваните, 236 жени не дават отговор на резултативната променлива (употреба на контрацептиви). Респондентите са имали поне три седмици за изпращане на попълнен въпросник, преди да бъдат определени като неотговорили и да бъде потърсен повторен контакт (фигура 1.).

ачало на терапия Край на терапия Изследване

0

11

5 месеца

	При първо пощенско запитване	При второ пощенско запитване	При контакт чрез куриер	При тел. допитване	Изобщо неотго-ворили	Общо
Брой на отговорилите	63 571	14 468	10 048	2 401	15 975	106 463
% от изследваната съвкупност	59,7	13,6	9,4	2,3	15,0	100
Употреба на контрацеп-тиви сред отговорилите	65,0 %	60,7 %	58,9 %	56,6 %	-	63,4 %*

* сред отговорилите

Фигура 1. Изследване

Авторите установяват, че употребата на контрацептивни средства намалява между вълните от 65 % сред тези, които отговарят в първата вълна, на 56,6 % сред отговорилите при четвъртата вълна. Общо 63,4 % от отговорилите посочват, че са ползвали контрацептиви. В хода на проучването изследователите разполагат с информация за възраст, година на включване в програмата, местоживеене (регион) и метод на включване (контакт) на всички жени.

Прави се изводът, че само възрастта има значимо влияние върху различни наблюдавани променливи като ниво на отговори - резултативната променлива (употреба/неупотреба на контрацептиви). Връзката е установена като нелинейна при най-младите и най-възрастните жени. Там всъщност се проявяват най-големи нива на неотговаряне. Неотговорилите сред най-младите са 17,7 %, сред най-възрастните – 21,7 %.

По-долу представяме обобщените резултати от направените сравнения. Според данните в таблица 2, оценките за употребата на контрацептиви варират межди 62,37 % и 63,38 %. Всички методи, освен консервативния подход, подценяват оценката на разпространението (употребата на контрацептиви).

Таблица 2

Методи

Употреба на контрацептиви (%)

Стандартна грешка

Консервативен подход (само отговорилите)

63,38

0,16

Претегляне^⁹

63,18

0,15

Hot-Deck приписване (всички респонденти)

63,19

0,16

Предиктивно приписване (всички респонденти)

63,17

0,15

Hot-Deck приписване (само отговорилите в последната вълна)

62,48

0,17

Предиктивно приписване (само отговорилите в последната вълна)

62,44

0,24

Претегляне^¹⁰

62,48

0,22

Конкретизиран модел (1-4 вълна отговорили, 5-а вълна - неотговорили)

62,37

0,25

Анализът на получените данни, без неотговорилите, дава отклонение, тъй като не отчита връзката на възрастта с отговора и резултата, т.е. има ли бременност или не. Стандартните грешки на оценките, получени от всички респонденти, са подобни на стандартната грешка на оценката, получена при консервативния подход – само на база отговорилите. Методът, използващ респондентите в последната вълна, както и конкретизираният модел имат по-високи стандартни грешки заради малкия брой отговорили в последната вълна - използвани, за да се предвиди употребата на контрацептиви сред неотговорилите.

За да се оцени ефективността на различните описани методи, се създават 1000 симулирани масиви с данни. След това отклонението и обхвата при 95 % доверителен интервал се изчисляват отделно за всеки метод.

Връзката между възрастта и оценката на употребата на контрацептиви се определя като обратнопропорционална, докато тази между възрастта и отговарянето – като правопропорционална. Най-младите и най-възрастните жени посочват по-ниски нива при оценката на употребата (съответно 10,2 % и 30,6 %), както се очаква. Констатацията е, че връзката между другите фактори и употребата на контрацептиви при прием на медикамента не е статистически значима.

Анализът показва наличие на връзка между възрастта и употребата на контрацептиви (Rao, 1998, 5). Всички променливи са категорийни, с две или повече разновидности, резултативната променлива (наличие на бременност) също е категорийна, но само с две разновидности, т.е. дихотомна променлива.

Авторите^¹¹ сравняват оценките за употребата на контрацептиви с оценките на техните стандартни грешки. Подчертава се също, че интерес представлява измерването на най-разпространения вид употреба на контрацептиви (поне 6 месеца след терапията) и неговата връзка с възрастта. Резултатите се използват за оценка на връзката в лог-линейни регресионни модели.

Получените данни дават информация по вълни за възрастта и вълната на изследване за всички жени и оценката на употребата сред отговорилите. Допуска се хипотезата, че наблюдаваните данни са „действителни” (truе).

Моделира се връзка между възрастта, вълните и резултата (наличие на бременност), за да се създадат параметри, които се използват при симулиране на 1000 масива с данни.

Различните методи за третиране на неотговорилите, описани по-горе, са приложени към всеки един от 1000 симулирани масиви. При всеки от 3-те опита методите, които третират всички респонденти, отговорилите и употребяващите контрацептиви от вълни 1-4, са събрани заедно, за да се получат данни за всички отговорили и за употребяващите контрацептиви сред отговорилите.

За методите, които използват само отговорилите в последната вълна, авторите третират жените от вълни 1-3 като първи, а отговорилите от 4 вълна като последни респонденти. Употребяващите контрацепция сред вълни 1-3 са третирани като употребяващи сред първите респонденти, а другите – като употребяващи сред последните респонденти.

Оценките на параметъра (% употреба на контрацептиви), на система-тичните грешки и на стохастичните при 95% доверителен интервал са изчислени за всеки от симулираните масиви с данни. Отклоненията между оценките са изчислени като разлика между оценката на разпространението за всеки симулиран масив и „действителната” параметрична стойност и се дават 95% доверителни интервали, в които се очаква да се съдържа „действителната” стойност. Обобщените резултати според хипотезата, че неотговорилите са както всички отговорили, са представени в таблица 3.

При консервативния подход се наблюдава по-нисък обхват в сравнение с номиналното равнище (95 %). Методите, които използват като основа всички респонденти, постигат номинални обхвати. Претеглянето, базирано само на възрастта, е с най-малко отклонение. Преобладаващата оценка за употребата на контрацептиви, получена от методите, които използват отговорилите в последната вълна за приписваните значения на неотговорилите, е с по-голямо отклонение и респективно с по-малка точност, отколкото при методите, които използват всички респонденти като източник на приписванията. Конкретизираният модел отчита тренда за преобладаващата оценка на употребата на контрацептиви според вълните на изследването и дава най-ниската оценка за употребата. Обхватът при последните четири метода изглежда относително нисък – предполага се, че неотговорилите са както отговорилите в последната вълна.

Каталог: alternativi -> br3
alternativi -> Практико-приложна конференция
br3 -> Как работи рекламата, все пак?!
br3 -> Конфликтите за енергийни ресурси в бъдеще Павел Минков –унсс, катедра „Международни отношения”
br3 -> Матилда Александрова
br3 -> Книга „ Икономическата теория на прага на XXI век
br3 -> Счетоводен модел за определяне доходността по банкови продукти
br3 -> Сенчести” страни на политическия пазар доц д-р Георги Л. Манолов
br3 -> Реформата на висшето образование в българия: конкурентоспособност в европейското образователно пространство
br3 -> Неофит Рилски" Благоевград, катедра „ Финанси и отчетност"
br3 -> Модел за определяне на бюджетните отклонения на организацията в неопределена среда гл ас д-р Мая Руменова Ламбовска

Изтегляне 416.11 Kb.

Сподели с приятели:

1 2 3

Д-р Екатерина Маркова

д-р Екатерина Маркова

Уводни бележки

Резултати от сравнителен анализ на използване методите на претегляне и приписване в чуждестранния опит