Д-р Екатерина Маркова



страница3/3
Дата22.07.2016
Размер416.11 Kb.
1   2   3

Таблица 5. Резултати от сравнението на показателите:


на употребяващите контрацептиви; стандартна грешка, средно нестохастично отклонение и вероятност за обхват при осем алтернативни метода, основани на 1000 симулации.

Неотговорилите се третират като 5-а вълна

МЕТОДИ

Употреба на контрац.

(%)


Станд. грешка

Средно нестохастично отклонение

Вероятност за обхват

Действителни параметри

62,44

0,15







Консервативен подход (само отговорилите)

63,38

0,16

0,94

0,0

Претегляне16

63,18

0,16

0,74

0,3

Hot-Deck приписване

(всички респонденти)



63,17

0,16

0,74

0,2

Предиктивно приписване

(всички респоненти)



63,19

0,16

0,75

0,3

Hot-deck приписване (само отговорилите в последната вълна)

62,52

0,16

0,08

84,6

Предиктивно приписване (само отговорилите в последната вълна)

62,49

0,21

0,05

94,6

Претегляне17

62,52

0,21

0,08

94,3

Конкретизиран модел (1-4 вълна отговорили, 5-а вълна – неотговорили)

62,38

0,24

-0,06

99,0

  • Изводи

Авторите на изследването (Rao et all., 1998, 17) коментират, че резултатите са чувствителни спрямо избраните подходи, методи и модели. Убедително звучи изводът, че методите за оптимизация работят по-добре, когато заложените хипотези съответстват на механизма на произвеждане (произход) на данните, респ. на механизма на неотговаряне.

Например, методите, които използват всички отговорили за елиминиране на неотговорилите, работят добре според първия подход – хипотезата, че: 1) неотговорилите са като всички отговорили, но нямат удовлетворителни резултати при другите два начина; 2) неотговорилите са както отговорилите в последната вълна и 3) неотговорилите са обединени в 5-а вълна. Методите, които използват отговорилите в последната вълна за минимизиране на ефектите от липсващите данни, показват добри резултати при втория и третия подход за произход на данните, но не и при първия. Методите, които контролират данните по възраст и вълни на изследване, работят по-добре при втория и третия подход, но не и при първия.

Ще изтъкнем, че оценките, получени от консервативния подход – при работа само с отговорилите - са изместени и дават относително най-неудовлетворителни резултати и при трите хипотези. При консервативния подход връзката на възрастта с отговорите и резултата (наличие на бременност) не се взема предвид. Повечето от неотговорилите са разпреде-лени в екстремумите (минимума и максимума) на възрастта. Също така, упот-ребата на контрацептиви е по-ниска в крайните възрастови категории. Послед-ните отговорили (в последната вълна) се различават от първите по употребата на контрацептиви. Има основание да се мисли, че неотговорилите вероятно са по-близо като разпределение и характеристики до последните отговорили, отколкото до първите. Това обяснява защо методите, които използват послед-ните отговорили, дават по-добри резултати при третия опит за произвеждане на данни (обособяване на неотговорилите в 5-а последна вълна).

Данните показват, че оценката на параметъра () намалява в зависимост от вълните на провеждане на изследването – това е доказателство за наличие на тенденция (тренд). Оценява се, че методите, които се основават на съвкупността от последните отговорили, работят добре дори в ситуации, при които употребата на контрацептиви за неотговорилите се екстраполира от модела, използващ линейна променлива за вълните на изследването. Това вероятно се дължи на факта, че неотговорилите са по-близо като разпреде-ление до последните отговорили, що се отнася до употребата на контрацеп-тиви. В тази ситуация, ако се интересуваме само от оценката на употребата, вероятно няма да е нужно да проследяваме неотговорилите в 4-ата вълна, освен ако не се стремим към увеличаване на нивото на получените отговори.

В практиката консервативният подход се използва често и този пример е още едно доказателство, че неговите резултати са с неконтролирано отклоне-ние. Понякога елиминирането на неотговорилите се прави според предполо-жението, че те са подобни на отговорилите, или както се среща в литературата – представляват „извадка от извадката”.

Авторите изтъкват (Rao et al., 1998), че когато се прави интензивно проследяване на неотговорилите, вторият и третият подход дават много по-валидни, надеждни и достоверни резултати. В изследването неотговорилите са 15%. И въпреки че отговорилите в последната вълна се различават от първите, разликата не е значима. В изследванията, при които последните отговорили се различават значително от първите, предположенията за разпределението на неотговорилите биха могли да имат по-голямо влияние върху интересуващите ни оценки. При такива ситуации за оценяване разпространението на търсения ефект се препоръчва да се използват подходи, подобни на втория и третия.



Събирането на подробна методическа информация за всички респонденти (отговорили и неотговорили) може да намали изместването при оценяване на такива ефекти.

Анализът на вълни се използва преди всичко при извадкови изследвания. В някои случаи вълните позволяват проследяване на едни и същи респонденти за период от време (повтаряне на наблюдението – панелни изследвания). Освен това анализ на вълни се прави не само при социално-медицински изследвания – с цел оценка на ефекти в краткосрочен или дългосрочен план. В българската практика се провеждат изследвания на домакинските бюджети, на медийната аудитория, лонгитюдинални демографски изследвания и др.

Би било много полезно за изследователите, ако се открие начин за оценка кога да спре издирването на неотговорилите – колко последващи посещения биха дали оптимален резултат. Подобни методически решения обикновено се основават предимно на анализ на разходите. Би било добре, ако те също са продиктувани от това дали издирването на неотговорилите над определен брой повторения на изследването ще предизвика статистически значима разлика в оценките, които интересуват изследователя.

Според нас нито един метод за оптимизация на липсващи данни (преди, по време и след теренната работа) не може да бъде считан за „панацея”. Търсенето на компромис между изразходване на изследователски ресурси (финансови, времеви, професионални) и желана точност на информацията трябва да се прави балансирано и отговорно чрез прилагане на сензитивен подход. Изследователите трябва да отчитат както предимствата, така и недостатъците на различните методи за решаване на проблемите с липсващи данни и да направят своя избор с оглед целите и задачите на последващия анализ.

Трябва да изтъкнем, че преглеждайки специалната литература по въпросите на многомерното приписване, не открихме примери за прилагането му спрямо данни от социологически изследвания в тесния смисъл на думата. Най-често се посочват приложения на метода при социално-икономически или социално-медицински извадкови изследвания, както и в областта на социалния маркетинг. Не открихме също и доказателства някоя модификация на приписването да е прилагана спрямо данни от изчерпателни изследвания, както и при малки извадки. Бъдещ научен интерес очевидно представлява прилагането на метода за приписване на значения върху масиви с данни от български извадкови (и изчерпателни) ЕСИ.

Въпреки че многомерното приписване18 (използвано в цитирания пример) е описано за първи път преди 20 години (Rubin, 1987), методът остава непознат и не се използва в емпиричната социология у нас и в чужбина. Основната причина за това неразбиране, според Шафер (1998), е отсъствието на изчислителни инструменти за създаване на многомерно приписване.

Напоследък в статистическата литература се появява забележително разнообразие от симулационни методи. Тези методи, общоизвестни като „Монте Карло Маркови редици (вериги)” (Markov chain Monte Carlo) стават причина за „революция” при прилагане на параметричното моделиране (Gilks, Richardson & Spiedelhalter, 1996). Шафер (1997) адаптира и прилага методите тип „Монте Карло Маркови редици” за нуждите на многомерното приписване.

В частност Шафер създава едни от основните програмни продукти и приложения за многомерно приписване на непълни многомерни данни. Някои от тези програми работят като самостоятелно графично приложение за компютри, работещи под Windows (95/NT)19. На разположение са четири пакета: NORM, който позволява множествена импутация чрез нормален многомерен модел; САТ - за многомерни категорийни данни; МІХ - за смесени масиви от данни, съдържащи категорийни, непрекъснати променливи; РАN - за многомерни панелни или клъстерни данни.

Анализът на масиви с данни, обременени с липсващи значения, е част от статистическата наука, където в последните години са направени действителни постижения. Съвременните техники за липсващи данни, които импонират значително на старите ad hoc методи20, вече са изцяло на разположение на анализаторите. Според Шафер (Schafer, 1997) сред тези нови техники многомерното приписване е особено мощен метод заради своята общоприло-жимост. Той твърди, че стандартните програми за анализиране на данни, като SAS, SPSS, LISREL, никога не са били проектирани за обработка на информа-ционни масиви с висок процент на липсващи значения и процедурите за липсващи данни, създадени в тези програми, са далеч от добрите. От друга страна, тези програми са изключително ефективни при обработка на масиви с пълни данни, защото предлагат невероятно разнообразие от методи и моделиращи техники. Софтуерът за многомерно приписване, който Шафер предлага, по-скоро допълва, отколкото измества статистическите програмни продукти.

Многомерното приписване наподобява по-старите методи за изтриване на случаи (case deletion) и ad hoc импутацията в това, че третира липсващите данни в самото начало, преди започване на последващ анализ. За разлика от ad hoc методите обаче многомерното приписване решава проблема с липсващите данни по принципен и статистически защитим начин, обединявайки неустановения характер на липсващите данни във всички статистически заключения.

Многомерното приписване не е единственият съвременен метод за минимизиране на ефектите от липсващите данни. Някои производители на статистически софтуер започнаха да въвеждат начините за обработка на непълни данни директно в определени видове моделиращи техники. Тези процедури са близки до многомерното приписване в това, че осредняват предполагаемото разпределение на липсващите данни, но осредняването се прави чрез използване на аналитични или числени методи вместо чрез симулация. Програмите за многомерно регресионно моделиране, включително HLM (Bryk, Raudenbush & Congdon , 1996) и SAS PROC MIXED (Little et al., 1996), позволяват случайни, произволни модели на липсващи значения в резултативната променлива. Две програми за моделиране на структурни уравнения - Мх (Neale, 1991) и Amos (Arbuckle, 1995), могат да направят директна оценка на максималното правдоподобие, използвайки и двата вида данни – с пълни и непълни случаи. С уместно големи обеми на извадките, тези преки методи за оценка на максималното правдоподобие биха довели до абсолютно същите резултати, както многомерното приписване. Всъщност преките методи за оценка на максималното правдоподобие (Direct Maximum-Likelihood Methods) са малко по-ефикасни в сравнение с многомерното приписване, защото не разчитат на симулация.

В степента, в която тези преки методи за оценка на максималното правдоподобие са достъпни, Шафер си позволява (Shafer, 1998) горещо да ги препоръча. При много видове изследователски задачи обаче все още се използват непреки процедури. Например не е създаден статистически програмен продукт, способен да изпълни логистичен регресионен модел с липсващи значения на резултативни и факторни променливи. Изглежда малко вероятно такъв софтуер да бъде създаден в обозримо бъдеще. Преките методи за оценка на максималното правдоподобие са твърде усложнени в изчисленията и изискват специализирано прилагане на всеки нов тип модел. От друга страна, многомерното приписване е техника, която веднага може да бъде приложена при голям диапазон от проблеми на модела.

Една от важните характеристики на „приписването” е това, че нейната основа е единицата, за разлика от претеглянето, което борави със съвкупности от единици. Именно поради тази причина методът „приписване” обръща сериозно внимание на вида на разпределението (основно или предполагаемо), както и на причините за отпадане на единици. Различните работни хипотези на метода и неговите разновидности, въпреки усилията на техните привърженици, все още не могат да се освободят в някои случаи от твърде сериозни недостатъци и във всички случаи ще предизвикват задълбочена дискусия в бъдеще. Това, което все още не се подлага под съмнение, е, че изследователят трябва да вложи всичките си усилия за коректно и пълно изпълнение на извадката на терен21.

Според нас нито един метод за оптимизация на липсващи данни (независимо дали масивът се третира преди, по време или след теренната работа) не може да бъде считан за привилегирован. Търсенето на компромис между изразходване на изследователски ресурси (финансови, времеви, професионални) и желана точност на информацията е необходимо да се прави балансирано и отговорно чрез прилагане на сензитивен подход. Изследовате-лите трябва да отчитат както предимствата, така и недостатъците на различните методи за решаване на проблемите с липсващи данни и да направят своя избор съобразно целите и задачите на последващия анализ.



Литература


  1. Атанасов, Ат., Достоверност и контрол при емпиричното социологическо изследване, БАН, С., 1990.

  2. Bartholomew, DJ., A Method for Allowing for „Not-at-home” Bias in Sample Surveys, J.Roy Statist Soc; c. 10:52-9.

  3. Bryk, A.S., S.W. Raudenbush, Hierarchical Linear and Nonlinear Modeling with the HLM/2L and HLM/3L Programs, Scientific Software International, Chicago, 1992.

  4. Buck, S.F., A Method of Estimation of Missing Values in Multivariate Data Suitable for Use with an Electronic Computer, J Royal Statistical Society, 1960.

  5. Гатев, К., Въведение в статистиката, Изд. ЛИА, С., 1995.

  6. Георгиев, Ст., Методи за импутиране на липсващи данни, Статистика, №1. С., 2002.

  7. Маркова, Е. Обхват на емпиричното социологическо изследване – дефиниране, измерване, проблеми, сп. Алтернативи, бр. 1-2, с. 35-45, 2003.

  8. Dempster, A.P., N.M. Laird, & D.B. Rubin, Maximum Likelihood Incomplete Data via EM Algorithm, Journal of the Royal Statistical Society, Series B, 39, 1-38. 1997.

  9. Ezzati-Rice, T.M., W. Johnson, M. Khare, R.J.A. Little, D.B. Rubin & J.L. Schafer, A Simulation Study to Evaluate the Performance of Model-based Multiple Imputations in NCHS Health Examination Survey, In Proceedings of the Annual Research Conference, pp.257-266. Bureau of the Census, Washington, D.C. 1995.

  10. Gilks, W.R., S. Richardson & D.J. Spiegelhalter, (Eds.). Markov Chain Monte Carlo in Practice, Chapman & Hall, London, 1996.

  11. Graham, J.W., S.M. Hofer & A.M. Paccinin, Analysis with Missing Data in Drug Prevention Research, In Collins, L & Seitz, L. (Eds.), National Institute on Drug Abuse Research Monograph Series, Vol.142, pp.13-62. National Institute on Drug Abuse, Washington, D.C., 1994.

  12. Graham, J.W. & J.L. Schafer, On the Performance of Multiple Imputation for Multivariate Data with Small Sample Size, In Holey, R. (Ed.), Statistical Strategies for Small Sample Research, Sage, Thousand Oaks, 2002.

  13. Kish, L., Weighting for Unequal P, Journal of Official Statistics, 8.), 1992.

  14. Little, R.J.A. & Rubin, D.B., Statistical Analysis with Missing Data, J.Willey & Sons, NY, 1987.

  15. Little, R.J.A., Survey Nonresponse Adjustments for Estimates of Means, In: International Statistical Review, 1986, 54:139-57.

  16. Little R.J.A., Missing Data Adjustments in Large Surveys, J. Bus & Econ Statist; 1988, 6:287-96.

  17. Rubin, D.B., Inference and Missing Data. Biometrica, 1976, 63, 581-592.

  18. Rubin, D.B., Multiple Imputations in Sample Surveys – a Phenomenological Bayesian Approach to Nonresponse, Proceedings of the Survey Research Methods Section, American Statistical Association, 1978, 20-34.

  19. Rubin, D.B., Multiple imputation for Nonresponse in Surveys, J.Willey and Sons, New York, 1987.

  20. Rubin, D.B., Multiple Imputation after 18+ years (with discussion). Journal of the American Statistical Association, 1996, 91, 473-489.

  21. Rubin, D., J. Schafer, Multiple Imputation for Multivariate Missing-data Problems, Course – Joint statistical meeting, Dallas TX, 1998.

  22. Sowmya Rao, R., M.E. Glickman, R.J. Glynn, Use of a Highly Influential Covariate and Multiple Waves in Reducing Non-response Impact in Surveys, In: Using Multiple Imputation for the Analysis of a Multi-wave Survey with Nonresponse. Annual Conference of Non-response, American Statistical Association, 1998.

  23. Schafer, J.L., Analysis of Incomplete Multivariate Data, Chapman & Hall, London, 1997.

  24. Schafer, J.L., Imputation of Missing Covariates under a Multivariate Linear Mixed Model, Biometrics, 2002.

  25. Schafer, J.L., Olsen M.K. Multiple Imputation for Multivariate Missing-data Problems: a Data Analyst’s Perspective, The Pennsylvania State University Press, 1998.

  26. Schafer, J.L., M. Khare & T.M. Ezzati-Rice, Multiple Imputation of Missing Data in NHANES III, In Proceedings of the Annual Research Conference, pp.459-487, Bureau of the Census, Washington, D.C. 1993.




1 Терминът „missing data”, или загубени данни, може да срещнем в специалната литература също като необхват; липсващи данни; неизследвани, необхванати единици и пр.

2 Глаголът Impute освен приписвам се среща и в негативен смисъл – приписвам някому нещо лошо и пр. В различните речници не открихме превод на съществителното Imputation. В стремежа си към запазване чистотата на българската научна терминология, в търсене на оптимален терминологичен превод, метода Imputation ще наричаме “приписване” на значения на липсващи данни. За това си решение се ръководим най-вече от същността на процедурата и нейните разновидности.

3 Тук не засягаме конкретните предимства и недостатъци на различните разновидности на метода.

4 В съвременната методическа литература са описани повече от 40 разновидности на метода за приписване на значения на липсващи данни. Същото важи и за програмните продукти и отделни приложения към тях, които продължават да се усъвършенстват с бързи темпове. Понякога разликата между някои разновидности на “приписването” е почти недоловима за окото на лаика, докато при други става въпрос за цялостна промяна на механизма на търсене на значения, които да заместят липсващите данни.

5 Която приемаме за по-коректна.

6 В англоезичната методическа литература изрично се посочва, че термините “случайно” и “стохастично” са синоними (random=stochastic).

7 За подробности относно същността на Hot-deck приписването виж Schafer, 1997.

8 Макар авторите да не подчертават изрично, прави впечатление, че основната хипотеза за двете приписвания на база всички респонденти е една и съща. В единия случай (3) се уточнява, че неотговорилите са еднакви като разпределение с отговорилите, докато при предиктивното “приписване” (4) това уточнение не е направено. За значението на тази разлика можем само да предполагаме.

9 Базирано само на възрастта.

10 Претеглянето се извършва на база възраст и вълна на изследването.

11 Използваните формули за оценка на употребата на контрацептиви, нейната дисперсия и средната квадратична грешка, както и относителният дял на обхвата и действителните параметри са изложени подробно в Rao, 1998, 4.

12 Претегляне само според възрастта.

13 Претеглянето се извършва на база възраст и вълна на изследването (wave of response).

14 Претегляне само според възрастта.

15 Претеглянето се извършва на база възраст и вълна на изследването (wave of response).

16 Претегляне само според възрастта.

17 Претеглянето се извършва на база възраст и вълна на изследването (wave of response).

18 Multiple Imputation (Schafer, 1997; Rubin, 1987).

19 Те могат да бъдат инсталирани безплатно от Интернет адрес http://stat.psu.edu/~jls/misoftwa.html.

20 Като изтриване на случаи (case deletion) например.

21 За последствията от неспазване процедурите за изпълнение на извадката на терен се дава пример от българската практика на ЕСИ в Маркова, Е., Обхват на емпиричното социологическо изследване – дефиниране, измерване, проблеми, сп. Алтернативи, бр. 1-2, с. 35-45, УНСС.



1   2   3


База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница