Лекция 2: т-тест за сравнение на средни и тестове за сравнение на пропорции Основни елементи на статистически анализ



Дата25.07.2016
Размер56.62 Kb.
Лекция 2: Т-тест за сравнение на средни и

тестове за сравнение на пропорции

Основни елементи на статистически анализ:

  • популация:

например: хора над 50 години в София;

  • извадка:

например: n=100 случайно подбрани човека над 50 години, живеещи в София;

  • характеристика:

например: кръвно налягане: X ~ N(μ,σ2),

наблюдаваме X1, X2, X3,.... Xn - н.е.р. N(μ,σ2);



  • статистически извод:

например:

      • оценяване на средното кръвно налягане чрез доверителен интервал: където е процентил на стандартното нормално разпределение (z-score);

      • или тестване на хипотезата, че кръвното налягане е повишено:




Забележка: Тъй като размерът на извадката е достатъчно голям, използваме стандартно нормално разпределение вместо t-разпределение.

Т-тест за сравнение на средните на две независими популации (при предположение за еднаква дисперсия):



е (1-α/2) квантил на t разпределение с степени на свобода
Забележка: Когато имаме наблюдения над едни и същи обекти (зависими наблюдения) за сравнение на средните на двете групи наблюдения се използва сдвоен тест за разлика (paired t-test), който представлява т-тест за една извадка, която е разликата от наблюденията над еднаквите обекти.
Пример: Случайна извадка от пациенти с повишено кръвно налягане са избрани за клинично изпитание за сравняването на лекарство В със стандартно лекарство А. Половината пациенти са рандомизирани към лекарство А, другата половина към лекарство В. Един месец след започване на лечението пациентите се връщат за преглед.

1. Ще оценим средното кръвно налягане на пациентите от всяка група в началото на изпитанието чрез доверителен интервал.

2. Ще сравним кръвното налягане на пациентите от двете групи в началото на клиничното изпитание, за да се убедим, че няма систематични разлики.

3. Ще сравним намалението на кръвното налягане на пациентите от двете групи в края на клиничното изпитание, за да проверим дали лекарство В понижава кръвното налягане повече от лекарство А.

4. За всяка от двете групи поотделно ще тестваме дали приеманото лекарство има ефект. Ще използваме α=0.05.

5. За всяка от двете групи поотделно ще оценим средното намаление на кръвното налягане с 90% доверителен интервал.

6. Ще съставим 99% доверителен интервал за разликата на намаленията на кръвното налягане на двете групи.
Симулирани данни:


obs_num treatment bp_pre bp_post diff

1 A 151 139 12

2 A 162 149 13

3 A 162 128 34

4 A 142 131 11

5 A 158 148 10

6 A 142 124 18

7 A 140 141 -1

8 A 132 144 -12

9 A 164 142 22

10 A 148 122 26

11 B 150 130 20

12 B 145 135 10

13 B 146 117 29

14 B 142 136 6

15 B 145 129 16

16 B 146 134 12

17 B 138 109 29

18 B 147 139 8

19 B 151 129 22

20 B 162 139 23



1А.


1Б. Домашно

2.


3.

4. Домашно
5. Домашно
6. Домашно
Статистически изводи за пропорции (proportions):

  • построяване на доверителни интервали и тестване на хипотези за една или две пропорции се прави по подобен начин на съответните процедури за средни;

  • честотни таблици (contingency tables) са таблици, които показват съвместните честоти на две или повече категорни променливи;

  • тестване на хипотези за две пропорции може да става чрез хи-квадрат тестове за асоциация в честотни таблици;

  • хи-квадрат тестовете се обобщават лесно за повече от две пропорции, за категорни променливи с повече от две категории и подредени данни;

  • хи-квадрат тестовете третират променливите симетрично;

  • алтернативни мерки на разлики от пропорции за две групи са относителeн риск (relative risk) и отношение на шансове/залози (odds ratio);

  • логистични и лог-линейни модели могат да се използват при моделиране на ефектите на много променливи.


Статистически изводи за една пропорция (π):

X1,…,Xn ~ н.е.р. Bernoulli(π), E(Xi)= π, Var(Xi)= π(1- π)

Нека p e наблюдаваната пропорция:


  • Асимптотично при големи n имаме, че

  • Доверителни интервали и тестване на хипотези се базират на тази апроксимация: доверителен интервал за :





  • Тестване на хипотези:



не включва 0 и 1

  • корекция за непрекъcнатост (continuity correction) може да се използва при малки извадки. Софтуерни пакети добавят тази корекция автоматично.

Пример: Проучване, публикувано в JAMA, изследва честотата на пушенето в САЩ през 1993 година. От 43 732 човека, участващи в изследването, 11 239 казват, че пушат. Съставете 95% доверителен интервал за пропорцията пушачи.

p = 11 239/ 43 732 = 0.257;

SE = sqrt[(.257)(.743)/43732] = .002

.257 +/- 1.96 (.002) = (0.253, 0.261)


NB: За разлика от ситуацията със средното, за пропорцията е възможно разминаване на заключенията между доверителния интервал и теста на хипотезата. В софуерната среда R този проблем е разрешен.


Статистически изводи за сравнение на две пропорции, идващи от независими извадки:
XА1,…XАn1~ н.е.р. Bernoulli(π1), E(XAi)= π1, Var(XAi)= π1(1- π1)

XB1,…XBn2~ н.е.р. Bernoulli(π2), E(XBi)= π2, Var(XBi)= π2(1- π2)


Нека p1 и p2 са наблюдаваните пропорции:





  • доверителен интервал за разликата на двете пропорции:





  • Тестване на хипотеза за равенство на двете пропорции:



Пример: Данните са от клинично изпитание, сравняващо ефектите на аспирин и плацебо у жени с повишен риск за високо кръвно налягане по време на бременността. В плацебо групата 11 от 31 жени са повишили кръвното налягане, докато в групата на аспирин 4 от 34 жени са повишили кръвното налягане през третия триместър. Тестваме дали аспиринът е ефективен в понижаване на кръвното налягане.

H0: π1 = π 2

H1: π 1 > π 2

p1 = 11/31 = 0.35, p2 =4/34 = 0.12, p = (4+11)/(34+31)=.23

z = (|0.35 - 0.12| - .5(1/34 + 1/31))/sqrt[0.23(0.77)(1/34+1/31)] =

0.20/0.10 = 2, p-value = .023.

CI: (0.35 - 0.12) +/- 1.96 sqrt[ (0.35)(0.65)/31 + (0.12)(0.88)/34] =

0.23 +/- 0.20 = (0.03,0.43).


Извадката от примера може да се представи в честотна таблица:

Aспирин Плацебо Общо

Повишено налягане 4 11 15

Нормално налягане 30 20 50



Общо 34 31 65
В тази честотна таблица променливите се третират симетрично.
Задача 7: При изследване сред 1506 души за тестовете на професионалните атлети за употреба на стимуланти, 73% от запитаните казали, че ги одобряват. Намерете и интерпретирайте 95%-тен доверителен интервал за пропорцията на хората, които адмирират тестовете за стимуланти.
Задача 8: Направени са извадки от две биномни популации с големина 800 и 640 за първата и втората извадка съответно. Броят на успехите в първата извадка е 337, а във втората 374. Намерете 90%-тен доверителен интервал за разликата Какви предположения сте направили, за да бъде валиден построеният доверителен интервал? Налице ли са? Тествайте хипотезата за равенство на двете пропорции при ниво на съгласие 0.1.


База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница