Лекции по Въведение в статистиката



страница1/3
Дата26.09.2018
Размер0.68 Mb.
  1   2   3

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg





Тема 14. Корелационен анализ. Основни понятия. Измерване на

зависимости при различни видове признаци.

При изследване на зависимости между метрирани статистически признаци обикновено се решават две задачи. Едната е за определяне на формата на зависимостта, а другата е определяне на силата на зависимостта между наблюдаваните признаци. Първата е обект на регресионния анализ, а втората на корелационния. При неметрирани признаци няма как да приложим регресионен анализ, по тази причина можем да определим само силата на зависимостта. Това се прави с подходящо избран корелационен коефициент.

Детерминистичната математика се занимава основно с изучаването на функционални зависимости, т.е. зависимости, при които на един фиксиран аргумент на функцията се съпоставя винаги едно и също детерминирано, множество от числа, най-често точно едно число. При корелационната зависимост на едно фиксирано значение на единия признак, съответства множество от значения на другия, всяко от които с определена вероятност. С корелационния коефициент се измерва силата на тази връзка или зависимост. Чрез него можем да отговорим на въпроса: До каква степен като изменяме едната величина ще влияем на значенията на другата?

Възможно е обаче тази зависимост да не е пряка, т.е. да се предизвиква или влияе и от други неизследвани признаци, ето защо трябва да бъдем особено внимателни при анализиране на резултатите.

Ако искаме да измерим статистическата връзка между повече от две променливи, говорим за многофакторен корелационен анализ1.

14.1. Основни понятия

Корелационният анализ на метрирани признаци започва обикновено с изчертаване на корелационно поле. От неговия графичен образ получаваме първична представа за очакваните резултати. В процеса на работа се пресмята корелационен коефициент r. Да се спрем на някои негови свойства.



  • Обикновено корелационните коефициенти са в интервала [-1, 1], като при неметрирани признаци те са в интервала [0, 1].

  • Ако начина за пресмятане на корелационния коефициент е правилно подбран и | r | = 1, между наблюдаваните признаци имаме функционална зависимост.

  • При нормално разпределени съвкупности r = 0 е еквивалентно на независимост на разглежданите признаци. В общия случай това не е вярно. Вярно е само, че ако измерваните величини са независими, то те са некорелирани, т.е. r = 0.

  • Повечето корелационните коефициенти са симетрични относно двата наблюдавани признака. Това не означава, че анализът им е симетричен относно наблюдаваните величини. Често

пъти само единият признак влияе на другия.

  • Приети са следните определения на корелацията

При 0 < | r | < 0,3 корелационната зависимост се нарича слаба,

при 0,3  | r | < 0,5 – умерена,

при 0,5  | r | < 0,7 – значителна,

при 0,7  | r | < 0,9 – силна,

при 0,9  | r | < 1 – много силна.

Квадратът на корелационния коефициент r2 се нарича коефициент на детерминация. Той показва каква част или ако е превърнат в проценти, колко процента от вариацията на зависимия признак се дължи на вариацията на независимия признак. 1 – r2 се нарича коефициент на индетерминация (неопределеност). Показва каква част от вариацията на зависимата променлива се дължи на други, неразглеждани в модела фактори.

Определянето на методологията за пресмятане на корелационния коефициент става в зависимост от вида на скалата, по която са отчетени значенията на изследвания признак.

Корелационният анализ завършва с проверка на статистическата хипотеза за статистическа значимост на корелационния коефициент.

Тук ще разгледаме само най-често използваните корелационни коефициенти.
14.2. Измерване на праволинейна зависимост при два метрирани признака
Коефициент на праволинейна корелация на Браве. Да разгледаме два метрирани признака Х и Y. Да предположим, че разполагаме с двумерно, просто наблюдение (x1, y1),… ,(xn, yn) над тях, т.е. при всички статистически единици са измерени две значенията: едно на признака Х и едно на признака Y. При това наблюденията над различните статистически единици са независими едно от друго.

Ковариационен момент се нарича ковариацията между X и Y, т. е.



.

От теорията на точковите оценки знаем, че една неизместена и състоятелна оценка на ковариацията е статистиката



Корелация между случайните величини X и Y се нарича нормираният корелационен момент, т. е.

.

Като заместим в тази формула най-добрите оценки на съответните числови характеристики получаваме корелационния коефициент на Браве. Т.е. коефициентът на праволинейна корелация на Браве се определя по формулата



(1)

Той измерва до колко точките от корелационното поле се групират около права. В случая на репрезентативна извадка, корелационният коефициент е точкова оценка за cor(X, Y). При праволинейна зависимост този корелационен коефициент съвпада с корелационния коефициент на Пирсън, определен за прости линейни модели. Той е състоятелна оценка за коефициента на корелация между наблюдаваните величини от генералната съвкупност.

Когато данните са групирани и представени в корелационна таблица се прилага следната

формула:

( 2 )

където k1 и k2 са броeвете на групите съответно при признаците Х и Y, а Sx и Sy са техните стандартни отклонения. С fij е означен броят на статистическите единици, попаднали в i – тата група на признака Х и в j – тата група на признака Y.



представлява броят на всички, наблюдавани единици

е честотата в i – тата група на признака Х.

е честотата в j – тата група на признака Y.

При положителен корелационен коефициент на Браве имаме правопропорционална зависимост между значенията на двата признака и точките от корелационното поле се групират около възходяща права. Ако r < 0 зависимостта е обратнопропорционална и правата около, която се групират точките е низходяща.



Фиг. 27.

Първата фигура на втория ред показва, че при силна, но не праволинейна зависимост можем

да получим корелационен коефициент на Браве, който е близък до нулата.

При следващата проверка на хипотези ще предположим, че наблюдаваният вектор (X,Y) има двумерно нормално разпределение.2 Проверката на хипотезата за отсъствие на корелация между величините X и Y ще представим с един пример: При проучвателни изследвания за изграждане на нова водопречиствателна инсталация са вземани проби в продължение на 30 дни от различни точки на водоснабдителната система на разглежданото населено място. Измерени са две величини Х – наличие на олово (Pb) и Y- съдържание на желязо (Fe) в пробите. Данните от това изследване в [мг./литър] са представени в табл.19.

Проверете хипотезата за отсъствие на корелация между величините Х и Y, при зададено ниво на значимост 0,05. Направете съответните изводи.

Проверяваме хипотезата



Н0 : r = 0, т.е. отклоненията на оценката на корелационния коефициент от нулата се дължат на случайни фактори. Двата наблюдавани признаци да са некорелирани.

Алтернативата е



Н1: r  0 Отклоненията на оценката на корелационния коефициент от нулата се дължат на системно действащи фактори, което е все едно – двата наблюдавани признаци да са корелирани.

Имаме двустранна критична област. Константата С се определя от условието рискът за грешка от I – ви род да е , т.е.



При условие, че нулевата хипотеза е вярна, случайната величина има t – разпределение с n – 2 степени на свобода, т.е. С е 1-/2 квантилът на това разпределение. От таблицата с квантилите на разпределението на Стюдънт определяме, че С = 2,048. Тогава областта на отхвърляне на нулевата хипотеза е



Проверяваме дали извадката попада в критичната област за нулевата хипотеза.



.

Този корелационен коефициент показва, че между наблюдаваните признаци имаме слаба правопропорционална зависимост. Стандартното отклонение на корелационния коефициент се определя по формулата



Тогава емпиричната характеристика е



Неравенството от критичната област за нулевата хипотеза не е удовлетворено. Извадката не е в критичната област за нулевата хипотеза, следователно нямаме основание да я отхвърлим. Това означава, че според данните от извадката между двата наблюдавани признаци не съществува статистически значима корелационна зависимост.



Табл. 19.



х

y







1

0.035

0.200

0.000031

0.008281

0.0005065667

2

0.060

0.330

0.000378

0.001521

0.0007579000

3

0.055

0.220

0.000208

0.005041

-0.0010247667

4

0.035

0.170

0.000031

0.014641

0.0006735667

5

0.031

0.150

0.000092

0.019881

0.0013489000

6

0.039

0.170

0.000002

0.014641

0.0001895667

7

0.038

0.190

0.000007

0.010201

0.0002592333

8

0.049

0.170

0.000071

0.014641

-0.0010204333

9

0.073

0.230

0.001052

0.003721

-0.0019784333

10

0.047

0.180

0.000041

0.012321

-0.0007141000

11

0.031

0.250

0.000092

0.001681

0.0003922333

12

0.016

0.140

0.000604

0.022801

0.0037095667

13

0.015

0.140

0.000654

0.022801

0.0038605667

14

0.015

0.120

0.000654

0.029241

0.0043719000

15

0.022

0.120

0.000345

0.029241

0.0031749000

16

0.043

0.150

0.000006

0.019881

-0.0003431000

17

0.030

0.440

0.000112

0.022201

-0.0015744333

18

0.019

0.520

0.000465

0.052441

-0.0049387667

19

0.021

0.350

0.000383

0.003481

-0.0011544333

20

0.036

0.120

0.000021

0.029241

0.0007809000

21

0.016

0.340

0.000604

0.002401

-0.0012037667

22

0.010

0.090

0.000934

0.040401

0.0061439000

23

0.020

0.380

0.000423

0.007921

-0.0018304333

24

0.085

0.450

0.001974

0.025281

0.0070649000

25

0.090

0.550

0.002444

0.067081

0.0128032333

26

0.015

0.650

0.000654

0.128881

-0.0091784333

27

0.094

0.330

0.002855

0.001521

0.0020839000

28

0.064

0.520

0.000549

0.052441

0.0053662333

29

0.098

0.440

0.003299

0.022201

0.0085575667

30

0.015

0.620

0.000654

0.108241

-0.0084114333

Общо:

1.217

8.730

0.020

0.794270

0.0286730000

Аналогична проверка на хипотези можем да направим и като използваме следното преобразование на Фишер

.

Проверяваме хипотезата



Н0 : r = r0.

Алтернативата е



Н1: r  r0.

При нормално разпределена съвкупност, вярна нулева хипотеза и достатъчно големи n, тази величина има нормално разпределение с дисперсия . Т.е. двустранната критична област за нулевата хипотеза има вида



където константата С е 1 - /2 – квантилът на стандартното нормално разпределение.

При достатъчно голям обем на извадката или нормално разпределена съвкупност можем да построим и доверителен интервал на трансформацията на Фишер. Той е

.

След това използваме обратната трансформация



,

трансформираме краищата на горния интервал и получаваме доверителен интервал на корелационния коефициент.



С какво може да ни бъде полезен Excel в случая:

В Excel ковариацията се извежда с функцията COVAR(x; y), корелационният коефициент на Браве с - CORREL( x; y), а този на Пирсън с функцията PEARSON(x; y). При тестване на праволитейна зависимост последните два коефициента съвпадат.

Трансформацията на Фишър се пресмята с функцията FISHER(r), а обратната трансформация с - FISHERINV(x).

Примерни ситуации и решения:

Пример 1: По данните от Табл. 20 определете силата на праволинейната зависимост между производителността на труда на 1 работник, в изделия на час и средната дневна печалба на фирмата в лв.


Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Поделитесь с Вашими друзьями:
  1   2   3


База данных защищена авторским правом ©obuch.info 2019
отнасят до администрацията

    Начална страница