Лекции по Въведение в статистиката



страница1/2
Дата05.09.2017
Размер0.55 Mb.
  1   2

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg





Тема 14. Корелационен анализ. Основни понятия. Измерване на

зависимости при различни видове скали.

При изследване на зависимости между метрирани статистически признаци обикновено се решават две задачи. Едната е за определяне на формата на зависимостта, а другата е определяне на силата на зависимостта между наблюдаваните признаци. Първата е обект на регресионния анализ, а втората на корелационния. При неметрирани признаци няма как да приложим регресионен анализ, по тази причина можем да определим само силата на зависимостта. Това се прави с подходящо избран корелационен коефициент.

Детерминистичната математика се занимава основно с изучаването на функционални зависимости, т.е. зависимости, при които на един фиксиран аргумент на функцията се съпоставя винаги едно и също детерминирано, множество от числа, най-често точно едно число. При корелационната зависимост на едно фиксирано значение на единия признак, съответства множество от значения на другия, всяко от които с определена вероятност. С корелационния коефициент се измерва силата на тази връзка или зависимост. Чрез него можем да отговорим на въпроса: До каква степен като изменяме едната величина ще влияем на значенията на другата?

Възможно е обаче тази зависимост да не е пряка, т.е. да се предизвиква или влияе и от други неизследвани признаци, ето защо трябва да бъдем особено внимателни при анализиране на резултатите.

Ако искаме да измерим статистическата връзка между повече от две променливи, говорим за многофакторен корелационен анализ1.

14.1 Основни понятия

Корелационният анализ на метрирани признаци започва обикновено с изчертаване на корелационно поле. От неговия графичен образ получаваме първична представа за очакваните резултати. В процеса на работа се пресмята корелационен коефициент r. Да се спрем на някои негови свойства.



  • Обикновено корелационните коефициенти са в интервала [-1, 1], като при неметрирани признаци те са в интервала [0, 1].

  • Ако начина за пресмятане на корелационния коефициент е правилно подбран и | r | = 1, между наблюдаваните признаци имаме функционална зависимост.

  • При нормално разпределени съвкупности r = 0 е еквивалентно на независимост на разглежданите признаци. В общия случай това не е вярно. Вярно е само, че ако измерваните величини са независими, то те са некорелирани, т.е. r = 0.

  • Повечето корелационните коефициенти са симетрични относно двата наблюдавани признака. Това не означава, че анализът им е симетричен относно наблюдаваните величини. Често

пъти само единият признак влияе на другия.

  • Приети са следните определения на корелацията

При 0 < | r | < 0,3 корелационната зависимост се нарича слаба,

при 0,3  | r | < 0,5 – умерена,

при 0,5  | r | < 0,7 – значителна,

при 0,7  | r | < 0,9 – силна,

при 0,9  | r | < 1 – много силна.

Квадратът на корелационния коефициент r2 се нарича коефициент на детерминация. Той показва каква част или ако е превърнат в проценти, колко процента от вариацията на зависимия признак се дължи на вариацията на независимия признак. 1 – r2 се нарича коефициент на индетерминация (неопределеност). Показва каква част от вариацията на зависимата променлива се дължи на други, неразглеждани в модела фактори.

Определянето на методологията за пресмятане на корелационния коефициент става в зависимост от вида на скалата, по която са отчетени значенията на изследвания признак.

Корелационният анализ завършва с проверка на статистическата хипотеза за статистическа значимост на корелационния коефициент.

Тук ще разгледаме само най-често използваните корелационни коефициенти.
14.2. Измерване на праволинейна зависимост при два метрирани признака
Коефициент на праволинейна корелация на Браве. Да разгледаме два метрирани признака Х и Y. Да предположим, че разполагаме с двумерно, просто наблюдение (x1, y1),… ,(xn, yn) над тях, т.е. при всички статистически единици са измерени две значенията: едно на признака Х и едно на признака Y. При това наблюденията над различните статистически единици са независими едно от друго.

Ковариационен момент се нарича ковариацията между X и Y, т. е.



.

От теорията на точковите оценки знаем, че една неизместена и състоятелна оценка на ковариацията е статистиката



Корелация между случайните величини X и Y се нарича нормираният корелационен момент, т. е.

.

Като заместим в тази формула най-добрите оценки на съответните числови характеристики получаваме корелационния коефициент на Браве. Т.е. коефициентът на праволинейна корелация на Браве се определя по формулата



(1)

Той измерва до колко точките от корелационното поле се групират около права. В случая на репрезентативна извадка, корелационният коефициент е точкова оценка за cor(X, Y). При праволинейна зависимост този корелационен коефициент съвпада с корелационния коефициент на Пирсън, определен за прости линейни модели. Той е състоятелна оценка за коефициента на корелация между наблюдаваните величини от генералната съвкупност.

Когато данните са групирани и представени в корелационна таблица се прилага следната

формула:

( 2 )

където k1 и k2 са броeвете на групите съответно при признаците Х и Y, а Sx и Sy са техните стандартни отклонения. С fij е означен броят на статистическите единици, попаднали в i – тата група на признака Х и в j – тата група на признака Y.



представлява броят на всички, наблюдавани единици

е честотата в i – тата група на признака Х.

е честотата в j – тата група на признака Y.

При положителен корелационен коефициент на Браве имаме правопропорционална зависимост между значенията на двата признака и точките от корелационното поле се групират около възходяща права. Ако r < 0 зависимостта е обратнопропорционална и правата около, която се групират точките е низходяща.



Първата фигура на втория ред показва, че при силна, но не праволинейна зависимост можем

да получим корелационен коефициент на Браве, който е близък до нулата.

Проверката на хипотезата за отсъствие на корелация между величините X и Y ще представим с един пример: При проучвателни изследвания за изграждане на нова водопречиствателна инсталация са вземани проби в продължение на 30 дни от различни точки на водоснабдителната система на разглежданото населено място. Измерени са две величини Х – наличие на олово (Pb) и Y- съдържание на желязо (Fe) в пробите. Данните от това изследване в [мг./литър] са представени в табл.19.

Проверете хипотезата за отсъствие на корелация между величините Х и Y, при зададено ниво на значимост 0,05. Направете съответните изводи.

Проверяваме хипотезата

Н0 : r = 0, т.е. отклоненията на оценката на корелационния коефициент от нулата се дължат на случайни фактори. Двата наблюдавани признаци да са некорелирани.

Алтернативата е



Н1: r  0 Отклоненията на оценката на корелационния коефициент от нулата се дължат на системно действащи фактори, което е все едно – двата наблюдавани признаци да са корелирани.

Имаме двустранна критична област. Константата С се определя от условието рискът за грешка от I – ви род да е , т.е.



При условие, че нулевата хипотеза е вярна, случайната величина има t – разпределение с n – 2 степени на свобода, т.е. С е 1-/2 квантилът на това разпределение. От таблицата с квантилите на разпределението на Стюдънт определяме, че С = 2,048. Тогава областта на отхвърляне на нулевата хипотеза е



Проверяваме дали извадката попада в критичната област за нулевата хипотеза.



.

Този корелационен коефициент показва, че между наблюдаваните признаци имаме слаба правопропорционална зависимост. Стандартното отклонение на корелационния коефициент се определя по формулата



Тогава


Неравенството от критичната област за нулевата хипотеза не е удовлетворено. Извадката не е в критичната област за нулевата хипотеза, следователно нямаме основание да я отхвърлим. Това означава, че според данните от извадката между двата наблюдавани признаци не съществува статистически значима корелационна зависимост.



Табл. 19.



х

y







1

0.035

0.200

0.000031

0.008281

0.0005065667

2

0.060

0.330

0.000378

0.001521

0.0007579000

3

0.055

0.220

0.000208

0.005041

-0.0010247667

4

0.035

0.170

0.000031

0.014641

0.0006735667

5

0.031

0.150

0.000092

0.019881

0.0013489000

6

0.039

0.170

0.000002

0.014641

0.0001895667

7

0.038

0.190

0.000007

0.010201

0.0002592333

8

0.049

0.170

0.000071

0.014641

-0.0010204333

9

0.073

0.230

0.001052

0.003721

-0.0019784333

10

0.047

0.180

0.000041

0.012321

-0.0007141000

11

0.031

0.250

0.000092

0.001681

0.0003922333

12

0.016

0.140

0.000604

0.022801

0.0037095667

13

0.015

0.140

0.000654

0.022801

0.0038605667

14

0.015

0.120

0.000654

0.029241

0.0043719000

15

0.022

0.120

0.000345

0.029241

0.0031749000

16

0.043

0.150

0.000006

0.019881

-0.0003431000

17

0.030

0.440

0.000112

0.022201

-0.0015744333

18

0.019

0.520

0.000465

0.052441

-0.0049387667

19

0.021

0.350

0.000383

0.003481

-0.0011544333

20

0.036

0.120

0.000021

0.029241

0.0007809000

21

0.016

0.340

0.000604

0.002401

-0.0012037667

22

0.010

0.090

0.000934

0.040401

0.0061439000

23

0.020

0.380

0.000423

0.007921

-0.0018304333

24

0.085

0.450

0.001974

0.025281

0.0070649000

25

0.090

0.550

0.002444

0.067081

0.0128032333

26

0.015

0.650

0.000654

0.128881

-0.0091784333

27

0.094

0.330

0.002855

0.001521

0.0020839000

28

0.064

0.520

0.000549

0.052441

0.0053662333

29

0.098

0.440

0.003299

0.022201

0.0085575667

30

0.015

0.620

0.000654

0.108241

-0.0084114333

Общо:

1.217

8.730

0.020

0.794270

0.0286730000

Аналогична проверка на хипотези можем да направим и като използваме следното преобразование на Фишер

.

Проверяваме хипотезата



Н0 : r = r0.

Алтернативата е



Н1: r  r0.

При нормално разпределена съвкупност, вярна нулева хипотеза и достатъчно големи n, тази величина има нормално разпределение с дисперсия . Т.е. двустранната критична област за нулевата хипотеза има вида



където константата С е 1 - /2 – квантилът на стандартното нормално разпределение.

При достатъчно голям обем на извадката или нормално разпределена съвкупност можем да построим и доверителен интервал на трансформацията на Фишер. Той е

.

След това използваме обратната трансформация



,

трансформираме краищата на горния интервал и получаваме доверителен интервал на корелационния коефициент.



С какво може да ни бъде полезен Excel в случая:

В Excel ковариацията се извежда с функцията COVAR(x; y), корелационният коефициент на Браве с - CORREL( x; y), а този на Пирсън с функцията PEARSON(x; y). При тестване на праволитейна зависимост последните два коефициента съвпадат.

Трансформацията на Фишър се пресмята с функцията FISHER(r), а обратната трансформация с - FISHERINV(x).

Примерни ситуации и решения:

Пример 1: По данните от Табл. 20 определете силата на праволинейната зависимост между производителността на труда на 1 работник в изделия на час и средната дневна печалба на фирмата в лв.

Решение: Определяме средните аритметични по двата признака

Останалите междинни изчисления са дадени в Табл. 19.



Използваме (1) и получаваме



Табл.20.

ф. №

Ср.Дн. Печ.

ПТ

Междинни изчисления

Xi

Yi

Отклонения от ср. на Х

Отклонения от ср. на Y

Произведение от откл.

Квадрати на откл. по Х

Квадрати на откл. по Y

1

220

4

-100,71

-3,43

345,31

10143,37

11,76

2

250

6

-70,71

-1,43

101,02

5000,51

2,04

3

300

7

-20,71

-0,43

8,88

429,08

0,18

4

310

8

-10,71

0,57

-6,12

114,80

0,33

5

280

7

-40,71

-0,43

17,45

1657,65

0,18

6

330

9

9,29

1,57

14,59

86,22

2,47

7

350

9

29,29

1,57

46,02

857,65

2,47

8

400

10

79,29

2,57

203,88

6286,22

6,61

9

270

6

-50,71

-1,43

72,45

2571,94

2,04

10

420

8

99,29

0,57

56,73

9857,65

0,33

11

370

9

49,29

1,57

77,45

2429,08

2,47

12

350

8

29,29

0,57

16,73

857,65

0,33

13

330

7

9,29

-0,43

-3,98

86,22

0,18

14

310

6

-10,71

-1,43

15,31

114,80

2,04

Общо:

4490

104

0

0

965,71

40492,86

33,43

Определеният корелационен коефициент показва, че между наблюдаваните признаци има силна правопропорционална зависимост.



Пример 2: С цел да се определи силата на праволинейната зависимост между краткотрайните и дълготрайните материални активи на туристическите фирми, обслужващи регион Х, са извършени 200 наблюдения върху такива фирми. Данните са дадени в Табл. 21 Оценете корелационния коефициент между тези два признака.

Решение: Ще използваме формула (2). За целта пресмятаме средните аритметични и стандартните отклонения на двата признака. Получаваме



За определянето на сумата от числителя на формула (2) построяваме помощна Табл.21, съдържаща произведенията . Изчисляваме корелационния коефициент на Браве по групирани данни




Табл.21.

Обем на ДМА в д.х. лв.




Обем на краткотрайните активи в х.лв.

Брой

фирми

до 35

над 35 до 45

над 45 до 55

Над 55 до 65

над 65

Среди на интервалите

30

40

50

60

70

до 15

10

15

5

3

0

0

23

над 15 до 25

20

7

20

7

4

0

38

над 25 до 35

30

3

15

18

9

2

47

над 35 до 45

40

1

4

17

19

5

46

над 45 до 55

50

0

3

5

10

5

23

Над 55

60

0

1

5

8

9

23

Брой фирми

x

26

48

55

50

21

200



Табл.22.




30

40

50

60

70

Общо:

10

4500

2000

1500

0

0

8000

20

4200

16000

7000

4800

0

32000

30

2700

18000

27000

16200

4200

68100

40

1200

6400

34000

45600

14000

101200

50

0

6000

12500

30000

17500

66000

60

0

2400

15000

28800

37800

84000

Общо:

12600

50800

97000

125400

73500

359300


Задачи за упражнение:

Задача 1: С цел изследване на зависимостта между обема на дълготрайните материални активи и равнището на производителността на труда са наблюдавани 12 еднотипни промишлени предприятия. Резултатите от наблюдението са дадени в Табл.23.

Табл.23.

Фирма №

1

2

3

4

5

6

7

8

9

10

11

12

ДМА в млн. лв.

2

3,3

5,3

2,5

7

4,5

1,1

3,2

6,3

4,2

3,7

5,2

ПТ изд/ч.

4,1

6,2

7

6,7

7,7

6,3

4

6

7

6,8

4

8

Определете силата на зависимостта между наблюдаваните признаци.
Задача 2: Управител на фирма решава да изследва зависимостта между обема на персонала и обема на чистата печалба за една година в еднородни на своята фирми. Наблюдава 120 такива фирми. Данните са дадени в Табл.24. Помогнете му да оцени силата на праволинейната зависимост между тези два признака.

Табл.24.



Обем на чистата печалба

Обем на персонала в брой лица

Брой фирми

до 45

над 45 до 65

над 65 до 85

над 85

До 0,2

5

5

3

0

13

над 0,2 до 0,4

7

10

7

0

24

над 0,4 до 0,6

3

15

12

2

32

над 0,6 до 0,8

1

4

13

5

23

над 0,8 до 1

0

3

7

6

16

над 1

0

1

5

6

12

Брой фирми

16

38

47

19

120



14.3. Измерване на зависимости при неинтервални скали
Ако поне един от изследваните признаци е представен на слаба скала (например ординална), не можем да пресметнем корелационния коефициент на Браве. Ако двата признака са представени на рангова скала се използват коефициентите на корелация на Спирмън или Кендал. В общия случай можем да използваме коефициентите на взаимносвързаност (на контингенция) на Пирсън и Чупров. При един дихотомен и един метриран признак са подходящи бисериалните коефициенти на корелация и т.н.

Да започнем с Ранговите коефициенти на корелация.

Да предположим, че над единиците от съвкупността са извършени наблюдения, върху два признака, измерени на рангова скала. Спирмън използва като измерител на близостта на ранговете, сумата от квадратите на разликите им. Ако съществува силна положителна зависимост между ранговете на единиците, те би трябвало да съвпадат и сумата от квадратите на разликите им би била нула. Ако зависимостта е силна отрицателна, ранговете ще са подредени в обратен ред. Разликите им в този случай, ако n е четно, ще образуват редица само от нечетните числа от – (n-1) до (n-1) или ако n е нечетно, само от четните числа в този интервал. Тогава сумата от квадратите им ще е .

При липсата на каквато и да е зависимост можем да приемем, че тази сума ще е средното аритметично на двете крайни възможности, т.е.

Като отнесем тази величина към действителната сума от квадратите на разликите, т.е.

получаваме измерител на зависимостта, който би бил нула при силна правопропорционална

зависимост между ранговете. Ето защо ранговият коефициент на корелация на Спирмън се пресмята по формулата

За да използваме този коефициент, ранговете по един и същ признак трябва да са различни числа от 1 до n. Те се получават като на всяка от единиците определим различна степен на притежаване на наблюдаваното качество.

За да разкажем как се пресмята Ранговия коефициент на корелация на Кендал, трябва да дефинираме понятията съответствия и инверсии. Да предположим, че статистическите единици са подредени по ранговете на признака Х във възходящ ред. Брой на съответствията на i – тата статистическа единица ще означаваме с рi, и това е броят на двойките след i – тата, т.е. за j = i+1,…,n такива че Хi < Xj и Yi < Yj. Брой на инверсиите на i – тата статистическа единица ще означаваме с qi, и това е броят на двойките след i – тата, т.е. при j = i+1,…, n, за които Хi < Xj и Yi > Yj. Ако всички двойки са разположени в еднакъв порядък, възходящо, сумата от всички съответствия P ще е равна на сумата на естествените числа от 1 до n-1, т.е.

,

а сумата от инверсиите ще е нула.

По аналогичен начин ако ранговете на признака Y са подредени низходящо, сумата от инверсиите Q ще е

,

а сумата от съвпаденията ще е нула.

Като измерител на зависимостта между двата статистически признака Кендал използва отношението на разликата между съответствията и инверсиите и сумата на естествените числа от 1

до n-1, т.е. неговия корелационния коефициент има вида



.

В голяма част от литературата този коефициент се означава с и се нарича коефициент на Кендал. Преимуществото му пред коефициента на Спирмън е, че може да се използва и при еднакви рангове2.

Двата коефициента в общия случай имат различни стойности.

При нулево математическо очакване на тези оценки, техните дисперсии са съответно и 3. При конкретен обем на извадката, по-добър е този коефициент, който има по-малка дисперсия.

Сега ще разгледаме коефициентите на корелация на Пирсън и Чупров.

Да предположим, че наблюдаваните признаци X и Y имат възможни значения съответно X1,…,Xk и Y1,…,Ys и че резултатите от групировката след наблюдението са разположени в табл.25



Табл.25.

Y

X

Y1



Ys

Общо:

X1

f11



f1s

f X1











Xk

fk1



fks

f Xk

Общо:

f Y1



f Ys

n

С fij е означен броят на статистическите единици, притежаващи iтото значение на признака Х и j – тото значение на признака Y. f X1 е честотата в първата група на признака Х. По аналогичен начин до f Xk. f Y1 е честотата в първата група на признака Y и т.н. до f Ys. n е броят на всички наблюдавани единици. В сила са следните съотношения

Ако признаците са независими, теоретичните (очакваните) честоти в групите биха били



,

където е най-добрата оценка на Р(Х = Xi, Y = Yj). Да припомним, че ако признаците са независими



Р(Х = Xi, Y = Yj) = Р(Х = Xi)P(Y = Yj)

и най-добрите оценки на Р(Х = Xi) и P(Y = Yj) са съответно и .



Коефициентът на средно-квадратична взаимосвързаност (на контингенция) на Пирсън има вида

( 3 )

Величините и се наричат съответно коефициенти на
  1   2


База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница