Лекции по Въведение в статистиката


корелация съответно на Пирсън и Чупров



страница2/2
Дата05.09.2017
Размер0.55 Mb.
#29538
1   2

корелация съответно на Пирсън и Чупров.

При анализа на коефициента на Пирсън трябва да се взема под внимание, че



.

За да се сравнява с 0 и 1, вместо самия коефициент на Пирсън е по-удачно да се използва частното му с максималната му стойност.



В случая на два дихотомни признака, т.е. ако k = 2 и s = 2 корелационната таблица има вида

Табл.26.

Y

X

Y1

Y2

Общо:

X1

a

b

a+b

X2

c

d

c+d

Общо:

a+c

b+d

n

Коефициентът на средно-квадратична взаимосвързаност (на контингенция) на Пирсън приема вида

.

В този случай коефициентът



се нарича четириклетъчен коефициент на взаимосвързаност (контингенция) на Пирсън.



С какво може да ни бъде полезен Excel в случая:

В Excel можем да реализираме тест за независимост на наблюдаваните признаци като

използваме, че има вградена функция CHITEST( || fij || ; |||| ) за пресмятане на

Р( 2((k - 1)(s - 1)) > ).

Коефициентът на конкордация (съгласуваност) W, който ще разгледаме тук е въведен от М.Кендал. Той служи като мярка за съгласуваност на мненията на m експерта. В общия случай W [0,1]. Колкото W се доближава до 1, толкова различията между експертите намаляват. При W = 1 имаме пълно съвпадение в мненията на експертите.

Нека всеки от т експерти Х1, …, Хт подреждат n обекти Y1, …,Yn според степента на притежаване на дадено качество, т.е. експертите поставят различни рангове на тези обекти.

Тъй като сумите от ранговете са n на брой и тяхната обща сума е , то средната сума

от ранговете е . Разглеждаме индивидуалните отклонения на сумите от ранговете от тяхното средно, повдигаме тези отклонения на квадрат, сумираме ги и получаваме



.

Табл.27.

Експерти

Обекти

Общо:

Y1



Yn

X1

r11



r1n













Xm

rm1



rmn



Сума от ранговете:

rY1



rYn



Ако всички мнения на експертите съвпадат, то сумите от техните рангове ще са m, 2m,3m, …, nm, като тези числа може и да са разбъркани. Съответно техните отклонения от средното ще са

, , …,,,

разбъркани по съответния начин. Тъй като


12 + 32 + ... + (n-1)2 = ,

то сумата от квадратите на тези отклонения ще е и това е максималната стойност на S. При хаотично разположение на мненията на експертите S = 0, когато m е четно или n е нечетно. Като коефициент за съгласуваност между мненията на експертите се използва величината



.

В случаите когато единия признак е дихотомен, а другият е метриран или значенията му са отразени чрез рангове, за измерване на силата на зависимостта между наблюдаваните признаци се използват така наречените Бисериални коефициенти.

В случаите, когато не знаем дали разпределението на единиците по метрирания признак е нормално се прилага Точково-бисериалния коефициент на Пирсън. Нека значенията на дихотомния признак са Х1 и Х0. Броят на единиците, при които значението на дихотомния признак е Х1 да е n1 и броят на тези, за които е Х0 да е n0. Да означим с n броя на всички наблюдения, т.е. n = n1 + n0. Средното аритметично, определено от данните за измерените значения на метрирания признак при единиците, при които значението на дихотомния признак е Х1 да означим с , по аналогичен начин въвеждаме . Стандартното отклонение на всички измервания на метрирания признак да е SХ. Точково-бисериалният коефициент има вида

(4)

Като използваме същите означения, ако разпределението на метрирания признак е нормално се използва Бисериалния коефициент

където y е ординатата от графиката на плътността на нормалното разпределение, съответстваща на

абсциса, която съвпада с - квантила на стандартното нормално разпределение.

Ако вместо метриран признак имаме признак измерен на рангова скала, със средни рангове съответно и , се използва описания по-долу Рангово-бисериален коефициент.

Да предположим, че всички статистически единици са подредени низходящо според ранговете си и самите рангове са написани в две колонки по значенията на дихотомния признак. Съответствие за i - тия ранг от първата колонка в случая ще наричаме броят на единиците, които във втората колонка имат рангове по-малки от него. Сумата от всички съответствия да означим с P. По аналогичен начин сумата от всички инверсии ще бележим с Q. Тогава максималната стойност на сумата от съответствията е n1. n0. Като мярка за зависимостта между двата признака се използва отношението на разликата между съответствията и инверсиите и максималния брой съответствия, т.е.



Примерни ситуации и решения:

Пример 1: С цел да се определи силата на зависимостта между нивото на обслужване в хотелите в курортен комплекс “Х” и натовареността им са направени наблюдения в 10 такива еднотипни хотела. От независим експерт хотелите са степенувани според нивото на обслужване и така са получени ранговете по този признак. По аналогичен начин са получени и ранговете по признака “натовареност”. Данните са дадени в първите три колонки на следващата таблица. Оценете корелационния коефициент между тези два признака.

Решение: Вече познаваме два коефициента на корелация, които са подходящи за използване в случая, когато и двата признака са представени на рангови скали. Ще решим задачата първо чрез корелационния коефициент на Пирсън.

Ако използваме корелационния коефициент на Кендал, получаваме



.

Табл.28.

Хотел №

Рангове според нивото на обслужване

Рангове според натовареността

Междинни изчисления

Разлики между ранговете

Квадрати на разликите

1

1

2

-1

1

2

2

3

-1

1

3

3

1

2

4

4

4

6

-2

4

5

5

4

1

1

6

6

5

1

1

7

7

8

-1

1

8

8

10

-2

4

9

9

7

2

4

10

10

9

1

1

Общо:

х

х

х

22

Съответствията и инверсиите са дадени в следващата таблица.

Хотел №

Рангове според нивото на обслужване.

Рангове според натовареността

Междинни изчисления

рi

qi

рi + qi

1

1

2

8

1

9

2

2

3

7

1

8

3

3

1

7

0

7

4

4

6

4

2

6

5

5

4

5

0

5

6

6

5

4

0

4

7

7

8

2

1

3

8

8

10

0

2

2

9

9

7

1

0

0

10

10

9

-

-

-

Общо:

х

Х

38

7

44

Можем да кажем, че между разглежданите признаци има силна зависимост.

Пример 2: Анкетирани са 200 човека. Въпрос А има възможни отговори а), б), в) или г). Въпрос В има възможни отговори а), б), в), г) или д). При това може да имаме повече от един отговор на всеки от разглежданите въпроси. Тестовете са обработени и резултатите са дадени в следващата таблица като числата в нея имат следния смисъл:

  • 17 човека са отбелязали отговор а) на въпрос А и отговор а) на въпрос В, като може да са отбелязали още отговори на тези въпроси,

  • 12 човека са отбелязали отговор а) на въпрос А и отговор б) на въпрос В и т.н.

Табл. 29. Емпирични честоти.

В

А

а

б

в

г

д

Общо:

а

17

12

10

5

1

45

б

10

23

14

13

3

62

в

5

7

5

12

6

35

г

5

22

12

14

4

57

Общо:

37

64

41

44

14

200

Интересуваме от силата на зависимостта между отговорите на тези два въпроса от теста.

Решение: Двата признака са измерени на слаби скали, за това ще използваме коефициентът на взаимосвързаност на Пирсън. Трябва да определим теоретичните честоти в групите, които бихме имали ако имахме независимост между наблюдаваните признаци. Използваме формулата

Резултатите са дадни в Табл. 30.



Табл. 30. Теоретични честоти.

В

А

а

б

в

г

д

Общо:

а

8.325

14.40

9.225

9.90

3.15

45

б

11.470

19.84

12.71

13.64

4.34

62

в

6.475

11.20

7.175

7.70

2.45

35

г

10.545

18.24

11.685

12.54

3.99

57

Общо:

37.00

64.00

41.00

44.00

14.00

200

Определяме общия член на сумата от фармула (3), т.е. и попълваме резултатите в помощна таблица.

Табл. 31. Общ член на сумата от формула (3).

В

А

a

б

в

г

д

Общо:

а

9.0397

0.4000

0.0651

2.4253

1.4675

13.398

б

0.1884

0.5033

0.1309

0.0300

0.4137

1.266

в

0.3360

1.5750

0.6593

2.4013

5.1439

10.116

г

2.9158

0.7751

0.0085

0.1700

0.0000

3.869

Общо:

12.4799

3.2534

0.8638

5.0266

7.0251

28.649

Тогава

и за коефициентите на Пирсън и Чупров получаваме съответно



,

.

Сравняваме с



и получаваме, че имаме слаба взаимосвързаност между отговорите на разглежданите въпроси.

Пример 3: С цел изучаване влиянието на пола на работника върху съвестното изпълнение на служебните задължения са анкетирани 300 случайно избрани човека. Тестовете са обработени и резултатите са дадени в табл. 32.

Табл. 32.


пол

Закъснява за работа

Общо:

да

не

м

60

100

160

ж

40

100

140

Общо:

100

200

300

Определете силата на влиянието на пола върху закъсненията на работниците.

Решение: Имаме два дихотомни признака. Трябва да измерим четириклетъчна корелация. Ще използваме съкратената формула за пресмятане на коефициента на взаимосвързаност на Пирсън. Получаваме

Максимелната стойност на този коефициент е 0,71. Т.е. според данните от извадката влиянието на пола е много слабо, почти незначително.



Пример 4: С цел изучаване влиянието на пола на управителя върху размера на средната работна заплата във фирмата са наблюдавани 20 фирми, избрани по случаен начин. Резултатите от наблюдението са дадени в табл.33.

Табл. 33.

Пол

Средна месечна работна заплата в ст. лв.

Общо:

ni



м

4

4.2

4.5

4.2

3.7

5.2

6.4

4.3

4

4.8

5.7

51

11

4.64

ж

3

3.3

3.7

4.5

4.5

3.6

4.1

6.3

7







40

9

4.44

Общо:

91

20

x

Определете степента на влияние на пола на управителя на фирмата върху средната работна заплата във фирмата.

Решение: Имаме един дихотомен и един метриран признак. Освен това не знаем дали разпределението на извадката е нормално. Ще използваме съответния точково бисериалния коефициент от формула (4). За целта трябва да пресметнем средните работни заплати в двете подсъвкупности, средната работна заплата за цялата съвкупност и стандартното отклонение от средната по този признак за цялата съвкупност. Получаваме съответно

Тогава


Това означава, че влиянието на пола на ръководителя върху средната работна заплата във фирмата е много слабо, почти незначително.



Пример 5: С цел изучаване влиянието на пола на управителя на фирмата върху размера на брутната и печалба са наблюдавани 147 фирми. Резултатите от наблюдението са дадени в табл. 34. Определете степента на влияние на пола на управителя върху брутната печалба на фирмата.

Решение: Имаме един дихотомен и един метриран признак. Можем да проверим, че разпределението на извадката е нормално. За определяне на силата на зависимостта можем да използваме бисериалния коефициент. Стандартното отклонение на всички наблюдения е 17,58 х.лв. Средните аритметични на двете подсъвкупности са съответно

Тогава




Табл. 34.

Пол

Размер на брутната печалба в х.лв.

м

65.7

33.9

54.0

79.5

67.7

54.7

41.4

86.0

43.0

73.0

71.1

32.3

59.3

80.5

46.8

68.6

63.5

72.5

81.1

71.4

53.2

76.6

29.1

85.7

59.3

44.6

74.5

34.5

57.5

55.1

78.5

71.2

65.0

68.2

78.1

78.1

66.8

18.0

59.3

59.1

23.5

68.8

53.1

74.7

64.5

75.9

78.4

75.0

58.0

54.2

47.6

60.2

54.6

27.4

70.6

35.0

26.7

51.0

78.4

72.6

62.1

56.5

28.2

34.4

71.7

ж

44.9

36.5

61.5

45.5

52.7

22.6

74.7

58.3

32.9

77.4

73.9

35.8

42.6

67.3

41.3

64.1

44.5

68.7

31

56.1

47.3

40.7

58.1

55.5

50.3

60.3

51.6

85.8

57.2

47

64.6

67.5

44.3

64.3

13.5

63.3

66.2

21.7

64.8

62.7

79.7

51.6

57.1

29.8

67.8

59.6

48.9

70.8

25.9

61.8

27.3

33.1

83.6

65.2

37

70.2

73.4

56.7

69.2

61.6

69.3

20.9

63.2

64.7

55.2

40.4

37.8

17.7

13.9

46.5

25.2

45.5

75.8

43.3

14.0

61.8

46.0

44.9

39.4

33.4

63.4

59.9




























където y е ординатата от графиката на плътността на нормалното разпределение, съответстваща на абсциса, която съвпада с 65:147 = 0,4422 квантила на същото разпределение. Намираме 0,4422 квантила. От свойствата на стандартното нормално разпределение той е равен на 1 - 0,4422 = 0,5578 квантила т. е. 0,145. Тогава от таблиците за плътността определяме, че у = 0,3948.

От стойността на корелационния коефициент можем да направим извода, че влиянието на пола на ръководителя върху брутната печалба на фирмата е слабо.



Пример 6: С цел изучаване влиянието на проучването на пазара върху печалбата на фирмата са наблюдавани 14 еднородни фирми. След наблюдението фирмите са подредени възходящо според печалбата си и така са получени ранговете по този признак. Резултатите са дадени са в табл. 35.

Табл. 35.

Пазар

Рангове


Общо

Средни


проучен













5




7

8

9




11

12

13

14

79

9,875

непроучен

1

2

3

4




6










10













26

4,333

Общо:

105

x

Определете степента на влиянието на маркетинга върху печалбата на фирмата.

Решение: Имаме един дихотомен и един признак, измерен чрез рангова скала, значи можем да използваме рангово-бисериалния коефициент

Този коефициент показва, че маркетинга оказва силно влияние на върху печалбата на фирмата.



Въпроси:

1. За какво служи корелационния анализ?

2. В какъв интервал се изменят корелационните коефициенти? Какъв извод можем да направим за наблюдаваните признаци, когато корелационният коефициент е близо до 1? А до -1?

3. За какви съвкупности е вярно, че когато корелационният коефициент е 0 значи имаме независимост на разглежданите признаци?

4. Кога пресмятаме коефициент на детерминация?

5. Какво измерва коефициентът на корелация на Браве?

6. Може ли при функционална зависимост между данните да получим корелационен коефициент на Браве различен от 1?

7. Какви са логическите съображения на базата, на които е построен корелационния коефициент на Спирмън?

8. Какви са логическите съображения, по които е построен корелационният коефициент на Кендал?

9. Кога се използва корелационния коефициент на Пирсън?

10. Кога се използва точково-бисериалния коефициент на Пирсън?

11. Кога се използва рангово-бисериалния коефициент на корелация?




1 Кирил Гатев, Въведение в общата теория на статистиката, Наука и изкуство, 1980.

2 Кирил Гатев, Въведение в общата теория на статистиката, Наука и изкуство, 1980.

3 Кирил Гатев, Въведение в общата теория на статистиката, Наука и изкуство, 1980.


Последна редакция 05.9.2017 г.

Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:
1   2




©obuch.info 2024
отнасят до администрацията

    Начална страница