Тема Статистическо изучаване



Дата27.10.2018
Размер163.5 Kb.
#101580

Чернова на лекции по Въведение в статистиката

Павлина Йорданова pavlina_kj@abv.bg




Тема 4. Статистическо изучаване.

Отговорите, на всички въпроси, които ни вълнуват са около нас, само трябва да се

научим да ги виждаме.
Никой от нас не би бил в състояние да анализира заобикалящата го огромна информация без тя да е поднесена в подходящ систематизиран вид. През последните десетилетия тази необходимост нарастна. Как да направим така, че без субективизъм данните да говорят сами за себе си? Отговор на този въпрос ни дава Статистиката.

Статистическите методи започват да се развиват с появяването на игрите на шанса. В наши дни статистическата наука разработва методи, с помощта на които да може да се вземе правилно решение в условия на неопределеност, да се характеризират тенденциите и закономерностите в развитието на различните процеси, да се разкрият връзките и зависимостите между явленията, да се направят прогнози за бъдещото им развитие.

Статистическата дейност включва разработването на методология и планирането на статис-

тическите изследвания, получаването, събирането, обработването, анализирането и съхраняване на статистически данни, предоставянето и разпространяването на статистическа информация.

Смисълът на статистическата дейност се състои в осигуряването на държавното и стопанско ръководство на всички нива с необходимата информация за управление, както и в информирането на обществеността за хода на процесите, които ни заобикалят.

Най-популярните източници на информация са: преброяванията на населението, счетоводната отчетност, ежедневните анализи на пазара, проучванията на общественото мнение и много други. Националният Статистически Институт е най-големият разпространител на статистически данни в страната. На неговата интернет страница www.nsi.bg можете да откриете резултатите от последното преброяване на сградите, жилищата, населението и земеделските стопанства, както и информация за брутния вътрешен продукт на България по компоненти, вътрешната и външна миграция и здравното състояние на населението, пазара на труда, домакинските бюджети, туризма, престъпността и др. В следващата уеблиография са посочени банки със статистическа информация.

www.nsi.bg - Национален статистически институт

www.bnb.bg – Българска Народна Банка,

http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/ – Статистически център на Европейския съюз,

http://www.statistikportal.de/statistik-portal/ – Статистическа информация от Германия,

www.hm-treasury.gov.uk – Статистическа информация от Великобритания.

4.1. Основни статистически понятия.

За да подложим на изучаване разнообразните популации и протичащите в тях масови явления и процеси е необходимо по някакъв начин да ги yеднаквим. За тази цел ще въведем следващите понятия.



Статистическа единица ще наричаме най-малкия обект върху, който се извършва статистическото наблюдение и чиято общност се изучава. Могат да бъдат: домакинства, фирми, лица, предмети, явления и други. Често пъти в статистиката освен термина статистическа единица се употребява и термина – случай, когато става въпрос за явление, например: раждане, умиране, брак, развод и др.

Статистически признак – това са качествени или количествени характеристики на статистическите единици.

В зависимост от начина, по който се описват статистическите признаци най-общо се делят на

вариационни и категорийни.

Вариационните признаци са количествени, т.е. стойността на признака е число. Тези признаци обикновено се измерват в съответната мярка: метра, лева, години, броя и т.н за това се наричат още - метрирани. В зависимост от значенията, които могат да приемат тези признаци се подразделят на дискретни (прекъснати), абсолютно непрекаснати и смесици от такива.

Категорийните признаци са качествени. Техните значения са словесни, описателни. За това тези признаци се наричат още - неметрирани. В случая, когато имаме само две определения на признака говорим за дихотомни (бинарни, алтернативни) признаци.

За количественото измерване на зависимостите между различните видове признаци е необходимо да се въведе метрика за категорийните признаци. Най-често се използва рангова скала. Тя характеризира степента на притежаване на дадено качество чрез число.

В зависимост от това допустимо ли е или не повече от едно значение на признака при отделна статистическа единица имаме съответно – кумулативни и некумулативни признаци. Пример за кумулативен признак е “езици, които владее дадено лице”.

Статистическа съвкупност ще наричаме еднородни по същество статистически единици, т.е. обединени от едно и също значение на един или няколко признака и ограничени по време и място. Тези статистически единици, обаче могат да се различават по други признаци и това са точно признаците, които подлежат на изучаване.

Броят на единиците в съвкупността се нарича обем на съвкупността.

В зависимост от времето, за което се изучават статистическите съвкупности те биват: моментни и периодни.

В зависимост от обхвата на единиците на съвкупността, съвкупностите биват: генерални и извадкови. В първия вид влизат всички единици, за които ще правим статистическо заключение, а във втория вид - само част от тях. Една извадкова статистическа съвкупност е представителна (репрезентативна), когато е микромодел на генералната съвкупност. Тази представителност се постига със случаен избор на единиците в извадката. Ако при случаен избор на единиците, някоя от тях може да попадане в извадката повече от веднъж, говорим за възвратен подбор. Иначе подбора е безвъзвратен. От гледна точка на статистическите методи, когато извадката е много по-малка по обем от генералната съвкупност двата начина на формирането й съвпадат.



Пример: Ако се интересуваме от възрастовия състав, степента на образованост и структурата по пол на отделните възрастови групи на лицата с българско гражданство. Значението на признака, който обуславя еднородността на съвкупността е – българско гражданство. Изучаваните признаци са – възраст на навършени години, образование и пол. Първият е вариационен, а вторият и третият – категорийни. Признакът пол е и алтернативен. Статистическите единици са отделните лица с българско гражданство, а тяхната общност е генералната съвкупност.

Въпроси:

1. Дайте примери на всички дефинирани понятия.

2. Ако трябва да изследвате туристическия поток в курортен комплекс Х за периода 2000 - 2014 г. включително, по национална принадлежнаст, интензивност на посещенията в този или други курорти, продължителност на престоя, предпочитания на хотели, предпочитания на персонал, начини на забавление, начини на хранене и нощувка и допустими разходи за тях, кои биха били статистическата съвкупност, статистическите единици и статистическите признаци, които ще наблюдавате? Как бихте измерили значенията на тези признаци при отделните статистически единици? Какви по вид са изброените от вас признаци?

3. Запознайте се със статистическото изучаване на работната сила. Кои признаци трябва да наблюдавате за да изчислите Коефициент на трудоспособност на населението [виж [1], стр. 332], Коефициент на натовареност на трудоспособното население, Коефициент на икономическа активност на населението, Коефициент на заетост на работната сила, Коефициент на безработица. Определете статистическата съвкупност и статистическите единици, както и вида на наблюдаваните признаци.



Казуси: Запознайте се с дейността на избрана от вас производствена фирма и при прочитане на този учебник помислете: Какви статистически методи ще използвате за да анализирате дейността й? А за изучаване на персонала? Какви статистически методи бихте предложили на управителя на фирмата, свързани с маркетинга й?
4.2. Етапи на статистическото изучаване.
Статистическото изучаване е изследователски процес. Няма строго регламентирана последователност на статистическото изучаване. В началото обикновено се съставя план и програма на действие. Програмата включва темата, предмета и обекта (статистическата съвкупност, статистическите единици, статистическите признаци) на статистеческото изследване, бюджета и начина на провеждането му. В нея трябва да бъдат описани източниците и формата на събиране на данните, както и задълженията по предоставянето им. Планът включва методологичните и организационни въпроси, които предстои да бъдат решени, в предвид целите на изучаването: времето, мястото, начините и органите на регистрация, източници и анализ на сведенията, срокове и начин на обработване, публикуване и оформяне на резултатите. Дори и много скъпо статистическо проучване може да се окаже безполезно ако данните са събрани по неподходящ начин, от неподходящи статистически единици или в неподходящо място или време.

Условно статистическото изучаване се разделя на три етапа: статистическо наблюдение, статистическа групировка и статистически анализ.



Статистическото наблюдение представлява събиране на първична информация за статис-

тическите единици. За да се направи правилен статистически извод е необходимо осигуряване на достоверни данни. В социологията, маркетинга и политиката най-честата форма на събиране на данните са анкетите. За целта специално обучени анкетьори могат да извършат непосредствени наблюдения или интервюта. Когато статистическата единица е човек или се представя от човек, се допуска самонаблюдение. В най-добрия случай данните се вземат от документи. Обичайните статистически формуляри са анкети, отчети, въпросници. В един добре съставен статистически формуляр въпросите трябва да са формулирани ясно, точно и просто, да имат еднозначен отговор и да предоставят възможност за контрол. Методологията на съставяне на тестовете може да бъде намерена в [2], [3] или [4]. След попълване на формулярите резултатите се пренасят в електронна таблица, на която всеки ред съответства на една статистическа единица, а всяка колона на един признак. Ако признака е кумулативен има основно два начина за въвеждане на резултатите от анкетата, така че след това данните да се обработват по-лесно: за всяка възможна комбинация от отговори се въвежда код или за всеки възможен отговор се оформя подколона, в която се отбелязва 1 ако отговора е посочен и 0 ако не е посочен. За останалите особености при въвеждане на статистически данни от въпросници и анкети за електронна обработка виж Гоев [5].

Грешките при наблюдения се допускат най-често:

a) при регистрация – в резултат от неспазване на инструкциите, недостоверна, непълна информация, неправилно зададени въпроси, неправилно избрано време на наблюдение. Техен подвид са логическите грешки, когато на някои въпроси са дадени недостоверни отговори. Много проблеми може да създаде и неправилното набиране на данните. Грешките при регистрация могат да се избегнат чрез превантивен контрол, предварителни статистически наблюдения, или чрез репрезентативни, контролни наблюдения с цел ревизия на органите на регистрация. Може да се използват също формална аритметична и логическа проверка за взаимноизключващи се отговори.

б) грешки на репрезентативността (стохастични грешки) – изразяват се в случайните отклонения на измерваните величини от тяхната средна. Действат в различни посоки и взаимно се компенсират и не пречат на правилните изводи на статистическия анализ.

След поправяне на грешките при регистрация статистическото наблюдение приключва.



Статистическа групировка – През този етап на статистическото изучаване, сведенията за отделните единици се окрупняват в статистически данни, които се отнасят до еднородни по даден признак групи. Признаците се наричат групировачни. Избират се преди да започне статистическото наблюдение, в зависимост от целта на изследването. По значенията на тези признаци сe обособяват групи. Статистическите единици се отнасят към съответните групи и се определя броя им във всяка една от тях. В резултат на това се получава емпирично статистическо разпределение на единиците от съвкупността по съответния признак или ако групировката е по време стигаме до динамичен ред.

Excel и неговите Pivot таблици могат да бъдат изключително полезни за целта.

При групировка по вариационен непрекъснат признак трябва да се решат допълнително въпросите за брой на групите и ширина на интервалите на всяка група. Ширината на интервалите се определя по един от следните два принципа:

Аритметичен принцип – образуваните групи са еднакво широки. Ширината h на интервала се

намира по формулата:



където:


Xmax е максималното значение на признака, измерено при статистическите единици,

Xmin е минималното значение на признака, измерено при статистическите единици, а

k е броят на групите.

Когато броят на групите не е предварително фиксиран от изследователя, приблизителната

ширината на интервалите може да се определи по формулата на Стърджес

където n е броят на наблюденията. Виж [6]. Ако броят на групите в знаменателя не е цяло число го закръгляме, а след това преизчисляваме ширините на интервалите.

При аритметичния способ по подразбиране се прави предположението, че единиците са разпределени равномерно в съответните интервали. Това става причина за загуба на информация, което е цената, която плащаме за представянето на данните в по-удобна за използване форма.

С какво може да ни бъде полезен Excel в случая: При функцията

FREQUENCY(data_array; bins_array)

параметърът data_array съдържа вектор с данните, които ще бъдат групирани. Параметърът bins_array съдържа вектор стълб с координати (b1, b2, ..., bk) такива, че групите при групировката са:

До b1 вкл.”

Над b1 до b2 вкл.”

...

Над bk-1 до bk вкл.”

Над bk”.

Тази формула трябва да се въведе като аrray формула, а това означава, че:

1. Маркираме полето за отговорите, започвайки от полето с формулата и надолу, колкото е необходимо за да получим с една клетка повече от тези в bins_array .

2. Натискаме F2.

3. Натискаме CTRL+SHIFT+ENTER.

При геометричния принцип, ширината на интервалите нараства или намалява еднакъв брой пъти, т.е. в геометрична прогресия. Този начин се използва, когато в членовете на реда има много големи различия.



С какво може да ни бъде полезен Excel в случая: Можем отново да използваме функцията

FREQUENCY(data_array; bins_array).

Разликата е само в начина, по който подбираме числата в bins_array.

При групирането минималната измерена стойност трябва да е в първия, а максималната – в последния интервал. Краищата на интервалите трябва да са така обособени, че всяка от единиците да попада само в един интервал. Ако единият от краищата в първия или последния интервал не са посочени, съответният интервал се нарича отворен и при изчисляване на различните количествени характеристики се приема, че отворените групи са образувани по същата закономерност както и при останалите интервали.

Често пъти вместо така описаната группировка, групите са образувани с помощта на думите “по-малко от” и после се посочва горния край на току-що описаните интервали. В този случай говорим за групировка по абсолютни или относителни кумулативни честоти или това са честотите с натрупване.

В зависимост от броя на признаците, по които се извършва групирането имаме проста и сложна групировка. В резултат от сложната групировка се получават двумерни, тримерни и т.н. многомерни емпирични разпределения.

Резултатите от статистическата групировка се представят под формата на т.н. дескриптивни статистики. Това са статистическите редове, таблици, графики, средни величини и относителни дялове.

Статистически анализ – това е последният и най-съществен етап от статистическото изучаване. В него първо се определят статистическите методи и вида на количествените измерители, после - стойността им, а накрая се анализират получените резултати и се оформят изводи и заключения, предназначени за крайния потребител на статистическото изследване.

Да отделим особено внимание на сравнимостта и съпоставимостта на статистическите данни. Неспазването на предпоставките за сравнимост често е причина за недостоверни статистически заключения. За да сравним две или повече статистически величини е необходимо те да са едноименни, т.е. измерени в една и съща мярка и да са еднородни по съдържание.

Най-често, когато искаме да опишем структурата на изследвания обект или явление задачата се свежда до характеризиране на типа и определяне на числовите характеристики на разпределението на единиците на генералната съвкупност по съответните признаци, ако търсим тенденцията в развитието на дадено явление или искаме да направим прогноза се използва динамичен анализ, ако се интересуваме от връзки и зависимости на помощ ще ни дойдат дисперсионния, корелационния, регресионния или индексно-факторния анализ. Има не по-малко случаи, в които изследователят сам трябва да си изработи алгоритъм, обосновавайки се на Теорията на вероятностите, в зависимост от поставената задача. За да се извърши съдържателен статистически анализ, той трябва задължително да се запознае и със същността на изследваното явление или процес, а не само да анализира числа.

На края на тази тема да разграничим понятията статистическа отчетност и статистически анализ. В първия случай имаме само регистрация, групировка на данните, пресмятане на средни и относителни величини или накратко - ограничаваме се с описание на само на данните, които наблюдаваме, докато във втория се предполага използване на по-задълбочен статистически апарат и обобщаване на резултатите от изследването за цялата генерална съвкуп-ност, от която е формирана извадката.



Въпроси към темата:

При групиране на данни, когато групите са образувани по аритметичния способ, какво предположение за статистическите единици се прави?

Каква е разликата между понятията „абсолютни честоти”, „относителни честоти”, „абсолютни кумулативни честоти” и „относителни кумулативни честоти”?

Пример 1: През 2014 г. в България е извършено наблюдение в 147 фирми, занимаващи се с производство на сладкарски изделия. Един от разглежданите признаци е бил “брутна печалба”. Устано-вените резултати са дадени в Табл 1.



Табл. 1 Брутна печалба на 147 фирми в България за 2004г. в х. лв.

65,70

33,90

54,00

79,50

67,70

81,10

65,00

78,40

62,10

77,40

55,50

21,70

33,10

80,50

46,80

68,60

63,50

72,50

71,20

75,90

72,60

32,90

58,10

66,20

27,30

55,20

74,50

34,50

57,50

55,10

75,50

64,50

78,40

58,30

40,70

63,30

61,80

64,70

44,90

49,10

23,50

68,80

53,10

74,70

51,00

74,70

47,30

14,00

25,90

63,20

46,00




54,60

27,40

70,60

35,00

26,70

22,60

56,10

64,30

70,80

20,90

61,80

59,30




44,90

36,50

61,50

45,50

52,70

31,00

44,30

48,90

69,30

20,50

32,30

44,60




67,30

41,30

64,10

44,50

68,70

67,50

59,60

61,60

43,30

71,10

59,30

59,30




51,60

85,80

57,20

47,00

64,60

67,80

69,20

75,80

73,00

85,70

15,80

60,20




62,70

78,70

51,60

57,10

29,80

56,70

45,50

43,00

29,10

66,80

47,60

71,70




83,60

65,20

37,00

70,20

73,40

25,20

86,00

76,60

78,10

54,20

34,40

42,60




40,40

37,80

17,70

14,90

46,50

41,40

53,20

78,10

58,00

28,20

35,80

60,30




39,40

43,40

63,40

59,90

54,70

71,40

68,20

75,00

56,50

73,90

50,30

64,80




а) Извършете групировка като определите ширините на интервалите по формулата на Стърджес;

б) Определете кумулативните честоти в съответните групи.



Решение:

а) Минималният размер на брутна печалба при наблюдаваните фирми е 14 х.лв. Тогава = 14 х.лв. Аналогично за максималния размер, получаваме, че = 86 х.лв. Прилагаме формулата на Стърджес. Така бихме имали



Тъй като, броят на групите не е цяло число, трябва да изберем да работим с 8 или 9 групи. Ако техният брой е 8, за да спазим изискването минималното наблюдение да е ляв край на първия интервал и максималното наблюдение да е десен край на последния интервал, ширината на интервалите трябва да е



,

където k е броят на групите. Така ширината на интервалите е 9. След групировката получаваме първите две колони на Табл. 2.


Табл. 2

Брутна печалба в х.лв.

fi

Сi

Над 14,00 до 23,00

8

8

Над 23,00 до 32,00

10

18

Над 32,00 до 41,00

14

32

Над 41,00 до 50,00

21

53

Над 50,00 до 59,00

23

76

Над 59,00 до 68,00

32

108

Над 68,00 до 77,00

26

134

Над 77,00 до 86,00

13

147

Общо:

147

x

С fi сме означили броят фирми, които попадат в i-тата група.

б) Кумулативните честоти в групите са дадени в последната колона на горната таблица. Те се получават по формулата:



където fi е абсолютната честота в i-тата група, т.е. броят фирми, чиято брутна печалба е в съответния интервал, описан в първата колонка на таблицата.


Задачи за упражнение:

Задача 1: През 2014 г. в курортен комплекс Х е извършено наблюдение над 126 туристи. Един от изследваните признаци е бил “средномесечен разход за нощувки в разглеждания курорт за 2014г.”. Установените резултати са дадени в Табл. 3.

а) Извършете групировка като определите ширините на интервалите по формулата на Стърджес;

б) Определете кумулативните честоти в съответните групи.

Табл. 3 Средномес. разход за нощувки на турист през 2014г. в лв.



25,7

19,9

14,0

9,5

27,7

47,0

114

16,0

13,0

73,0

51,1

32,0

59,3

80,5

46,0

68,6

63,5

72,0

81,1

71,0

53,2

76,6

91,0

85,0

59,3

44,6

64,5

34,0

57,5

55,1

48,5

41,0

65,0

68,2

48,1

48,1

66,8

18,0

59,3

59,1

23,0

48,8

53,0

74,7

64,5

45,9

78,4

45,0

58,0

54,2

47,0

60,2

54,6

27,4

70,6

35,0

26,7

51,0

48,4

42,6

62,0

56,5

28,0

34,4

51,7

67,3

51,0

44,1

44,0

68,0

31,0

56,1

47,3

64,6

67,5

44,0

34,3

61,8

51,6

85,0

57,0

47,0

83,6

65,2

37,0

40,2

43,4

56,7

69,0

51,6

25,9

12,0

49,7

51,6

57,1

29,8

67,0

59,6

48,9

27,3

33,1

40,4

37,8

17,7

13,5

63,3

56,2

21,7

64,8

64,7

55,2

13,9

70,8

77,4

73,9

35,8

42,6

44,9

36,5

61,5

45,5

52,7

22,6

74,7

58,3

32,9















1 Петров В., Т. Тодоров. Основи на статистиката. В.Търново, 2000.

2 L. Crocker, J. Algina. Introduction to Classical and Modern Test Theory, Harcourt Brace, 1986.

3 Евгения Стоименова, Измерителни качества на тестовете, София, 2000.

4 H.S. Madsen, Techniques in Testing, Oxford University Press, 1983.

5 Валентин Димитров Гоев, Статистическа обработка и анализ на информацията от социологически, маркетингови и политически изследвания с SPSS, УИ “Стопанство”, София, 1996

6 Sturges H. A. The Choise of a Class Interval. - Journal of the American Statistical Association, 1926.


Последна редакция 27.10.2018 г.

Каталог: tadmin -> upload -> storage
storage -> Литература на факта. Аналитизъм. Интерпретативни стратегии. Въпроси и задачи
storage -> Лекция №2 Същност на цифровите изображения Въпрос. Основни положения от теория на сигналите
storage -> Лекция 5 система за вторична радиолокация
storage -> Толерантност и етничност в медийния дискурс
storage -> Ethnicity and tolerance in media discourse revisited Desislava St. Cheshmedzhieva-Stoycheva abstract
storage -> Тест №1 Отбележете невярното твърдение за подчертаните думи
storage -> Лекции по Въведение в статистиката
storage -> Търсене на живот във вселената увод
storage -> Еп. Константинови четения – 2010 г някои аспекти на концептуализация на богатството в руски и турски език


Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница