3 частност, възможността за комбиниране на данни от различни източници прави официалната статистика по-прецизна в своята дейност и разширява нейния обхват.
Във връзка с това и в унисон с високото технологично развитие информацията, осигурявана от статистическите институти, запазва своята уникалност и няма алтернатива, тъй като нейното качество се определя от 15-те принципа на
Кодекса на европейската статистическа практика
3
Професионалистите, работещи в производството на
официална статистика, са държавни служители и имат широки и специфични познания в статистическата наука. Те са гарант, който осигурява доверието на обществото в надеждността на произвежданата статистическа информация. Успоредно с това усилията на
Европейската статистическа система (ЕСС) са насочени към повишаване на равнището на стандартизиране, хармонизиране и съчетаване на различни източници на данни, включително и на динамично променящите се големи потоци от данни. Това обстоятелство променя облика на официалните статистики в държавите от Европейския съюз.
В контекста на тези обективно случващи се процеси големите данни все повече разширяват своето присъствие в общественото пространство: огромен обем от дигитална информация, произлизаща от всички видове човешки дейности, служи за
производство на статистика, която се използва от частни институции или компании. Възникват следните въпроси: дали компаниите, които събират данни, са собственици на тези данни; могат ли да ги използват за различни цели без съгласието на респондентите; дали тези числа могат да се възприемат като конкурентни на официалната статистика; могат ли да се разработват анализи, съчетаващи информация от големи данни и от официалната статистика.
Източниците на големи данни предлагат
огромен обем от данни, които изискват съхранение и обработка, надвишаващи капацитета на традиционните статистически средства при процеса на производство на статистика. Поради тази причина биха могли да се прилагат „нови“ техники за извличане на знания от данни (data mining) и прилагане на алгоритми от областта на машинното обучение
(machine learning algorithms), имащи изискваната изчислителна ефикасност (Bondi,
2000).
Друго съображение относно използването на големите данни е свързано с представителността и обхвата на произвежданата от тях статистика.
С традиционните извадкови техники се осигурява точност на получените статистически оценки на базата на размера на стохастичните грешки. Това може би е приложимо и за големите данни, които могат да бъдат адаптирани към традиционните извадкови техники, но се изискват достатъчно добри аргументи и прецизен анализ на получените емпирични резултати. Успоредно могат да се разработят и алтернативни методи, които отразяват спецификата на големите данни,
тяхната динамичност, обхват и области на приложение.
Теоретично погледнато, големите данни могат да бъдат използвани за производство на официална статистика по различни начини: 1) като заменят изцяло статистическите източници, основани на общи дефиниции, класификации и т.н., което е малко вероятно в обозримото бъдеще; 2) частична замяна на
3
Повече информация може да се намери на адрес: http://www.nsi.bg/sites/default/files/files/pages/Quality/1.1.%20CoP_ALL_BG.pdf.
4 статистическите източници, като допълват информацията чрез съчетаване на данни от
различни източници на данните; 3) осигуряване на напълно нови статистически числа, които могат да допълват и да се интегрират с наличната статистическа информация, което е значително по-добрият начин за тяхното съвместно използване. Първите два начина вероятно биха могли да доведат до намаляване на разходите и натоварването на респондентите, но това, от своя страна, ще доведе до нови задачи за адаптиране, съчетаване и хармонизиране на различни структури от данни към вече утвърдени и общоприети статистически концепции, дефиниции и класификации.
Логично погледнато, големите данни не могат да заменят напълно или частично статистическите източници в краткосрочен план и това би било твърде скъпо по отношение на времевите, финансовите и човешките ресурси.
Наред с това на този етап от глобализирането на света между статистическите и големите данни се наблюдават моментни процеси на конвергенция, които са необходими за управлението на бизнеса. Фирмите от частния сектор, произвеждащи статистика на основата на големите данни, следват третия път и не се сблъскват с подобни проблеми.
Сподели с приятели: