Големите данни възможност, предизвикателство или заплаха пред официалната статистика


скорост, структура и разнообразие изискват адаптиране на нов статистически



Pdf просмотр
страница2/12
Дата26.01.2023
Размер0.86 Mb.
#116401
1   2   3   4   5   6   7   8   9   ...   12
Големите данни - възможност, предизвикателство или заплаха пред официалната статистика
Свързани:
26 Задача. 1 Тема. Условие., 26 Задача. 3 Тема. Условие.
скорост, структура и разнообразие изискват адаптиране на нов статистически
софтуер за обработка и/или нова ИТ инфраструктура, за да бъдат ефективни
направените разходи.
Според потребителите с източниците на големи данни е трудно да се работи.
Основните причини за това са: скоростта на промените; трудностите с тяхната идентификация за възможно най-кратък срок от време; големите мащаби; непознаването на методите за тяхната обработка и превръщането им в обобщени синтетични показатели, позволяващи използването им за аналитични цели.
Примери за големи данни са: търговски трансакции с кредитни и дебитни карти; данни за околната среда от различни сензори за наблюдение на въздуха, водата и почвата; трафик информация от камери за наблюдение; социална информация от различни мрежи като Twitter, Facebook, Google+, Linkedin и други.
Информационните потоци в обществото се променят динамично. Това обстоятелство поставя нови акценти в общественото развитие. Големите данни създават нови търговски възможности в частния и обществения сектор, но освен това могат да бъдат потенциално интересни и като източник за официалната статистика - за самостоятелно използване или в комбинация с традиционните източници на данни - например извадковите изследвания и/или административните източници. Основателно възникват редица въпроси: как големите данни могат да спомогнат да се измерят точно и навременно икономическите, политическите,
социалните и природните феномени в нашия постоянно развиващ се свят?
Големите данни възникват от множество източници, които могат да се групират в три основни категории:
• Население (социални мрежи)
• Данни, генерирани от информационни системи (традиционни бизнес системи и уебсайтове)
• Данни, генерирани от машини/сензорни устройства (автоматизирани системи).
Процесът на

добиване” на информация от големи данни и инкорпорирането им в производствен процес на официалната статистика не е никак лека задача.
Какво се случва, когато официалната статистика срещне големите
данни?
Официалната статистика играе ключова роля в модерното общество. До
80-те години на миналия век данните бяха оскъдна стока с висока цена. Преди ерата на големите данни информацията не беше толкова достъпна и трябваше да бъде събирана за определени цели. Статистическите данни се получаваха предимно чрез изчерпателни изследвания. Тези данни се използваха предимно за целите на държавното управление. Такива бяха изследванията за държавните предприятия, селското стопанство и други. През 90-те години изчерпателните изследвания отстъпиха място на извадковите изследвания. Постепенно получаването на статистически данни чрез въпросници беше допълнено и с данни от административни източници. Много статистически служби имат достъп по закон до всички държавни, институционални източници на данни и имат право да събират данни от други източници, без да плащат за това на доставчиците. В


3 частност, възможността за комбиниране на данни от различни източници прави официалната статистика по-прецизна в своята дейност и разширява нейния обхват.
Във връзка с това и в унисон с високото технологично развитие информацията, осигурявана от статистическите институти, запазва своята уникалност и няма алтернатива, тъй като нейното качество се определя от 15-те принципа на
Кодекса на европейската статистическа практика
3
Професионалистите, работещи в производството на официална статистика, са държавни служители и имат широки и специфични познания в статистическата наука. Те са гарант, който осигурява доверието на обществото в надеждността на произвежданата статистическа информация. Успоредно с това усилията на
Европейската статистическа система (ЕСС) са насочени към повишаване на равнището на стандартизиране, хармонизиране и съчетаване на различни източници на данни, включително и на динамично променящите се големи потоци от данни. Това обстоятелство променя облика на официалните статистики в държавите от Европейския съюз.
В контекста на тези обективно случващи се процеси големите данни все повече разширяват своето присъствие в общественото пространство: огромен обем от дигитална информация, произлизаща от всички видове човешки дейности, служи за производство на статистика, която се използва от частни институции или компании. Възникват следните въпроси: дали компаниите, които събират данни, са собственици на тези данни; могат ли да ги използват за различни цели без съгласието на респондентите; дали тези числа могат да се възприемат като конкурентни на официалната статистика; могат ли да се разработват анализи, съчетаващи информация от големи данни и от официалната статистика.
Източниците на големи данни предлагат огромен обем от данни, които изискват съхранение и обработка, надвишаващи капацитета на традиционните статистически средства при процеса на производство на статистика. Поради тази причина биха могли да се прилагат „нови“ техники за извличане на знания от данни (data mining) и прилагане на алгоритми от областта на машинното обучение
(machine learning algorithms), имащи изискваната изчислителна ефикасност (Bondi,
2000).
Друго съображение относно използването на големите данни е свързано с представителността и обхвата на произвежданата от тях статистика.
С традиционните извадкови техники се осигурява точност на получените статистически оценки на базата на размера на стохастичните грешки. Това може би е приложимо и за големите данни, които могат да бъдат адаптирани към традиционните извадкови техники, но се изискват достатъчно добри аргументи и прецизен анализ на получените емпирични резултати. Успоредно могат да се разработят и алтернативни методи, които отразяват спецификата на големите данни, тяхната динамичност, обхват и области на приложение.
Теоретично погледнато, големите данни могат да бъдат използвани за производство на официална статистика по различни начини: 1) като заменят изцяло статистическите източници, основани на общи дефиниции, класификации и т.н., което е малко вероятно в обозримото бъдеще; 2) частична замяна на
3
Повече информация може да се намери на адрес: http://www.nsi.bg/sites/default/files/files/pages/Quality/1.1.%20CoP_ALL_BG.pdf.


4 статистическите източници, като допълват информацията чрез съчетаване на данни от различни източници на данните; 3) осигуряване на напълно нови статистически числа, които могат да допълват и да се интегрират с наличната статистическа информация, което е значително по-добрият начин за тяхното съвместно използване. Първите два начина вероятно биха могли да доведат до намаляване на разходите и натоварването на респондентите, но това, от своя страна, ще доведе до нови задачи за адаптиране, съчетаване и хармонизиране на различни структури от данни към вече утвърдени и общоприети статистически концепции, дефиниции и класификации. Логично погледнато, големите данни не могат да заменят напълно или частично статистическите източници в краткосрочен план и това би било твърде скъпо по отношение на времевите, финансовите и човешките ресурси.
Наред с това на този етап от глобализирането на света между статистическите и големите данни се наблюдават моментни процеси на конвергенция, които са необходими за управлението на бизнеса. Фирмите от частния сектор, произвеждащи статистика на основата на големите данни, следват третия път и не се сблъскват с подобни проблеми.


Сподели с приятели:
1   2   3   4   5   6   7   8   9   ...   12




©obuch.info 2024
отнасят до администрацията

    Начална страница