1
ГОЛЕМИТЕ ДАННИ - ВЪЗМОЖНОСТ, ПРЕДИЗВИКАТЕЛСТВО ИЛИ ЗАПЛАХА ПРЕД ОФИЦИАЛНАТА СТАТИСТИКА Галя Статева* Въведение В нашия модерен свят все повече данни се генерират от световната интернет мрежа и се произвеждат от електронни сензори и устройства, които са навсякъде около нас. Тези данни се създават в резултат от протичане на процеси в различни сфери на обществено-икономическия живот на национално и международно равнище. Тяхното естество трябва да се разглежда в два основни аспекта: като
описание на характеристиките, спецификите и особеностите на всеки процес и като ръководство за управление на всеки процес. Обемът на данните и високата скорост,
с която се произвеждат, води до създаване на концепцията
„големи данни“ (Big Data). Това понятие е добре дефинирано от
определението на Gartner1
:
Големите данни са данните, които могат да бъдат описани като „голямо количество от разнообразни данни, осигуряващи ефективността и ефикасността на протичащите процеси чрез повишаване на познанието и вземането на правилни решения“. Големите данни се характеризират още като набор от данни с нарастващ обем,
скорост и разнообразие, или т.нар. 3Vs
2
. Те обикновено са неструктурирани, нямат предварително
дефиниран модел и мащаб, като най-често са в текстови формат.
Статистическите организации дефинират големите данни като:
Данни, които трудно се събират, съхраняват или обработват с конвенционалните системи на статистическите организации. Техният обем, * Държавен експерт в отдел „Обща методология и анализ на статистическите изследвания”, НСИ; e-mail: gstateva@nsi.bg.
1
Повече информация може да се намери на адрес: http://www.gartner.com/it-glossary/big-data/.
2
Volume,
Velocity, Variety (3Vs).