Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc



Pdf просмотр
страница7/41
Дата17.04.2022
Размер2.9 Mb.
#114126
ТипДиплом
1   2   3   4   5   6   7   8   9   10   ...   41
Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova
1.4. Конструиране на извадки
За конструиране на извадки от големи бази от данни, които са подходящи за прилагане на ИЗД алгоритми, е важно да се вземат предвид всички описани проблеми, свързани с естеството на данните и начините за намаляване на техния обем. Самият процес на получаване на извадка може да се разглежда като процес на подготовка на „суровите”


10 данни и получаване на две множества – множество данни и описание на множеството данни (мета-данни).
Разбиването на основната задача за подготовка на данни на подзадачи, както и съответните резултати, са представени на фигура 1.1 и са описани в таблица 1.2.
Фигура 1.1. Етапи на подготовката на данни
Избор
на данни
На тази стъпка трябва да се вземе решение, кои данни ще се използват за анализа. Критерият включва релевантността на данни за
ИЗД цели, качеството на данни и техническите ограничения на обем и типове данни, които могат да бъдат обработени от наличните ИЗД алгоритми.
Изчистване на
данни
Целта е да бъде повишено качеството на използваните данни. Това може да бъде постигнато чрез, например, избор на “чисти” подмножества от данни или чрез прилагане на съответните техники за премахването на шума и обработка на пропуснатите стойности.
Създаване на
данни
Тази задача включва конструиране на нови данни чрез създаване на нови (изведени от първоначалните) атрибути и/или различни трансформации на данни от типа на нормализиране, дискретизиране и т.н.
Интегриране
на данни
На този етап информацията се комбинира от различни източници
(таблици) с цел да бъдат създадени нови записи или стойности.
Таблица 1.2. Етапи на подготовката на данни


11


Сподели с приятели:
1   2   3   4   5   6   7   8   9   10   ...   41




©obuch.info 2024
отнасят до администрацията

    Начална страница