Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc

Изтегляне 2.9 Mb.

Pdf просмотр

страница	24/41
Дата	17.04.2022
Размер	2.9 Mb.
	#114126
Тип	Диплом

1 ... 20 21 22 23 24 25 26 27 ... 41

Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova

3. Проектиране на Визуализатора
Дотук проектирахме Конструктора на извадки с подходящ потребителски интерфейс, чрез който потребителят да работи лесно и удобно. В тази глава ще проектираме инструмента Визуализатор, който ще може да визуализира създадените извадки от
Конструктора. Това ще позволи на потребителя да получи нагледна представа за структурата на данните. Допълнително ще проектираме и такива интерактивни функции, чрез които потребителят ще може да манипулира обектите от визуализацията.
Само че, преди да можем да визуализираме данните от извадката, трябва внимателно да ги подготвим за обработка.
3.1. Подготовка на данните
Съществуващите реални бази от данни съдържат зашумени, непълни и противоречиви данни, обикновено поради своя огромен размер, често достигащ до няколко гигабайта или дори повече. Непълнота в данните може да възникне по няколко причини. Някои от интересуващите ни атрибути могат да липсват, просто защото не са били въведени по време на създаване на съответния запис в базата от данни. Други стойности могат да липсват поради повреда в оборудването за тяхното събиране, например някой медицински апарат. Причините за наличието на зашумени данни или некоректни стойности на атрибутите могат да бъдат повреди в събиращото данни оборудване, човешки грешки при въвеждането на данни или грешки при тяхното получаване чрез комуникационни канали. Всички тези “замърсени” данни могат да объркат впоследствие ИЗД алгоритъма, водейки до ненадеждни и неправдоподобни резултати.
По тази причина “изчистването” на данните е една важна стъпка от процеса на предварителната подготовка на данните преди да се прави опит за тяхната обработка. В този раздел ще представим базови методи за изчистване на данните и тяхното нормализиране.
3.1.1. Изчистване на данните от липсващи стойности
Съществуват множество различни подходи за справяне с липсващите стойности в данните. Следните подходи обикновено се приемат в ИЗД като базови:
1. Игнориране на записа. Този метод обикновено се прилага, когато в записа липсва стойност на целевия атрибут (като се предполага, че задачата на ИЗД е класификацията) и не е много ефективен, освен в случаите, когато записът съдържа няколко атрибута с липсващи стойности. Методът води до лоши резултати в случаите, когато процентът на липсващите атрибутни стойности е значителен.
2. Ръчно попълване на липсващите стойности. В общия случай този подход изисква много време и практически не е приложим за големи бази от данни с голям процент на липсващите атрибутни стойности.
3. Използване на една глобална константа за заместване на липсващата стойност.

37
Всички липсващите стойности се заменят с една и съща константа, например, “?” (т.е.
“неизвестно”). Някои версии на ИЗД алгоритмите (например, методи за класификация, използващи MVDM метрика за сходство) успешно построяват модели върху така
“изчистени” бази от данни.
4. Запълване на липсващата стойност със стойността на средно аритметичното за даден атрибут. При този метод неизвестните стойности на един непрекъснат атрибут се заменят със средно аритметично на всички известни негови стойности, а неизвестните стойности на един номинален атрибут – с най-често срещаната известна негова стойност. Това е един доста разпространен метод за “изчистване” на данни, използван например при задачи на класификация, решавани чрез невронни мрежи.
5. Запълване на липсващата стойност със стойността на средно аритметичното за дадения атрибут с отчитане на класа. Този подход се използва при наличие на целевия атрибут. Неизвестната стойност на някой атрибут за всички записи от един и същ клас се попълва със средно аритметично на атрибута за същия клас, ако атрибутът е непрекъснат, или с най-често срещаната му стойност в класа, ако атрибутът е номинален.
6. Запълване на липсващата стойност с най-вероятната стойност на съответния атрибут. При този подход атрибутът с липсващите стойности се разглежда като целевия и задачата за попълване на тези стойности се третира като задача за класификация, ако атрибутът е номинален, или като регресия, ако той е непрекъснат. За тяхното решение могат да бъдат използвани такива методи като Бейсов класификатор, алгоритмите за най-близък съсед, класификационни или регресионни дървета и др.
Всички методи от 3 до 6 променят разпределението на данните и не отчитат възможните връзки между различните атрибути. От тази гледна точка последният метод използва най-много наличната информация за предсказване на липсващите стойности, като запазва връзките между атрибутите. Той обаче е доста по-сложен за изпълнение, тъй като изисква прилагане (и наличие) на различни класификационни или регресионни техники за моделиране.

Изтегляне 2.9 Mb.

Сподели с приятели:

1 ... 20 21 22 23 24 25 26 27 ... 41