Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc

Изтегляне 2.9 Mb.

Pdf просмотр

страница	25/41
Дата	17.04.2022
Размер	2.9 Mb.
	#114126
Тип	Диплом

1 ... 21 22 23 24 25 26 27 28 ... 41

Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova

3.1.2. Изчистване на данните от зашумени стойности

Шумът е случайна грешка или разсейване в стойността на измерваната величина. За непрекъснатите атрибути като измерител на разсейването (и по този начин показател за наличие на шум в данните) може да се използва коефициентът на вариация ( V
%
), който изразява стандартното отклонение като процент от средното аритметично: където и σ са съответно средното аритметично и стандартното отклонение на атрибута X.
Например, наличието на сравнително голямо разсейване (над 2%) може да бъде причинено от груби грешки при измерването или от наличието на сгрешени

38 екстремални стойности. В първия случай “шумът” може да бъде намален чрез прилагане на методи за “изглаждане” (smoothing) на данни, докато във втория – чрез идентификация и премахване на съществуващите крайности (outliers).
Важно е да се отбележи, че голямо разсейване не винаги е признак на шум в данните – обикновено това се отнася само за еднородни данни, т.е. данни отнасящи към един и същ клас (например, когато става дума за стойността на температура на класа “Здрави хора”). Обратно, често това е признак на наличието в данни на отделни групи – клъстери или класове (например, голямото разсейване може да се получи при измерване на температура на здрави и болни хора).
Изчистване на зашумени данни може да стане чрез откриване и премахване на случайни грешки, които се проявяват като отклонение от общото поведение – екстремални стойности или крайности. Крайностите могат да бъдат определени чрез статистически анализ, например за такива могат да се считат стойностите, лежащи на разстояние 1.5 пъти по-голямо от между-квартилното разстояние от първия и третия квартил.
3.1.3. Изчистване на данните от противоречиви стойности

Противоречиви се наричат данни с грешна стойност на целевия атрибут (класа). За откриване на подобни противоречия се използват налични основни знания за проблемната област, например списък на допустими стойности на целевия атрибут - за откриване на грешки при въвеждане или неприемливи съкращения, известни функционални ограничения на стойности на някои атрибути от съответните класове
(например атрибут „Брой левкоцити” не може да приема стойност „-20”, нито стойността на атрибута „Тегло” за клас „Бебе” може да бъде по-голяма от 10 кг) и т.н.
Най-лесно се откриват синтактичните противоречия – това са случаи, когато в база от данни съществуват идентични записи, различаващи се само по стойността на целевия атрибут. Начинът за разрешаване на подобни противоречия е пълно премахване на всички противоречащи записи или само някои от тях. Това се прави според честотата на тяхното срещане и размера на самата база. Ако базата съдържа достатъчно записи от “спорните” класове, то подобни противоречиви записи могат да бъдат изтрити напълно. В противен случай окончателното решение може да се взима на база на определяне степента на сходство на спорните записи с всеки от противоречащите класове или чрез прилагане на някой класификационен алгоритъм, предсказващ стойността на класа за спорните записи.

Изтегляне 2.9 Mb.

Сподели с приятели:

1 ... 21 22 23 24 25 26 27 28 ... 41