38 екстремални стойности. В първия случай “шумът” може да бъде намален чрез прилагане на методи за “изглаждане” (smoothing) на данни, докато във втория – чрез идентификация и премахване на съществуващите крайности (outliers).
Важно е
да се отбележи, че голямо разсейване не винаги е признак на шум в данните – обикновено това се отнася само за еднородни данни, т.е. данни отнасящи към един и същ клас (например, когато става дума за стойността на температура на класа “Здрави хора”). Обратно, често това е признак на наличието в данни на отделни групи – клъстери или класове (например, голямото разсейване може да се получи при измерване на температура на здрави и болни хора).
Изчистване на зашумени данни може да стане чрез откриване и
премахване на случайни грешки, които се проявяват като отклонение от общото поведение – екстремални стойности или крайности. Крайностите могат да бъдат определени чрез статистически анализ, например за такива
могат да се считат стойностите, лежащи на разстояние 1.5 пъти по-голямо от между-квартилното разстояние от първия и третия квартил.
3.1.3. Изчистване
на
данните
от
противоречиви
стойности
Противоречиви се наричат данни с грешна стойност на целевия атрибут (класа). За откриване на подобни противоречия се използват налични основни знания за проблемната област, например списък на допустими стойности на целевия атрибут - за откриване на грешки при въвеждане
или неприемливи съкращения, известни функционални ограничения на стойности на някои атрибути от съответните класове
(например атрибут „Брой левкоцити” не може да приема стойност „-20”, нито стойността на атрибута „Тегло” за клас „Бебе” може да бъде по-голяма от 10 кг) и т.н.
Най-лесно се откриват синтактичните противоречия –
това са случаи, когато в база от данни съществуват идентични записи, различаващи се само по стойността на целевия атрибут. Начинът за разрешаване на подобни противоречия е пълно премахване на всички противоречащи записи или само някои от тях. Това се прави според честотата на тяхното срещане и размера на самата база. Ако базата съдържа достатъчно записи от “спорните” класове, то подобни противоречиви записи могат да бъдат изтрити напълно. В противен случай окончателното решение може да се взима на база на определяне степента на сходство на спорните записи с всеки от противоречащите класове или чрез прилагане на някой
класификационен алгоритъм, предсказващ стойността на класа за спорните записи.
Сподели с приятели: