37
Всички липсващите стойности се заменят с една и съща константа, например, “?” (т.е.
“неизвестно”). Някои версии на ИЗД алгоритмите (например, методи за класификация, използващи MVDM метрика за сходство) успешно
построяват модели върху така “изчистени” бази от данни.
4. Запълване на липсващата стойност със стойността на средно аритметичното за даден атрибут. При този метод неизвестните стойности на един непрекъснат атрибут се заменят със средно аритметично на всички известни негови стойности, а неизвестните стойности на един номинален атрибут – с най-често срещаната известна негова стойност. Това е един доста разпространен метод за “изчистване” на данни, използван например при задачи на класификация, решавани чрез невронни мрежи.
5. Запълване на липсващата стойност със стойността на средно аритметичното за дадения атрибут с отчитане на класа. Този подход се използва при наличие на целевия атрибут. Неизвестната стойност на някой атрибут за всички записи от един и същ клас се попълва със средно аритметично на
атрибута за същия клас, ако атрибутът е непрекъснат, или с най-често срещаната му стойност в класа, ако атрибутът е номинален.
6. Запълване на липсващата стойност с най-вероятната стойност на съответния атрибут. При този подход атрибутът с липсващите стойности се разглежда като целевия и задачата за попълване на тези стойности се третира като задача за класификация,
ако атрибутът е номинален, или като регресия, ако той е непрекъснат. За тяхното решение могат да бъдат използвани такива методи като Бейсов класификатор, алгоритмите за най-близък съсед, класификационни или регресионни дървета и др.
Всички методи от 3 до 6 променят разпределението на данните и не отчитат възможните връзки между различните атрибути. От тази гледна точка последният метод използва най-много наличната информация за предсказване на
липсващите стойности, като запазва връзките между атрибутите. Той обаче е доста по-сложен за изпълнение, тъй като изисква прилагане (и наличие) на различни класификационни или регресионни техники за моделиране.
Сподели с приятели: