39
Съществуват различни
методи за нормализация, като най-популярни от тях са: мини- максна нормализация, z-нормализация и нормализация чрез десетично мащабиране.
Мини-максната нормализация изпълнява линейна трансформация на оригиналните данни.
Нека minA
и max
A
са минималната и максималната стойности на атрибута А.
Мини-максната нормализация изобразява всяка стойност v на A в стойността v’ от диапазона [new_min
A
, new_max
A
] чрез трансформацията:
Мини-максната нормализация запазва съотношенията между оригиналните стойности на данните. Тя може да се ползва за откриване на грешка в данни от типа “стойност извън диапазона”, ако се окаже, че конкретната стойност на атрибута в някои от записи лежи извън оригиналния диапазон на атрибутните стойности .
Z-нормализацията (или нормализация с нулево средно аритметично) извършва нормализиране на данните на базата на средно аритметичното и стандартното отклонение на атрибута A. Стойността v на A се нормализира във v’ чрез трансформацията: където и са, съответно, средно аритметично и стандартно отклонение на A.
Този метод се използва, когато актуалните стойности на минимума и максимума на атрибута са неизвестни, или когато има екстремни стойности (ourliers), доминиращи в мини- максната нормализация.
Нормализация чрез десетично мащабиране изпълнява нормализацията чрез преместване на десетичната точка на стойностите на А. Броят на позициите при преместване на точката зависи от максимума на абсолютната стойност на А.
Стойността v на A се нормализира във v’ чрез трансформацията: където
j е най-малкото цяло число, такова че max{|v’|} < 1.
Трябва да се има предвид, че след прилагането на нормализация данните се променят.
За да бъдат нормализирани
правилно и бъдещите данни, необходимо е да се пазят параметрите на използваната нормализация (например средното аритметично и стандартното отклонение при z-нормализацията).