46 бъде кодирано с 1 и кое с 0. Например, атрибутът Пол,
приемащ състояния мъж или жена, е симетричен. Сходството, оценявано на базата на симетрични атрибути, се нарича инвариантното сходство, тъй като резултатът не се променя при промяна на кодиране на някой от атрибутите. Оценката на
разстоянието между два обекта, описвани със симетрични атрибути, най-често се прави чрез прост коефициент на съвпадение:
Друга, често използвана мярка за разстояние между симетрични двоични атрибути е разстоянието по Хеминг (Hamming distance): където:
Един двоичен атрибут се нарича асиметричен, ако неговите състояния имат различна важност (тегло). Например, положителен и отрицателен резултат на атрибута “Тест
за
СПИН
”имат съвсем различно тегло! Обикновено за асиметричните атрибути чрез 1 се
кодира състоянието, което се среща по-рядко (положителен – за “Тест
за
СПИН
”).
Следователно, за асиметрични атрибути положителното съвпадение (съвпадение на 1- ци) е по-важно от отрицателното. По тази причина, асиметричните атрибути се разглеждат не като двоични, а като “единични”, т.е. имащи само едно състояние.
Сходството, базирано върху асиметричните атрибути, се нарича не-инвариантно сходство. Най-известната мярка за изчисляване на разстояние между асиметрични атрибути е Жакардовия коефициент:
Скаларното произведение е друг вариант на
разстоянието по Хеминг, което често се прилага в случая на несиметрични атрибути:
Когато атрибутните стойности се кодират само с 0 и 1, при тази мярка само присъстващите признаци (т.е. 1-ци) допринасят за оценяването на сходството между обектите.
Сподели с приятели: