Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc



Pdf просмотр
страница30/41
Дата17.04.2022
Размер2.9 Mb.
#114126
ТипДиплом
1   ...   26   27   28   29   30   31   32   33   ...   41
Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova
3.4.2. Двоични атрибути
Един двоичен атрибут приема само две състояния: 0 или 1, където 0 означава, че атрибутът не присъства, а 1 – че присъства. Например, 1 за атрибут Пушач означава, че човекът пуши, а 0 - че не пуши.
При изчисляване на разстоянието между двоични атрибути се използват два подхода.
Първият от тях се базира на изчисляване на така наречената таблица на случайностите
(contingency table). Ако всички двоични атрибути се третират като имащи еднакво тегло, то за два обекта, описвани с p двоични атрибута, може да построи следната 2 x 2 таблица на случайностите:

Обект j
1 0
Сума
1 q r q + r
0 s t s + t
Обект i
Сума q + s r + t p където:
q
е броят на общите атрибути (т.е. имащи стойност 1 и за двата обекта);
r
e броят на атрибутите, присъстващи в обект i, но липсващи в обекта j;
s
е броят на атрибутите, липсващи в обект i, но присъстващи в обекта j;
t
е броят на атрибутите, липсващи и в двата обекта.
Общият брой на атрибутите е p = q + r + s + t.
Ще наричаме един двоичен атрибут симетричен, ако и двете му стойности имат еднакво тегло, т.е. няма никакво значение, кое от двете стойности на такъв атрибут да


46 бъде кодирано с 1 и кое с 0. Например, атрибутът Пол, приемащ състояния мъж или жена, е симетричен. Сходството, оценявано на базата на симетрични атрибути, се нарича инвариантното сходство, тъй като резултатът не се променя при промяна на кодиране на някой от атрибутите. Оценката на разстоянието между два обекта, описвани със симетрични атрибути, най-често се прави чрез прост коефициент на съвпадение:
Друга, често използвана мярка за разстояние между симетрични двоични атрибути е разстоянието по Хеминг (Hamming distance): където:
Един двоичен атрибут се нарича асиметричен, ако неговите състояния имат различна важност (тегло). Например, положителен и отрицателен резултат на атрибута “Тест за
СПИН
имат съвсем различно тегло! Обикновено за асиметричните атрибути чрез 1 се кодира състоянието, което се среща по-рядко (положителен – за “Тест за СПИН).
Следователно, за асиметрични атрибути положителното съвпадение (съвпадение на 1- ци) е по-важно от отрицателното. По тази причина, асиметричните атрибути се разглеждат не като двоични, а като “единични”, т.е. имащи само едно състояние.
Сходството, базирано върху асиметричните атрибути, се нарича не-инвариантно сходство. Най-известната мярка за изчисляване на разстояние между асиметрични атрибути е Жакардовия коефициент:
Скаларното произведение е друг вариант на разстоянието по Хеминг, което често се прилага в случая на несиметрични атрибути:
Когато атрибутните стойности се кодират само с 0 и 1, при тази мярка само присъстващите признаци (т.е. 1-ци) допринасят за оценяването на сходството между обектите.


Сподели с приятели:
1   ...   26   27   28   29   30   31   32   33   ...   41




©obuch.info 2024
отнасят до администрацията

    Начална страница