Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc



Pdf просмотр
страница29/41
Дата17.04.2022
Размер2.9 Mb.
#114126
ТипДиплом
1   ...   25   26   27   28   29   30   31   32   ...   41
Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova
3.4. Дефиниране на разстоянието между обектите
Работата на алгоритъма FastMap разчита на непрекъснато преизчисляване на взаимните разстояния между обектите за всяка размерност на пространството. За тази цел трябва да сме в състояние да дефинираме подходяща функция D(A, B), която да дава числова мярка за разстоянието между всеки два обекта A и B. В тази секция ще разгледаме накратко как се изчислява разстоянието между обекти, описани с атрибути от различни типове данни. Ще разгледаме следните типове данни на атрибути – непрекъснати, двоични, номинални и атрибути с наредба.

3.4.1. Непрекъснати атрибути
Непрекъснатите или интервално-скалирани атрибути са непрекъснати числови стойности на измервания, направени съгласно една приблизително линейна скала.
Типични примери са тегло, височина, температура и т.н. Трябва да се знае, че използваните мерни единици могат да окажат съществено влияние на резултатите от клъстерния анализ. Например, промяната от метри в инчове при измерване на височина може до доведе до получаване на съвсем различни клъстерни схеми. В общия случай, представянето на един атрибут в по-малки мерни единици води до по-голям диапазон на стойностите на този атрибут и, следователно, до по-голям ефект върху структурата на клъстерите. За да избегнем влияние от избора на мерните единици, данните трябва да бъдат стандартизирани (макар, че в някои приложения на някои атрибути могат да бъдат целенасочено присвоени по-големи тегла).
За да бъдат стандартизирани непрекъснатите атрибути, оригиналните измервания трябва да бъдат превърнати в безмерни единици. В лекцията, посветена на предварителната обработка на данните, вече разгледахме някои методи за стандартизация или нормализация на непрекъснатите данни. В клъстерния анализ често се прилага вече описаната z-нормализация, но с малки изменения: където е средната стойност на атрибута f, а s
f е средното абсолютно отклонение на този атрибут, изчислено по формулата:
Средното абсолютно отклонение s
f е по-устойчиво към екстремните стойности от
“традиционното” стандартно отклонение σ
f
, тъй като при неговото изчисляване отклоненията от средната стойност не се повдигат на квадрат и следователно, по този начин се намалява влиянието на екстремните стойности. От другата страна, използването на средното абсолютно отклонение не прави z-стойностите на екстремните стойности прекалено малки, т.е. тези крайности остават разпознаваеми, което е важно за анализа на крайностите.


45
Независимо от това, дали стойностите на непрекъснатите атрибута са стандартизирани или не, различието (или сходството) между два обекта, описвани чрез такива атрибути, се измерва с помощта на някоя мярка за разстояние. Един общ клас от такива мерки се задава от функцията за разстояние на Минковски: където i и j са два p-мерни обекта.
Най-често използваните разстояния в клъстерния анализ са Евклидово (при L=2) и абсолютното (при L=1). Претегленото разстояние на Минковски се получава когато всеки атрибут има различно тегло w
f
:


Сподели с приятели:
1   ...   25   26   27   28   29   30   31   32   ...   41




©obuch.info 2024
отнасят до администрацията

    Начална страница