Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc



Pdf просмотр
страница8/41
Дата17.04.2022
Размер2.9 Mb.
#114126
ТипДиплом
1   ...   4   5   6   7   8   9   10   11   ...   41
Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova
1.5. Клъстеризация на извадки
Задачата за клъстеризация (класификация) има за цел разбиването на данните на интересни и смислени подгрупи (клъстери или класове). Всички членове на една подгрупа поделят общи характеристики, например, при анализа на медицински пациенти съвкупността от поставени диагнози може да бъде разбита на отделни клъстери в зависимост от съдържащи се в него пациенти. Алгоритмите за клъстеризация събират обектите в подгрупи (клъстери), базирайки се на принципа за максимизиране на вътре-клъстерното сходство и минимизиране на между-клъстерното сходство. Клъстеризацията може да се използва и за създаване на таксономии, т.е. организацията на обекти в йерархия от клъстери, които групират заедно сходните обекти.
Клъстеризацията може да се извършва ръчно или (полу-)автоматично. Изследователят може да направи предположение за броя на сегментите, използвайки предварителните основни знания за проблемната област или базирайки се на резултати от описанието и обобщението на данните, а ИЗД алгоритъм да извърши сегментирането на данните на указания брой сегменти. Съществуват и техники за автоматична клъстеризация, които сами могат да намерят по-рано неизвестни и скрити структури в данните без човешка намеса.
Клъстеризацията може да бъде напълно самостоятелна цел на ИЗД изследване, т.е. определяне на сегментите да бъде основната цел на ИЗД процеса. Обаче, доста често тя е само една стъпка при решаване на други ИЗД задачи. В тези случаи целта на клъстеризацията е да осигури размер на данните, удобен за други ИЗД цели, или да намери еднородни подмножества от данните, които след това могат много по-лесно да бъдат анализирани. Обикновено в големи бази различни зависимости между данните влияят едни върху други и затрудняват намирането на интересни закономерности. В този случай подходящото клъстеризиране на данните значително улеснява основната задача.
В настоящата дипломна работа няма да се спираме на различни методи за клъстеризация. Ще считаме, че извадките са предварително клъстеризирани
(класифицирани), като ще използваме принадлежността на обектите към техния клъстер (клас) за по-информативно визуализиране на данните.


Сподели с приятели:
1   ...   4   5   6   7   8   9   10   11   ...   41




©obuch.info 2024
отнасят до администрацията

    Начална страница