12 данните, да бъдат построени първоначалните хипотези за скритата в данните информация.
Например, разпределението на диагнозите на пациентите спрямо мястото на живеене може да даде насока за това, кои групи пациенти са застрашени повече от развиване на дадено заболяване и това да доведе до взимане на нови превантивни медицински мерки. По тази причина разгледаният в настоящата дипломна работа метод за визуализация е част от ИЗД етапа на разбиране на данните.
Работещите в медицинската сфера – общопрактикуващи лекари и специалисти – са свикнали с графичното
представяне на информацията, защото за медицинската информация това е един по-разбираем и полезен начин за представяне на данните. Ето защо в настоящата дипломна работа се предлага графична визуализация на извадките.
Като удачен метод за това е избран алгоритъмът FastMap [Faloutsos & Lin, 1995], който e разработен за целите на бързото търсене в мултимедийни бази от данни, както и за визуализацията на многомерни данни.
Алгоритъмът FastMap решава задачата за проектиране на
N обекта, за които е известна
N x N матрицата на
взаимните разстояния, в
N точки в
k-мерно пространство по начин, запазващ (до голяма степен) съответствията в разстоянията между обектите.
Решаването на задача за проектиране на
N n-мерни обекта в
N k-мерни обекта, където k ≤ n, е частен случай на тази по-обща задача. В настоящата дипломна работа ще
използваме проектиране с k = 2, т.е. проектиране в двумерно пространство.
Вместо матрица на взаимните разстояния може да бъде използвана някаква мярка за разстояние между два обекта, дефинирана като функция D(A, B) := разстоянието между обектите A и B. В оригиналната версия на алгоритъма се
използва Евклидово разстояние, но за нашите нужди ще дефинираме по-различни мерки за разстояние, които са съобразени с типовете на атрибутите от медицинските извадки.