Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc



Pdf просмотр
страница4/41
Дата17.04.2022
Размер2.9 Mb.
#114126
ТипДиплом
1   2   3   4   5   6   7   8   9   ...   41
Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova



6

1. Въведение
Бързият прогрес в развитието на средства за придобиване и съхраняване на информация, наблюдаван в последните години, доведе до натрупване на големи бази от данни в практически всички области на човешката дейност. В медицината това е особено осезаемо, тъй като медицинските бази включват изключително разнообразни данни за пациентите – информация за извършените прегледи, издадени направления, антропометрични данни, активни диспансеризации, двумерни снимки от рентгенография, тримерни снимки от компютърна томография, резултати от назначени медицински изследвания, ДНК проби и т.н.
Това огромно количество събирани данни значително превишава възможностите на човек те да бъдат ефективно използвани без помощта на специализирани мощни средства за анализ. Като резултат, данните, събрани в огромните бази от данни, са се превърнали в “гробници от архиви”, които почти не са посещавани от никого. Така се стига до ситуация, описвана като “богата на данни, но бедна на информация” [Агре,
2003].
За запълване на тази все по-разширяваща се пропаст между данните и информацията се прилагат различни подходи от научната дисциплина “Извличане на закономерности от данни“ (Data Mining), която цели да превърне тези гробниците в “златни мини”, от които се добиват знания.


1.1. Извличане на закономерности от данни
Извличането на закономерности от данни (ИЗД) се състои в анализ на (често много големи) множества от наблюдавани данни с цел да бъдат открити в тях неочаквани зависимости, или те да бъдат обобщени и представени по нови начини, които са разбираеми и полезни за притежателите на данните.
Изведените от данните зависимости и обобщения често се наричат модели или шаблони, които се представят чрез линейни уравнения, правила, клъстери, графи, дървета и т.н. Изразът “наблюдавани данни” е използван в по-горната дефиниция като противоположност на “експериментални данни”. Обикновено ИЗД работи с данни, които са били събрани за цели, различни от ИЗД-анализ, което означава, че поставените от ИЗД цели не оказват никакво влияние на стратегията за събиране на данни. Това е една от характеристиките, по които ИЗД значително се отличава от статистиката, където често данните се събират чрез използване на ефективни стратегии за получаване на отговори на специфични въпроси. По тази причина ИЗД често се нарича “вторичен” анализ на данни.
В дефиницията на ИЗД се набляга на големия размер на базите от данни. При работа с малки множества от данни могат да бъдат използвани методи на класическия изследователски анализ, прилаган от статистиците. В случая на големи бази от данни възникват нови проблеми. Някои от тях са свързани с начина за ефективно съхраняване


7 и намиране на данни, а други се отнасят за такива фундаментални въпроси, като как да бъдат избрани характерни представители на данните, как тези данни могат да бъдат проанализирани за приемливо време, как да се разбере, дали някоя намерена зависимост отразява действителната реалност, а не е само резултат от някакво случайно съвпадение само в определена част от данните и т.н.
Важната характеристика на извлечените зависимости и структури е тяхната новост.
Ясно е, че степента на „новото” трябва да се измерва относно априорните, базови знания на потребителя. За съжаление, много малко ИЗД алгоритми взимат под внимание подобни знания. Макар че степента на новост е едно важно свойство на зависимостите, които търсим в данните, само то не е достатъчно да квалифицира една зависимост като знание. За целта тя трябва да бъде и разбираема.
За работещите в медицинската сфера – общопрактикуващи лекари и специалисти – един такъв по-разбираем и полезен начин за представяне на данни е графичният. За съжаление, огромните медицински бази от данни са пълни с невизуална (числова и текстова) информация, която е трудно да бъде показана в съкратен вид достатъчно разбираемо. За да се създаде подходящо графично представяне на данните, важно е да се разгледа по-внимателно естеството на данните.


Сподели с приятели:
1   2   3   4   5   6   7   8   9   ...   41




©obuch.info 2024
отнасят до администрацията

    Начална страница