Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc

Изтегляне 2.9 Mb.

Pdf просмотр

страница	5/41
Дата	17.04.2022
Размер	2.9 Mb.
	#114126
Тип	Диплом

1 2 3 4 5 6 7 8 9 ... 41

Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova

1.2. Естество на данните
Данните представляват едно множество от измервания, направени в определена среда или върху определен процес. В най-простия случай имаме колекция от обекти, като всеки от тях се характеризира с множество от p измервания, еднакви за всички обекти.
В този случай такава колекция може да се разглежда като n x p матрица от данни, където n редове представят n обекта, върху които са били направени измервания. В различни научни дисциплини (контексти) тези обекти се наричат индивиди, случаи, единици, обекти, примери или записи.
Втората размерност на матрицата от данни съдържа резултати от p измервания, направени върху всеки от обектите. Например, измерванията за медицински пациенти включват техни антропометрични данни като ръст, тегло, възраст, пол, в комбинация с други показатели като кръвно налягане, локация на болката, диагноза на заболяването и т.н. Най-често се предполага, че върху всеки обект е направено едно и също множество от измервания, макар че това не е задължително. Например, върху различни пациенти могат да бъдат извършени различни медицински тестове. Тези p колонки на матрицата с данни се наричат (в различни контексти) променливи, признаци, атрибути или полета.
За да илюстрираме по-добре естеството на данните, ще разгледаме един пример.
Бюрото по преброяване на населението на САЩ събира данни за населението на страната на всеки 10 години. Част от тази информация става публично достъпна, като всички данни, позволяващи конкретен индивид да бъде идентифициран, се изтриват.
Данните са достъпни във вид на 5% и 1% извадки (трябва да се отбележи, че дори 1% извадка съдържа около 2.7 милиона записи). Данните съдържат десетки променливи, от типа на възраст, доход, ниво на образование и т.н. В таблица 1.1 е даден пример за подобни данни. Вижда се, че таблицата съдържа различни типове променливи – непрекъснати (например Age - възраст) и символни (например Marital Status - семейно

8 положение). Някои стойности липсват – това е често явление в реалните бази от данни.
По-сложен въпрос е наличието на шум – например, дали доходът (income) на човека с
ID 248 е действително $100000 или това е грешка при въвеждането?

Таблица 1.1. Пример за данни, събирани от Бюрото по преброяване на
населението на САЩ
Различието между непрекъснати и символни променливи е важно, тъй като някои от техниките за анализ на данни, подходящи за единия тип променливи, не са подходящи за другия. Непрекъснатите променливи се измерват по числова скала и по принцип могат да приемат произволни числови стойности. Символните променливи могат да приемат само определени дискретни стойности. Символните стойности могат да бъдат подредени (т.е. да имат естествен начин на подреждане, например Education – “Степен на образование”), или номинални (т.е. представят само имена на определени категории, например “Семейно положение”).
Една типична задача за подобен тип данни е намирането на зависимости между различните променливи. Например, би било интересно да се види доколко добре доходът на човек може да бъде предсказан от стойностите на други променливи.
Разгледаната по-горе n x p матрица с данни е често само идеализация или опростяване на ситуацията, наблюдавана на практика. Например, в едно множество от медицински записи една и съща променлива (да кажем кръвно налягане) може да има множество от стойности, като всяка стойност отразява измерване, направено в различен ден. Някои пациенти могат да имат данни, представени във вид на изображение, например рентгенова снимка. Възможни са и данни във вида на текст, например диагнози и коментари на специалиста. Освен това са възможни йерархични релации между пациентите в термините на доктори, болници и географското разположение.
Очевидно е, че колко по-сложни са структурите данни, толкова по-сложни ще бъдат
ИЗД моделите и алгоритмите които трябва да се използват. Макар че много от реалните множества данни не пасват точно на описания прост “плосък” (flat) формат във вид на матрица от данни, повечето от съдържащата се в тях информация може по принцип да бъде запазена и в “плоския” формат чрез подходящо дефиниране на p променливи. В хода на дипломната работа оттук нататък ще подразбираме, че наблюдаваните данни съществуват във вид на n x p матрица от данни, като ще смятаме, че и n и p могат да бъдат много големи. В различни контексти матриците от данни се наричат с различни

9 имена, сред които множество от данни, обучаващи данни, извадка, база от данни и т.н.
В настоящата дипломна работа ще се придържаме към термина извадка.

Изтегляне 2.9 Mb.

Сподели с приятели:

1 2 3 4 5 6 7 8 9 ... 41