8 положение). Някои стойности липсват – това е често явление в реалните бази от данни.
По-сложен въпрос е наличието на шум – например, дали доходът (income) на човека с
ID 248 е действително $100000 или това е грешка при въвеждането?
Таблица
1.1. Пример
за
данни
, събирани
от
Бюрото
по
преброяване
на
населението
на
САЩ
Различието между непрекъснати и символни променливи е важно, тъй като някои от
техниките за анализ на данни, подходящи за единия тип променливи, не са подходящи за другия. Непрекъснатите променливи се измерват по числова скала и по принцип могат да приемат произволни числови стойности. Символните променливи могат да приемат само определени дискретни стойности. Символните стойности могат да бъдат подредени (т.е. да имат естествен начин на подреждане, например Education – “Степен на образование”), или номинални (т.е. представят само имена на определени категории, например “Семейно положение”).
Една типична задача за подобен тип данни е намирането на зависимости между различните променливи. Например, би било интересно да се види доколко добре доходът на човек може да бъде предсказан от стойностите на други променливи.
Разгледаната по-горе
n x p матрица с данни е често само идеализация или опростяване на ситуацията, наблюдавана на практика. Например, в едно множество от медицински записи една и съща променлива (да кажем кръвно налягане) може да има множество от стойности, като всяка стойност отразява измерване, направено в различен ден. Някои пациенти могат да имат данни, представени във вид на изображение, например рентгенова снимка. Възможни са и данни във вида на текст, например диагнози и коментари на специалиста. Освен това са възможни йерархични релации между пациентите в
термините на доктори, болници и географското разположение.
Очевидно е, че колко по-сложни са структурите данни, толкова по-сложни ще бъдат
ИЗД моделите и алгоритмите които трябва да се използват. Макар че много от реалните множества данни не пасват точно на описания прост “плосък” (flat) формат във вид на матрица от данни, повечето от съдържащата се в тях информация може по принцип да бъде запазена и в “плоския” формат чрез подходящо дефиниране на
p променливи. В хода на дипломната работа оттук нататък ще подразбираме, че наблюдаваните данни съществуват във вид на
n x p матрица от данни, като ще смятаме, че и
n и
p могат да бъдат много големи. В различни контексти матриците от данни се наричат с различни
9 имена, сред които множество от данни, обучаващи данни, извадка, база от данни и т.н.
В настоящата дипломна работа ще се придържаме към термина извадка.
Сподели с приятели: