Microsoft Word Master thesis of Petar Kormushev in Medical Informatics doc



Pdf просмотр
страница6/41
Дата17.04.2022
Размер2.9 Mb.
#114126
ТипДиплом
1   2   3   4   5   6   7   8   9   ...   41
Kormushev MSc thesis Bio 2006
Свързани:
1601561030 Dobrinka Bogdanova
1.3. Намаляване на обема на данните
В повечето реални случаи данните, подлежащи на анализ, имат много голям обем, което значително усложнява работата на изследователя. Първо, обработката на такива данни заема много време, което прави самият анализ практически непригоден или дори неосъществим. Второ, изследователят е ограничен в избора на “инструменти” – алгоритмите за ИЗД, тъй като не всички те еднакво добре се справят с големи обеми данни. Методите за намаляване на обема на данните целят да бъде получено такова редуцирано представяне на данните, което позволява да бъдат получени от него същите
(или почти същите) аналитични резултати, както и от пълния обем данни.
Една база от данни, подлежаща на анализ, може да съдържа стотици атрибути, много от които могат да бъдат несъществени или напълно излишни за конкретната ИЗД задача.
Например, ако задачата е да бъдат класифицирани пациентите на един общопрактикуващ лекар от гледна точка на това, кои от тях е най-вероятно да развият хипертония, такъв атрибут като Телефонен_номер на пациента е съмнително да бъде съществен, за разлика от атрибутите Възраст и Тегло. Макар че е възможно изборът на някои полезни за задачата атрибути да бъде направен от експерти в конкретна предметна област, това си остава една доста сложна и много продължителна дейност, особено когато поведението на данните не е добре изучено. Изхвърлянето на някои съществени атрибути, както и оставянето на несъществени, може да доведе до сериозни проблеми при прилагането на избрания ИЗД алгоритъм и следователно, до намаляване на качеството на извлечените закономерности. Освен това, допълнителният обем данни, предизвикан от използване на несъществени атрибути, може да доведе и до забавяне на ИЗД процеса.
Един начин за намаляване на размерността на данните е чрез премахване на несъществените атрибути. Обикновено, за целта се използват знанията на експерт в конкретна предметна област или автоматизирани методи за избор на подмножество от атрибути. Целта на избора е да бъде намерено такова минимално подмножество от атрибути, че полученото разпределение по класове на данните с използване само на тези атрибути, да е колкото се може по-близко до разпределението на данните по класове, изчислено с използване на всички оригинални атрибути. Анализирането на намалената по този начин извадка дава и още едно допълнително предимство – получените след ИЗД процеса модели съдържат по-малко количество атрибути, което ги прави по-разбираеми за потребителя.


Сподели с приятели:
1   2   3   4   5   6   7   8   9   ...   41




©obuch.info 2024
отнасят до администрацията

    Начална страница