Тема 11. Системи за информационен анализ на данни (data mining) 11 Същност на Data Mining



Дата21.01.2017
Размер104 Kb.


Тема 11. СИСТЕМИ ЗА ИНФОРМАЦИОНЕН АНАЛИЗ НА ДАННИ

(DATA MINING)
11.1. Същност на Data Mining

Терминът извличане на знания от данни, на английски knowledge discovery in databases, е възприет като български превод на популярния термин Data Mining, въпреки че на английски двата термина не винаги се смятат за точни синоними. В някои източници Data Mining се посочва само като един от етапите на knowledge discovery in databases. В българските източници е широко възприето да се ползва английският термин, както и транслитерацията му дейта майнинг, а се срещат и отделни преводи като сондиране на данни, интелектуален анализ на данните, интелигентен анализ на данните, дълбочинен анализ на данните, добиване на данни, добив на данни, целенасочено търсене на данни и други.

Data Mining представлява процес на анализ на съхраняваните бази данни в посока на извличане на нова полезна информация чрез разкриване на дълбоките и скрити взаимоотношения между на пръв поглед неизвестни и несвързани една с друга величини. Важна негова особеност е, че той осигурява възможност за обработка на многомерни масиви и извличане на многомерни зависимости, като същевременно автоматично разкрива изключителните ситуации - данни и случаи, не включващи се в общите закономерности. Data Mining анализът автоматически прави хипотези за разкриване на зависимости между различни компоненти и параметри. Работата на аналитиците, които се занимават с тези системи, се свежда до проверка и доуточняване на получените хипотези. Появата на Data Mining е свързана с необходимостта от усъвършенстване на техниките за запис и съхранение на данните, които обобщават труда на хиляди хора в колосални потоци от информация в най-различни области. С течение на времето е станало ясно, че без продуктивна обработка на данните се правят никому ненужни извадки. Нуждата в развитието на съвременните технологии от такава преработка на данните може да се обобщи в следното:


  • неограниченият обем на данните;

  • голямата разнообразие и разнородност на данните (количествени, качествени и текстови);

  • необходимост от конкретни и разбираеми резултати;

  • инструменти за обработка на данните, предоставящи възможности за лесно използване.

В основата на съвременните технологии за Data Mining стои концепцията за шаблони или модели, отразяващи фрагментираните многоаспектни взаимоотношения между данните. Тези шаблони представят сбор от закономерности, подбор на данните по дадени свойства, които са подходящо представени във форми, лесно достъпни за потребителите. За създаването на тези шаблони се прилагат методи, които не ограничават основното предположение в структурата, модела и вида на разпределените значения на анализирания показател.

Характерна особеност на Data Mining анализа е, че той е тясно свързан с OLAP системите, но между двата метода има и принципни различия: OLAP Data Mining - Какъв е средният показател на заболяванията на пушачите и непушачите? Среща ли се точен шаблон при описаните случаи, потвърждаващи повишената заболеваемост при пушачите? Какъв е средният размер на телефонните услуги, ползвани от настоящите абонатите в сравнение с тези на бившите (отказали се вече от услугите на телефонната компания)? Какво характеризира абонатите, които биха се отказали от услугите на телефонната компания? Каква е средната величина на покупките, направени с откраднатите или неоткраднатите кредитни карти? Каква е схемата на покупките, направени с откраднати кредитни карти?

Важно предимство на Data Mining анализа е непредвидимостта в издирените шаблони. Това означава, че откритите шаблони трябва да отразяват неочевидни, неочаквани зависимости в данните, представляващи част от т. нар. скрити значения. Поради това е дошла идеята, че “необработените” данни съдържат много по-дълбоки пластове от скрити знания, които могат да бъдат разкрити само при едно детайлно проучване в дълбочина: Вид на използваната технология; Знания, съдържащи се в съхраняваните данни; Използвани аналитични инструменти; Отгоре надолу Повърхностни, Език на простите въпроси; Недълбоки Оперативно аналитично обработване Отдолу на горе Скрити Data Mining - извличане на данните

Data Mining извлича дълбоко скрити данни, които чрез OLAP не могат да бъдат разкрити и анализирани, като търсенето става отгоре надолу.



12.2. Етапи

Процесът на извличане на знания от данни се състои от шест основни етапа:



  • Разбиране на проблемната област (Business understanding) — това е началният етап, който се фокусира върху дефинирането на целите на изследванията и съответните изисквания от гледната точка на потребителя. След завършването на етапа тези знания трябва да бъдат превърнати в дефиниции на задачи за сондиране на данни и да се състави предварителен план за това, как тези цели могат да бъдат постигнати.

  • Разбиране на данните (Data understanding) — започва с първоначално събиране на данни и продължава с дейности, целящи задълбочаване на знанията на изследователя за естеството на данните. На този етап е необходимо да бъдат идентифицирани проблеми, свързани с качеството на данните, да бъде получено първоначално мнение за характера на данните, да бъдат намерени интересните подмножества на данните, за да бъдат формирани първоначални хипотези за скритата в данните информация.

  • Подготовката на данните (Data preparation) — покрива всички дейности по създаване от първоначални „сурови“ данни на крайното множество от данни (т.е. данни, които ще бъдат използвани от моделиращите средства). Етапът на подготовката на данни често се налага да бъде изпълняван многократно и по различно време. Задачите по подготовката на данни включват в себе си избор на таблиците с данни, техни атрибути и отделни записи, както и трансформация и изчистване на данни.

  • Моделиране (Modeling) — този етап се състои от избор и прилагане на различни техники за моделиране, целящи извличане на закономерности от данните. Параметрите на моделите се калибрират до свои оптимални стойности. Тъй като някои модели имат свои специфични изисквания към форм̀ата на данните, на този етап често се налага връщането към етапа за подготовка на данните.

  • Оценка на модела (Model evaluation) — етапът се състои във внимателно преглеждане на всички стъпки, изпълнени при създаването на конкретния модел, за да се осигури, че те постигат поставените цели. В края на този етап се приема решение за използване на получените в процеса на сондиране резултати.

  • Експлоатация на модела (Deployment) — свързана е с необходимостта от наблюдение и стратегия за експлоатация. На този етап следва да се определи дали и кога да се поднови процедурата по извличане на знания от данни и при какви условия.

В литературата тези шест етапа се срещат и окрупнени до три: Подготовка на данните, Прилагане на алгоритъм за сондиране и Анализ на резултата.

11.3. Използвани техники

Обичайно използваните техники за извличане на знания от данни включват дървета на решенията, асоциативни правила, невронни мрежи, размита логика, генетични алторитми, клъстерен анализ по „метода на най-близкия съсед“.

Дърво на решенията - предназначен е за класифициране на данните, като се използва тежестта на коефициентите на разпределение на елементите на данните във все по-малки и по-малки групи.

Асоциативни правила - този метод класифицира данните на основата на набор от правила, които са подобни на експертните системи. Като тези правила могат да се генерират чрез използването на процес по изискване и проверка на различни комбинации от правила или на извличането на такива от дървото на решенията.

Генетичен алторитъм - чрез него се определят естествени “разбивки “ на данните, основани на целеви променливи. Всеки клон на дървото е отделна част от правилата.

Невронни мрежи - при този метод знанията се представят във вид на връзки, съединяващи набор от условия. Силата на връзката се определя от отношението между факторите и данните.



11.4. Типове закономерности на Data Mining

Има пет типа закономерности, които позволяват да се реализира Data Mining анализът:



  • Асоциация

  • Последователност

  • Класификация

  • Клъстеризация

  • Прогнозиране

11.5. Инструменти на Data Mining анализа и разработването на Data Mining приложения

Съществува широк кръг от инструменти за поддържането на Data Mining анализа. Тук се отнасят както общодостъпните алгоритми за визуализация и машинно обучение, така и сложни програмни пакети, работещи на базата на паралелните процесори, като тяхната стойност може да достигне до няколко хиляди долара. Използването на най-подходящия инструмент за извършването на Data Mining анализа се определя от ред на условията и целите на проекта, например анализ на потребителската кошница. При избора на инструменти или алгоритми е много важна гъвкавостта - доколко чрез избраната стратегия може да бъде получен желаният резултат. Разработването на Data Mining приложения в сферата на бизнеса преминава през няколко стъпки:

СТЪПКА 1: Установяват се мащабите на проекта, определящи какви данни е необходимо да се съберат. Важно е проектът да бъде направен така, че да решава конкретни бизнес цели.

СТЪПКА 2: Разработване на бази данни за Data Mining.

СТЪПКА 3: Даване на количествена оценка на елементите от данни.

СТЪПКА 4: Примерни алгоритми на Data Mining за определяне на отношението между данните.

СТЪПКА 5: Изследване на съотношенията, проявили са на предходния етап от прилагането на проекта.

СТЪПКА 6: Представяне на резултатите във вид на отчет, в който да са разкрият преизчисленията за всички интерпретирани отношения.



11.6. Връзка на Data Mining с други области

Data Mining анализът е мултидисциплинарана област. Тя включва съвкупност от знания и разработки в различни области на човешката дейност като:

Информационен анализ; Оперативно аналитична обработка на данните - OLAP; Бази данни; Data Warehouses - хранилища за данни; Ефективни изчисления; Статистика; Визуализиране на резултатите; Разпознаване на образите.

Като по-известни Data Mining продукти могат да се отбележат: Lerentine, PRW, Intelligent Miner for Data, NeuroShell 2, pcOLPARS, GainSmart, S-Plus, WizWhy, MoelQuest и други.



11.7. Приложение на Data Mining в различните отрасли

Приложение на Data Мining в различните отрасли могат да се разделят на:




  • Бизнес приложения:

  • Разносна търговия - проявление на товарите, които се разполагат съвместно, избор на местоположение на товарите в магазина, анализ на потребителските нужди, прогнозиране на избора.

  • Маркетинг - изграждане на различни сегменти с потребители, тенденции в покупателното поведение.

  • Финанси - проявление на правила за експертни системи за андеррайтинг (under writing), класификация на дебиторските задължения по възможни вземания, прогнози в измененията на валутния курс.

  • Здравеопазване - анализ на резултатите от лечението на пациентите, анализ на контактите.

  • Застраховане – анализ на честотата на появяване на необходимост от плащания по застраховки.

  • Неикономически приложения:

    1. Медицина - използва се за поставянето на медицински диагнози, чрез съчетаването на различните симптоми.

    1. Молекулярна генетика - разкрива закономерности в експерименталните данни. Те дават възможност за предсказване на последствията на промените в генетичния код на живите организми и неговото разкодиране.

    1. Органична и неорганична химия - разглеждат се както особеностите на химичния строеж на веществата и съединенията, в които те участват, така и свойствата им.

11.8. Маркетингово приложение на Data Mining

Маркетинговото приложение на Data Мining може да се представи чрез:



11.9. Система за визуализация

Системата за визуализация на данните, получени от Data Mining анализа, заема важно място във всеки Data Mining проект. Тя осигурява графическо представяне на получените данни - графики, диаграми, схеми, таблици и др. Това става, като системата за визуализация поддържа дружелюбен интерфйес, позволяващ лесно асоцииране на анализираните показатели с различните параметри на диаграмите като цвят, фон, форма, ориентация спрямо основните оси, размер и др. Системата за визуализация трябва да предоставя и собствени средства за мащабиране за по-детайлно разглеждане. Характерно за тези системи е, че са доста скъпи.



11.10. Съвременните тенденции в Data Mining - Deep Data Mining

Съвременните тенденции на пазара сочат, че приложението и използването на Data Mining технологията непрекъснато нараства и се развива. Фирмите разработчици се ориентират бързо към запълването на тази ниша на пазара чрез предлагането на нови приложения. Като ново предложение можем да разгледаме Deep Data Mining (DDM).Това е нова технология, основаваща се на специална локална геометрия. В тази геометрия всеки обект съществува в собствено локално пространство събитие със собствени размери. При всяко поискването на логически закономерности в данните между локалните процедури се получава геометрично тълкувание. Технологията DDM дава възможност да се разкрият в данните чрез IF- THEN правила, включващи десетки хиляди съвместно засичащи се логически събития, характерни за една съвкупност от данни и не характерни за останалите. Получават се резултати с много по-голяма ефективност и много по-близки до желаните. Съществено допълнение към новата технология се явява използваната нова формула ”данни + шум”. Тя е нововъведение в анализа на специални фалшификатори - обекти, осигуряващи равномерност във вероятностния смисъл на разпределените в пространството събития. Фалшификаторите представляват резултати, които са близки до желаните, но не ни интересуват и е добре да се игнорират. Делът на тези фалшификатори може да съответства или дори да превишава дела на изходната информация. Стълкновението на данните с фалшификаторите спомага за по-голяма устойчивост на получените логически закономерности и резултати.



Заключение: В заключение можем да кажем, че Data Mining анализът намира приложение в тези области, където на са достатъчни само статистическите и аналитичните методи и изгражданите чрез тях модели. Data Mining анализът е подходящ за области, където преобладават нееднородни, хетерогенни, нестационарни, променливи и големи по обем данни. Това става при всички компании, които извършват обработка на данни при осъществяването на ежедневните си дейности и операции.



База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница