Анализ на трафика за засичане на прониквания в телекомуникационните мрежи

Откриване на аномалии и оценка на подмножеството от функции

Изтегляне 1.07 Mb.

страница	4/5
Дата	05.02.2018
Размер	1.07 Mb.
	#54488
Тип	Анализ

1 2 3 4 5

3.3. Откриване на аномалии и оценка на подмножеството от функции

Подгрупите от функции са оценени независимо на два етапа, като първо се създава модел на нормалния мрежови трафик с помощта на данни за обучение. Във втората фаза създаденият модел на нормалния мрежови трафик се анализира срещу тестващите данни. Тогава, всички индикатори за аномалии се анализират, за да се разбере колко добре се е справило подмножеството от функции.

Процесът от избора на функции до анализа на откритите аномалии е показан на фигура 3.1. Процесът се състои от три основни теми, които са функция от взетото решение в подгрупата (горната група на фигура 3.1), обработката на данни (лявата група на фигура 3.1) и анализа на откритите аномалии (дясната група на фигура 3.1). Критериите за избор на подгрупа от функция бяха разгледани в по-горните параграфи. В следващите точки ще бъдат представени по-подробно обработката на данните и анализът на аномалиите.

Фиг.3.1. Процес на оценяване на подмножеството от функции

3.3.1. Тренировъчни и тестови данни

Наборът от данни на Lincoln лабораторията от 1999г. е избран за оценка на избраните подгрупи от функции. Данните от 1999 г. в сравнение с тези от 1998 г. съдържат свободен трафик за атаки, което е от решаващо значение за създаване на модел на нормалното движение и обучението на анализатора с този модел. В допълнение, данните от 1999 г. съдържат някои нови методи за атака, които също са насочени към мрежови услуги, като например мейл сървъри. Някои от методите за атака, използвани в данните от 1999 г. все още се използват и днес, затова това е по-добрият вариант при оценка на избраните функции.

Наборът от данни Линкълн 1999 съдържа данни за пет седмици от мрежовия трафик, събрани от мрежата. Първите три седмици в данните са тренировъчни данни, а последните две са тестови данни. Въпреки това, втората седмица от обучението на данните, не е свободно атакувана и по този начин не се използва във фазата на обучение. Използването на данни, които съдържат атаки може да повлияе на модела на обучение по такъв начин, че IDS разпознават атаките като нормален трафик. В тестовата фаза, изпълнението на всяка подгрупа от функции се оценява срещу първата седмица (четвъртата седмица) на данните за изпитание. Втората седмица от тестването на данни (петата седмица) съдържа въпроси, свързани например с възстановяването на компютъра от бек-ъп (back-up), които също така объркват времевите маркери при изследването на данните^¹⁴⁷. Поради това, петата седмица е изключена от фазата на тестване.

Три компютъра с различни операционни системи (Solaris, NT и Linux) са избрани от данните, за да се получи по-широк обхват в анализа на подгрупата от функции, но и за да се намали количеството информация, която трябва да се анализира във фазата на откриване на аномалии. В допълнение, броят на различните атаки от категориите атаки също се има предвид при избора на компютри. Избраните компютри и атаките срещу тях са изброени в Таблица 3.2.

Таблица 3.2 Избрани компютри от базата данни на лабораторията Lincoln и броят атаки във всяка група атаки.

Име	IP адрес	Операционна система	Общ брой на атаките	Брой на probe атаки	Брой на DoS атаки	Брой атаки срещу мейл сървър
Pascal	172.16.112.50	Solaris	49 (14)	1 (0)	17 (1)	1 (1)
Hume	172.16.112.100	NT	39 (15)	9 (1)	4 (3)	0 (0)
Marx	172.16.114.50	Linux	23 (12)	3 (0)	6 (5)	4 (2)

Забележка: Броят атаки с по-голяма продължителност от 60 секунди са представени в скоби.

3.3.2. Инструмент за откриване на аномалии

Оценката на ефективността на функциите се извършва с помощта на тест за откриване на аномалии в управлението на мобилната мрежата (ADAI) от Kumpulainen и Hätönen^¹⁴⁸. Инструментът си служи с данни от динамичните редове като вход заедно с конфигурационния файл, който определя формата и имената на променливите, използвани в динамичните редове. Динамичните редове са разделени в два файла; в дневни файлове и подробни файлове. Дневните файлове са обобщение на общия брой случаи за всеки ден. Подробните файлове са информация за динамичен ред, който представлява информационен поток в рамките на определен времеви прозорец.

След като веднъж данните са прочетени, е възможно да бъде избрана конкретна времева рамка на интереса към прозореца за предварителен преглед (preview windos), която е показана в дясно на Фигура 3.2. Например, може да се използва за разделяне на периода на обучение от периода на тестване. По-подробно описание на инструмента и неговите характеристики е дадени в^¹⁴⁹.

Откриването на аномалии се извършва на два етапа. Първо трябва да бъдат избрани данните за тестване, за да се създаде модел на нормалния мрежови трафик. Този модел след това се използва като отправна точка за сравнение във втората фаза, когато тестваните данни се анализират.

Фигура 3.2. ADAI GUI

ADAI поддържа различни алгоритми за откриване на аномалии, от които бе избран метода за засичане на локална аномалия за оценка на функцията.^¹⁵⁰

3.3.3 Метод за откриване на аномалии

Методът за откриване на локални аномалии е подобрение на глобалния AD метод^¹⁵¹. Методът съчетава K-means групиране със самостоятелно организираните карти (SOM) на Kohonen^¹⁵² за откриване на аномалии. K-means групирането е алгоритъм, който класифицира данните, до определен брой K клъстери. Всеки клъстер има медицентър, а данните се класифицират до разстоянието от центъра на тежестта. Всяка точка от данни се класифицира в клъстер от най-близкия медицентър^¹⁵³. Самоорганизиращата карта е инструмент на невронната мрежа за картографиране на силно триизмерни данни в една двуизмерна карта, която може да се визуализира.

Kumpulainen и Hätönen^¹⁵⁴ подобряват метода за откриване на аномалии, като използват локални вместо глобални прагове. В резултат на това подобрение, количеството на фалшивите положителни резултати намалява. Идеята и сравнението на глобалните и локални прагове са илюстрирани на Фигура 3.3.

Фиг. 3.3. Откриване на аномалия чрез използването на глобални и локални прагове

Alpha
Като цяло, локалният метод за откриване на аномалии създава карта на данните, групира невроните и изчислява локалните отклонения в рамките на невронните групи. Всички точки от данни, които са далеч от невроните групи са маркирани като аномалии. На Фигура 3.3 тези точки от данни са отбелязани със звездички. ^¹⁵⁵

ADAI заедно с метода за откриване на локални аномалии изчислява аномални събития от динамичния ред и дава списък на тях като резултат. Инструментът поддържа експортирането на аномалии във файл за по-нататъшна оценка. Освен това, този инструмент може да начертаете фигура на динамичния ред заедно с установените нередности. Инструментът може да покаже фигури, които да илюстрират разпределението на аномалиите според деня от седмицата, часът в рамките на деня; как аномалиите са групирани и как данните се разсейват в рамките на групите. Тези фигури дават допълнителна информация при анализа на аномалии.^¹⁵⁶ Въпреки това, само функцията за експортиране на аномалиите се използва в тази дипломна работа за да се анализират характеристиките.

Резултатът е списък на всички събития, които са разкрити като неправилни. Всички събития съдържат времеви отпечатък, нивото на аномалия, което дава оценка на степента на констатираната аномалия и в допълнение на събитията, съдържа трите най-добри функции, които допринасят най-много за аномалията.^¹⁵⁷ Тези списъци на аномалии се анализират срещу информация за атаки (начален час и продължителност), даден от Lincoln лабораторията^¹⁵⁸.

Използваната версия на инструмента (0.81) използва размер на SOM, който е трудно кодиран в програмата. Това създава някои трудности при създаването на модела на нормалния мрежови трафик в рамките на две седмици. Първоначално, този инструмент е предназначен да се използва с определено количество данни, което е далеч по-малко от размера на тренировъчните данни. В резултат на това, исканията за обработка стават прекалено високи, за да бъдат изпълнени, когато се използва размер на времевия прозорец от 5 секунди. Следователно ще бъде използван 60 секунден размер на времевия прозорец за да се преодолее това ограничение.
3.4 Подготовка на данните

Тъй като инструментът за откриване на аномалии изисква хронологични данни, пакетните данни трябва да се преобразуват. Първо пакетите от данни се превръщат в поток-базирани данни за трафика, от които могат да бъдат извлечени динамичните редове. Данните за процесът на преобразуване са описани в следващите точки.

3.4.1. Преди обработката на данните

Всяка седмица в лабораторията за база данни Lincoln е разделена на пет дневни файлове, които са от понеделник до петък. Всеки ден е уловен от Tcpdump и затова файловете са във формат Tcpdump. Тези уловени файлове съдържат не IP-базиран трафик, като например канални съобщения, и други, които не разполагат с IP адрес. При оценяването на подгрупите от функции, фокусът е върху IP базирания трафик и затова целият не-IP трафик трябва да бъде филтриран преди по-нататъшната обработка на данните. Филтрирането се извършва чрез използване на собствените функции за филтриране на Tcpdump. По принцип, уловените файлове се четат с помощта на Tcpdump със следната команда:

3.4.2. Пакетни данни в потока от данни

След филтрирането, уловените файлове съдържат само IP-базиран трафик и могат да бъдат допълнително обработени в потока от данни. Това се извършва с помощта на Argus-сървър. Argus взема уловените файлове като вход и преобразува пакетите от данни в двупосочен поток от данни. Това се прави, като се използва следната команда:

Изходният файл на Argus-сървъра е в Аргус-формат, който съдържа цялата информация, събрана от потока на пакетни данни. За да се обработят Argus-базираните данни, те трябва да се четат с помощта на Argus-клиент, Ra (прочети Argus), който идва с инсталацията на Argus. Ra-функцията работи по подобен начин, както действа и Argus-сървърът. Взема като вход Argus-базираните данни и или се отпечатва на изхода на екрана или в специален файл.

Функциите, които се изискват за откриването на аномалии, се отразяват на потока от функции, които трябва да се четат от потока от данни. Основната идея е да се избере поток от функции, които съдържат ценна информация за поведението на мрежовия трафик. Тези потоци от функции се използват за създаване на модел на нормалния мрежови трафик и следователно те трябва да представят мрежовия трафик възможно най-добре. В този случай изходът се запазва във файл със стойности, обградени със запетая (CSV), използвайки следната команда:

Изходът на Ra в този случай е в CSV формат, който съдържа следните характеристики:

Начално време на потока в unix времеви формат;
Протокол (TCP, UDP или ICMP);
Изходен IPадрес;
Брой пакети, изпратени от източника;
Количество байтове, изпратени от източника;
IP адрес на дестинацията;
Брой на пакетите, получени от дестинацията.

Всяка от горепосочените операции трябва да се направи за всеки един от уловените файлове. В края на краищата има пет CSV форматирани дневни файлове за всяка седмица, които съдържат информация за потоците. За да се улеснят нещата, CSV-файлове могат да бъдат съединявани посредством следната команда:

Цялостният процес е автоматизиран с shell скрипт, представен в Приложение 4.

3.4.3. Извличане на функции

За да се извлекат функциите, дефинирани в точка 3.2, csv-форматираните потоци от данни трябва да бъдат анализирани. Анализаторът, представен в Приложение 5, проверява потока от данни, използвайки предварително определен времеви прозорец и създава динамичен ред. Едно събитие във времевия ред представлява информационен поток в рамките на срока, определен от времевия прозорец.

Анализаторът е модифицирана версия на Knuuti анализатора^¹⁵⁹ (стр. 63-65). Knuuti анализаторът е отлична основа за анализатора на потока от данни. Когато Knuuti анализаторът е създаден, за да избере определена поредица от IP-адреси, анализаторът в Приложение 5 взема предвид всички IP адреси в потока от данни. В допълнение към функциите, които се събират от Knuuti, анализаторът, който се използва в настоящата дипломна работа, събира информация също така за използваните от тях услуги (SMTP, FTP, SSH, Telnet, DNS и HTTP). В резултат на това, анализаторът създава динамичен ред от 23-те функции, описани в точка 3.2. Тези функции се използват като основа в анализа. Подгрупите от функции се избират от този списък в съответствие с категориите, разгледани в точка 3.2, които се използват във фазите на обучение и тестване при откриването на аномалии.
3.5. Резултати

Подгрупите от функции се оценяват един срещу друг и по този начин не се прави оценка на състоянието на техниката. Една от причините за това е, че нивото на техниката използва данни от 1998 г., а в тази дипломна работа използваните данни са от 1999 г. Следователно, резултатите не са сравними с други изследвания, като например KDD CUP 99, дискутирани в точка 2.3.1.

Очакванията са, че чрез използването на подгрупи от функции е възможно да бъдат открити атаки от определени категории в рамките на наличните данни. В допълнение, представянето се очакваше да бъде по-успешно чрез използването на една подгрупа от функции, в сравнение с използването на всички функции. Очакваше се, че избраният размер на времеви прозорец (60 секунди), ще се отрази негативно върху откриването на атаки, чиято продължителност е по-малка от размера на прозореца. Например, продължителността на повечето от пробните атаки е 1-3 секунди. Поради това, се очаква, че повечето от тези краткотрайни атаки няма да могат да бъдат открити. Резултатите в следващите точки са илюстрирани въз основа на данните в Приложение 6.

Резултатите от изпълнението на IDS са разгледани в следващите параграфи. Като се вземат предвид очакванията, резултатите са разпределени по следния начин. В точка 3.5.1 и 3.5.2 са показани резултатите, представящи процентът на откритите атаки от всичките пет категории атаки в тестовите данни. В точка 3.5.3 и 3.5.4 са илюстрирани резултатите от процента на откриване на всички атаки от избраните категории атаки. Избраните категории атаки са пробни атаки, атаки за отказ на услуга и атаки срещу мейл сървър. В точки 3.5.5, 3.5.6 и 3.5.7 са резултатите, представящи процентът на откриване на атаки от всяка избрана категория от атаки, използвайки подгрупа от функции.

3.5.1. Скорост на откриване на атаки

Резултатите от процента на всички атаки срещу всеки компютър с подгрупа от функции, са представени на фигура 3.4. Общият процент на откриване е между 10 и 30 процента. Тези резултати са повече или по-малко това, което се очаква, тъй като повечето от нападенията са кратки по времетраене и атаките на U2R, R2 и категориите данни, са повече на брой при сравняването им с броя на пробните и DoS атаките. Броят на атаките за Solaris е (49), за NT (39), а за Linux (23) (виж таблица 3.2 в точка 3.3.1).

Фигура 3.4. Процент на откриване на всички атаки

Някои от най-интересните открития от резултатите на фигура 3.4 са, че при сравняването на операционните системи и на степента на разкриваемост с подгрупата от функции, прави впечатление как атаките и тяхното въздействие върху мрежовия трафик са значително различни. Например, атаките срещу компютъра Solaris са най-откриваеми чрез използването на подмножество от пробни функция, но изпълнението на NT пробната подгрупа е най-лошо. Изглежда, че процентът на разкриваемост с NT и Linux е противоположен на това, което е постигнато от Solaris. Атаките срещу NT и Linux са най-откриваеми с помощта на Knuuti подгрупата от функции.

3.5.2. Процент на откриване на атаки, които са по-дълги от 60 секунди

Процентът на откриване на всички атаки, които са били 60 секундни или с по-голяма продължителност, са показани на фигура 3.5. Общият процент на откриване е далеч по-голям, когато се сравняват с процента на разкриваемост на всички атаки на фигура 3.4. Броят на атаките за Solaris е (14), за NT (15) и за Linux (12) (виж таблица 3.1 в точка 3.3.1).

Като цяло, резултатите са между 30 до 50 процента. Очакваше се, че ако се вземат предвид само атаки, които са с продължителност повече от 60 секунди, процентът на откриваемост ще бъде по-голям. Повечето от атаките, които са по-дълги от 60 секунди са от категорията DoS атаки, но също така има и атаки от всички други категории.
Фигура 3.5. Процент на разкриваемост на атаки, които са по-дълги от 60 секунди

От фигура 3.5 може да се види, че най-добре представените подгрупи от функции са същите, които бяха във фигура 3.4. Въпреки това, разликата между подгрупата от функции за NT и Linux не е огромна при откриване на атаки, които са по-дълги от 60 секунди. Наблюдавайки резултатите за компютър NT, изглежда, че всички и Knuuti подгрупата от функции са еднакво добри в откриването на атаки с процент на разкриваемост от 53%. Същото е валидно и за атаки срещу Linux компютър. Всички и Knuuti подгрупите от функции са еднакво добри с процента на откриване на атаки от 42%

3.5.3. Процент на откриване на избрани атаки

Когато се вземе под внимание фактът, че атаките от U2R, R2 и категориите данни, не се откриват чрез използванет на определени функции, резултатите са малко по-различни в сравнение с резултатите, представени на Фигури 3.4 и 3.5. Процентът на разкриваемост на DoS и Probe категориите атаки са обобщени на Фигура 3.6. Процентът на разкриваемост на атаките от избраните категории, по-дълги от 60 секунди, са обобщени във Фигура 3.6. Броят на атаките за Solaris е (18), за NT (13) и за Linux (9) (вж. таблица 3.1 в точка 3.3.1).

Фигура 3.6. Процент на откриваемост на избрани атаки

От фигура 3.6 може да се види, че процентът на откриване на атаки срещу компютъра Solaris е по-голям с всяко подмножество от функции, с изключение на пробното подмножество. Изглежда, че по-голямата част от атаките, открити с пробната подгрупа, са от три невероятно разкриваеми категории атака. Същото може да се каже за компютъра НО като процентът на откриване е по-малък, когато само избрани категории от атаки са взети под внимание.

Въпреки това, процентът на разкриваемост на атаки срещу Linux компютър, е около 10% по-висок, отколкото, когато се вземат предвид всичките пет категории атаки. Най-голямото подобрение е постигнато с подмножеството от функции Knuuti, чийто процент на откриване на атаки е нараснал с почти 25% в сравнение с резултатите на Фигура 3.4.
3.5.4. Процент на откриване на избрани атаки, по-дълги от 60 секунди

Резултатите, показани на Фигура 3.6 съдържат само атаки от избраните категории атака и в допълнение тези, които са по-дълги от 60 секунди. Тези резултати трябва да бъдат в съответствие с очакванията. На пръв поглед, резултатите са по-добри, отколкото показаните на фигура 3.4. Въпреки това, броят на избраните атаки за всеки компютър е много по-малък, отколкото ако се вземат предвид всички атаки. Броят на атаките за Solaris е (1), за NT (4) и за Linux (5) (виж таблица 3.1 в точка 3.3.1).

Когато разглеждаме резултатите, изглежда, че по-малките подгрупи от функция са в състояние да откриват само една избрана атака на компютъра Solaris. Възможно е ефектът от тази атака се смесва в масата от други функции и следователно атаката става неоткриваеми при използването на множество функции.

Половината от атаките срещу NT компютъра се откриват с всяко подмножество от функции, с изключение на пробните функции. Този резултат е интересен, тъй като една от всеки четири атаки е от категорията на пробните атаки. Ето защо, тази подгрупа от функции не се представя добре.

Когато разглеждаме резултатите за Linux компютър, изглежда, че функциите DOS не се представят добре. Всички функции, Knuuti функциите и функциите на пощенския сървър, от друга страна, откриват 60% от избраните атаки. Най-интересните резултати се постигат с пробните функции. Този резултат е интересен, тъй като няма пробни атаки между избрани атаки и следователно тези, които са открити, са от други категории.

Фигура 3.7. Процент на откриване на избрани атаки с по-голяма продължителност от 60 секунди

3.5.5. Пробни атаки (Probe Attacks)

Резултатите от откритите атаки от категорията на пробните атаки са показани на фигура 3.8. Процентът на откриваемост на пробните атаки срещу компютъра Solaris са 100% с подгрупите от пробни функции, DoS функции и функциите на мейл сървъра. Като цяло, има само една пробна атака срещу компютъра Solaris. Въпреки това, изпробването е продължило само една секунда, което все още е било открито противно на очакванията с трите споменати подгрупи от функции.

Пробните атаки срещу NT компютъра са почти напълно откриваеми. Атаките не са били открити с подгрупа от пробни функции, което отново е противно на очакванията. Другите подгрупи са в състояние да открият една от пробните атаки, която беш единствената, който продължи повече от 60 секунди.

С Linux компютъра, резултатите са противно на очакванията, като подмножеството от Knuuti функции надминава пробната подгрупа. Това отново показва разликата между операционните системи и атаките срещу тях и начинът, по който те влияят на функциите.

Фигура 3.8 Процент на откриване на пробни атаки

3.5.6. DoS атаки

Резултатите от откритите атаки от категорията DoS, са показани на фигура 3.9. DoS атаките срещу компютъра Solaris са най-откриваеми с помощта на функцията за подгрупата DoS, което е очакван резултат. Въпреки това, степента на откриваемост с пробните подгрупи и подгрупата на мейл сървъра е също толкова висока.
Процентът на откриване на DoS атаките срещу компютъра NT е равен между притежаваните подгрупи. Интересно е, че по някаква причина, подгрупата от DoS функциите не е по-добра от другите подгрупи. Една от причините за този резултат е, че DoS атаките срещу NT, които са били открити, предизвикат значителни промени в повечето от функциите на мрежовия трафик, които след това са също така откриваеми с другите подгрупи от функции. Процентът на откриване на DoS атаките срещу компютъра Linux е напълно срещу очакваните резултати. Подмножеството от функциите DoS има най-лошото представяне в сравнение с другите подгрупи. Изглежда, че DoS атаките срещу Linux компютри предизвикват промени в напълно различни функции, в сравнение с атаките срещу NT и Solaris.

Каталог: files -> files
files -> Р е п у б л и к а б ъ л г а р и я
files -> Дебелината на армираната изравнителна циментова замазка /позиция 3/ е 4 см
files -> „Европейско законодателство и практики в помощ на добри управленски решения, която се състоя на 24 септември 2009 г в София
files -> В сила oт 16. 03. 2011 Разяснение на нап здравни Вноски при Неплатен Отпуск ззо
files -> В сила oт 23. 05. 2008 Указание нои прилагане на ксо и нпос ксо
files -> 1. По пътя към паметник „1300 години България
files -> Георги Димитров – Kreston BulMar
files -> В сила oт 13. 05. 2005 Писмо мтсп обезщетение Неизползван Отпуск кт

Изтегляне 1.07 Mb.

Сподели с приятели:

1 2 3 4 5