На дисертационния труд



Дата09.09.2016
Размер107.52 Kb.
Р Е Ц Е Н 3 И Я
върху дисертационен труд за придобиване на образователната и научна степен „доктор“ в област на висше образование 4. Природни науки, математика и информатика, професионално направление 4.6 Информатика и компютърни науки
Автор на дисертационния труд: Валерия Николаева Симеонова

Тема на дисертационния труд: „Методи на soft-computing в изчислителната биология: Асемблиране на данни от геномно секвениране)“

Рецензент: проф. д-р Владимир Тодоров Димитров, ФМИ, СУ „Св. Климент Охридски“


  1. Актуалност и значимост на разработвания в дисертационния труд проблем

Темата на дисертацията е в областта на биоинформатиката и за това се налага да първо да изясним контекста. През последните две-три десетилетия се наблюдава бурен ръст в биологичните изследвания в областта на геномиката. Причините за това, от една страна, са, че се откриха възможности за декодиране на геноми (геномно секвениране), т.е. налични са подходящи апарати и инструменти за това. Тези средства са безсмислени без средствата на информатиката. С помощта на последната се възстановява структурата на генома (асемблиране). Така стоят нещата от техническа гледна точка, но причината за финансиране на тези изследвания се крие във възможностите на генното инженерство като се започне от непопулярните в Европа генно-модифицирани организми (все пак в Третия свят борбата с глада се води с тяхна помощ) и се стигне до производство на индивидуални лекарствени средства по генната карта на конкретния човек. Над хиляда са геномите финансиране за изследване само в международните проекти. На практика геномиката е във фазата на биологията по време на Великите географски открития – всеки геномен проект разкрива по нещо от морето на живия свят.

Кои са особеностите на биоинформатиката в този контекст? На първо място, това е познаването на предметната област, т.е. познаване на задачите поставени пред информатиката. В частност, такава задача е асемблирането на геном по неговите части. Тази задача се решава със средствата на математиката (вероятности и статистика, теория на графите, размита логика и т.н.). Използването на статистиката и размитата логика е продиктувано от липсата на референтни модели на геноми. Използването на знания от биология, информатика и математика за решаване на задачите поставени пред биоинформатиката е от централно значение за постигане на съществени резултати в съвременната биология.

От този контекст става ясно, че темата на дисертацията е точно в централното направление на изследвания в биоинформатиката. По-конкретно, това е изследване в използването на „меки изчисления“ (soft computing) за асемблиране на геноми от данните получени от апаратно-технологичното им изследване.


  1. Обща характеристика и структура на дисертационния труд

За да се разбере същността на дисертацията е необходима точна формулировка на обект, предмет, цел, задачи, работна хипотеза и постигнат резултат. Част от това не е представено в дисертацията, а това, което е направено, е хаотично с използване на множество термини от биологията (някои от които дори не са дефинирани, например EST), така че не може да се разбере за какво става дума. Поради това, по-долу съм анализирал всеки един от по-горе посочените елементи.

Съгласно дисертацията за обект е посочено: „В дисертацията са използвани данни от Sanger и 454 за моделното растение Arabidopsis Thaliana. Особеното при NGS данните е, че те са за модифициран организъм чрез Ti Plasmid с линията pBI121 (чийто геном е известен и също участва в процесите по обработка), а секвенирането е от тип EST, т.е. секвенираните данни отразяват само кодиращите участъци от ДНК-то на обекта.“. Приемам, че обект на изследване на представеният дисертационен труд е асемблирането на данни от геномно секвениране за растението Arabidopsis Thaliana, за които данни има референтен геном.

От заглавието и съдържанието на дисертацията приемам, че предмет на изследването са методите за меки изчисления.

Съгласно дисертационния труд: „Основната цел на настоящата работа е разработването на метод и тестване на варианти за алгоритмизации, решаващи подзадачите на метода за асемблиране на данни от паралелно секвениране, за които съществуват референтни секвенции.“. Приемам, че целта на изследването е да се разработи подход за асемблиране на данни от паралелно секвениране, за които има референтен геном.

За постигането на така формулираната цел, авторката на изследването, съгласно дисертацията, решава следните задачи:


  • „Дефиниране на задачата за анализ, с ясно определяне на ограниченията които се налагат от характера на данните.

  • Определяне на общата схема от проблеми, които следва да се предложат методи и алгоритми, заедно с връзките и преходите между тях. Всеки проблем съставлява отделна съвкупност от алгоритми, която може да се изпълни и самостоятелно върху подходящ тип данни:

    • Проблем 1: генериране на предварителни статистики за данните

    • Проблем 2: откриване и корекция на фоновия шум в NGS данните – целта е да се подобри качеството на използваните данни. Третира се като опция. В основата на метода стои невронна мрежа, която използва както генерирани данни от Проблем 1, така и данни от сравняване.

    • Проблем 3: генериране на т.нар. МИРПИ – Мрежа от изкуствени референтни прочити-идентификатори. Тази мрежа се изгражда въз основа на референтния геном. Присъствието й се обосновава от замисъла за създаване на последователна мрежа от къси прочити, мястото между които следва да се запълни от асемблатора.

    • Проблем 4: да се разработи матрица, която да се използва при сравняването на секвенциите, и която да дава необходимите резултати при “препокриващи се секвенции”

    • Проблем 5: асемблиране на данните от паралелно секвениране, базиран на синергизма OLC - графи на Де Брюйн.

    • Проблем 6: предложение за статистическа валидация на получените резултати от асемблирането – тест за достоверност и сравнителен анализ с референтния геном и други платформи за асемблиране на данни от паралелно секвениране“

Приемам, че на първо място трябва да се анализира характера на данни, т.е. грешки, отклонения, размер, начини за използване на референтните данни. След това са зададени шест проблема за обработката на данните при асемблиране. Тези шест проблема са зададени, а не са извлечени от анализа на данните. По-долу разглеждам отделните проблеми така както съм ги възприел тъй като

Проблем 1 не означава абсолютно нищо. Какво е генериране на предварителни статистики върху данните?

Проблем 2 е по-ясен: да се премахнат грешки в данните. Не е ясно защо не е задължителен като се има предвид, че винаги данните съдържат грешки. Тук приемам, че е фиксирано за решаването на проблема да се използва невронна мрежа. Защо?

Проблем 3 приемам, че е да се изгради шаблон на изследвания геном по референтния геном.

Проблем 4 e изграждане на матрица за управление на запълването на шаблона на изследвания геном.

Проблем 5 е самият алгоритъм за запълване на шаблона на изследвания геном. Зададено е да се използват за целта графи на Де Брюйн.

Проблем 6 е валидация на получения резултат. За тази цел трябва да се сравни резултата с референтния геном и с резултатите от асемблиране на същите данни с алтернативни подходи.

Приемам, че работната хипотеза на изследването е, че може да бъде намерено общо решение за асемблиране на данни от паралелно секвениране на всякакви организми, ако има референтен модел на геном. Основание за това ми дава формулирането на темата и това, че обектът не е фиксиран върху Arabidopsis Thaliana.



Постигнат резултат от изследването е разработеният подход за асемблиране на данни от паралелно секвениране на Arabidopsis Thaliana. Валидността на подхода към други организми и дори за други вариации на растението не е доказана.


  1. Степен на проникване в проблема и оценка за състоянието на решаването му към настоящия момент

Глава 2 от дисертационния труд представя обзор на приложната област и на методите и средствата по тематиката.

Първият раздел на тази глава е сведе до представяне на файловите формати на входните данни. Този раздел не е завършен тъй като липсва описанието на файловите формати (стр. 13 „В следващата таблица са дадени описанията им, както и какви данни съдържат.“).

Раздел 2 изобщо липсва. Не е изяснено как се намаляват грешките във входните данни.

Раздел 3 класифицира матриците на сравнение между подобните секвенции. Това е ключов елемент при управлението на алгоритмите за асемблиране. Проблематиката и решенията са разгледани в детайл. Подраздел 3.2 е терминологично объркан и неясен за „динамично оптимиране“ или за „динамично програмиране“ става дума. Този раздел е с объркана номерация и неясен насипен текст.

Раздел 4 е по-скоро позоваване на нещо отколкото да описва нещо.

Раздел 5 е централен за разбиране на процеса на асемблиране и съответно за обзора на дисертацията. Освен основните алгоритми са представени и най-известните програмни реализации. Въпреки пълната терминологична катастрофа, може да се види, че докторантката е запозната с тематиката и е в състояние да я прилага за целите на дисертацията.

В последния раздел 6 на тази глава са разгледани меките изчисления и приложенията им в биоинформатиката. Това е направено самоцелно и в повечето случаи извън контекста на изследването.


  1. Относно избраната методика на изследванията

В дисертацията няма ясно формулирана методика на изследванията. Това би трябвало да са меките изчисления, които са заложени както в темата на дисертацията така и в обхвата на обзора, но те остават в периферията на представянето.


  1. Кратка аналитична характеристика на естеството и на достоверността на материала, върху който се градят приносите на дисертационния труд

Дисертацията е от 161 страници. Състои се от 5 глави и „апендикс“. Използваната литература включва 212 заглавия, от които 1 на български език, а останалите са на английски език.

Основните резултати са представени в Глава 3 и Глава 4.

Глава 3 започва с постановка на задачата в първия раздел. Това е направено в телеграфски стил. От тук може да се разбере върху какво всъщност е работила докторантката. Централната задача е асемблирането на генома от данни генерирани от технология 454 на Roche за моделното растение A. Thaliana. Меките изчисления са прилагани за постигането на тази цел, но те не са обект на изследване.

Раздел 2, по заглавие, е посветен изцяло на данните. Структурирането на подразделите (номера на подраздели, номера на таблици, цитиране на таблици и т.н.) е в хаос. В подраздела за „биологично представяне на данните“ са разгледани множество биологични, исторически и технологични аспекти на процесите за секвениране; приведена е таблица за сравнение между различните технологии; има кратко описание на бази от данни съдържащи изследвания тип данни; направен е списък с кратки характеристики на софтуера наличен за сравняване на секвенции и асемблиране на геном. Накрая на този раздел са посочени файловите формати, които са използвани в изследването; представена е сравнителна таблица за тях, самите формати не са описвани.

В началото на Раздел 3 е представена общата схема на обработката на данните. Обработката е представена във вид на едно голямо търкало. Статистическият анализ на данните се извършва в средата R, а анализа и графичното им представянето е в MS Excel. Изброени са видовете статистически обработки. Откриването на грешки в данните използва невронни мрежи. Очертано е конкретното приложение на невронните мрежи съобразено с вида и характера на данните. След това е скицирано изграждането на шаблона на генома, запълването му и тестването на избрания път.

Глава 4 описва приносите направени по дисертацията. На първо място е представена статистическата обработка на данните от гледна точка на биологията. По много екзотичен начин са приведени графиките от обработката на данните. От информатична гледна точка е получен конкретен приложен резултат при статистическата обработка на входните данни.

В Раздел 2 представена идеята за построяване на шаблона на генома (МИРПИ). Това е граф, върху който се наслагват входните данни. Първата част от разпознаването на данните става на Visual Basic, a втората част по изграждането на шаблона е изпълнена в средата на R Project. Тук отново става дума за приложен принос от информатична гледна точка.

Раздел 3 скицира алгоритъма за асемблиране. Представянето е от гледна точка на биологията. От гледна точка на информатиката, приносът е приложен.

Раздел 4 е посветен на валидацията на резултатите. Това е извършено както по време на изпълнение на алгоритъма, така и след завършване на конструкцията. Представянето е от гледна точка на биологията. От гледна точка на информатиката, приносът е приложен.

В раздел 5 на 13 страници е приведен кода по дисертацията, написан на Visual Basic и R Project.




  1. Основни научни и научно-приложните приноси в дисертационния труд

Глава 5 е заключителна. Тя започва с дискусия на резултатите от биологична гледна точка. След това изброени приносите. Те са разделени на теоретични и практически. Определено теоретичните са в областта на биологията и нямам претенциите да се изказвам компетентно за тях. Втората група са приложни приноси. Те са два:

  1. Извършена е оптимизация на библиотечни функции в R Project.

  2. Изведени са графично статистически обработените данни от секвенции.

След това са очертани насоки за развитие и препоръки.


  1. Оценка на авторското участие в получаване на приносите

За оригиналност на представената работа може да се съди по декларацията в Глава 5. Публикации посочени към дисертационния труд нямат декларации за принос на съавторите и може да се приеме, че са равностойни. Имам впечатление, в предвид на обстоятелствата, че изложеното в дисертационния труд е дело на докторантката.


  1. Преценка на публикациите по дисертационния труд

По дисертационния труд са представени 15 публикации. Публикация 1 не е отпечатана, така че не я разглеждам. Публикация 2 има биологичен характер и не съм компетентен да давам оценка. Публикация 3 има обзорно-аналитичен характер. В нея има включени елементи от дисертационния труд, както и такива, които очевидно са на съавторите. Може да се каже, че тази публикация включва резултати от дисертацията. Публикации 4, 5, 10, 11, 14 и 15 не се четат. Публикация 6 съдържа елементи от дисертацията по отношение на използвания алгоритъм. Публикация 7 е постер. Публикация 8 е представяне, а не публикация. Публикация 9 съдържа елементи от дисертацията. Публикация 12 е постер. Публикация 13 липсва. Липсващата Публикация 14 е и единствената самостоятелна публикация. Няма забелязани цитирания. Очевидно докторантката не е наясно какво са публикации по дисертационния труд. От това, което са публикации и имат отношение към информатиката, мога да приема, че основните резултати от дисертацията са публикувани.


  1. Използване на получените в дисертационния труд резултати и препоръки за бъдещето им внедряване

Получените резултати, доколкото мога да съдя за тях, са в областта на биологията.


  1. Относно автореферата към дисертационния труд

Авторефератът към дисертационния труд е на 15 страници и е много лошо оформен.


  1. Критични бележки

Не съм срещал толкова лошо оформена дисертация, автореферат и подготвени материали.


  1. Други въпроси

Не познавам лично докторантката.

Оформянето на дисертацията, поради кончината на основния научен ръководител доц. Антоний Попов, е вървяла на самотек дълго време. Акцентът е поставен от втория научен ръководител доц. Димитър Василев и има предимно биологичен уклон.




  1. Заключение

Представеният от автора дисертационен труд може и да удовлетворява изискванията на ЗРАСРБ и ПЗРАСРБ, тъй като има интердисциплинарен характер. Препоръчвам на уважаемото жури да допусне до защита Валерия Николаева Симеонова и в зависимост от представянето да присъди или не образователната и научна степен „доктор“ в областта на висше образования „4.5 Природни науки, математика и информатика“, професионално направление „4.6 Информатика и компютърни науки“.

Дата: 20 април 2014 г. Рецензент: .................................

гр. София (проф. д-р Владимир Димитров)







База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница