РЕЦЕНЗИЯ
относно дисертационен труд
за придобиване на образователна и научна степен „доктор”
в област на висше образование
4. Природни науки, математика и информатика,
Професионално направление: 4.6 Информатика и компютърни науки,
Научна специалност: 01.01.12 – Информатика
(Информатика – Изкуствен интелект)
Кандидат: Борис Димитров Крайчев
Тема: „Извличане и анализ на мнения и чувства от текст от онлайн източници”
Научен ръководител: доц. д‐р Иван Койчев
Изготвил рецензията: доц. д-р Александър Геров
Тази рецензия е написана и представена на основание на заповед DO 38-57/05.02.2014 на ректора на СУ „Св. Климент Охридски”, както и на решението на научното жури по процедурата. Тя е изготвена въз основа на ЗРАСРБ, Правилника за прилагане на ЗРАСРБ, Правилника за условията и реда за придобиване на научни степени и за заемане на академични длъжности във Факултета по математика и информатика на СУ „Св. Климент Охридски” и указания за изготвяне на рецензии и становища от членове на научни журита и за документите в електронен вид, подавани от кандидата по процедури за академични длъжности и научни степени на Факултета по математика и информатика на СУ “Св. Климент Охридски”.
-
Съдържателен анализ на научните и научно-приложните постижения в дисертационния труд. Характеризиране на основните постижения.
Дисертационният труд се състои от 114 страници. Оформен е в седем глави, като първата е уводна, седмата е заключение, а под номера 8, 9 и 10 са представени съответно публикациите, библиографията и декларацията за оргиналност. Съдържа 11 таблици и 26 фигури. Използваната литература е от 85 източника на английски език, от които 4 са онлайн.
Актуалност на проблема
Автоматичният анализ на текст като обект на изследване в компютърната лингвистика и обработката на естествен език се развива интензивно от десетки години, а извличането на мнения и чувства от естествен текст в интернет пространството е обект на активни изследвания в последните дестина години. Разрешаването на възникващите проблеми изисква високи професионални умения в области като информатика, социология и психология. Трудностите са не само в областта на автоматичната обработка на естествен език, но и в предизвикателството да се работи с големи масиви от данни, изискващо създаването на нови методи за разпределена обработка на данните.
Развитието на тази проблематика представлява интерес не само като фундаментални научни изследвания, а и като значими приложни разработки в бизнеса за анализ на потребителското отношение към даден продукт или услуга.
От горното следва високата актуалност на изследванията в областта на извличането и анализа на мнения и чувства от текст от онлайн източници.
Познаване на състоянието на проблема
От извършения в Глава 2 анализ и класификация на различните методи за извличане на чувства и мнения от онлайн текстове е видно задълбоченото познаване на проблема. Представени и оценени са различните методи и програмни реализации за анализ на чувствата на ниво дума, на положителност на ниво изречение и на ниво документ, на потребителско мнение, както и за класификация на текстове чрез алгоритми за машинно самообучение.
Използваните литературни източници също показват, че кандидатът познава естеството на проблема.
Подход и решение на проблема
Разглеждани са методи за извличане на мнения от уеб, техният емоционален анализ, както и общ емоционален анализ на части на речта от българския език.
Основният принос на изследването се състои в разработването на алгоритъм за разпознаване на мнения в уеб страници чрез съпоставящи дървета (Wrapper trees), който има линейна изчислителна сложност. Във връзка с това се идентифицират обектите в едно множество от документи, източниците на отделните документи, времето на публикуване на документите и след класифициране на мненията по положителност се генерира числово представяне на мненията.
Предлага се и метод за изработване на тематично специфични лексикони от емоционално значими думи. Методът използва синонимните връзки в WordNet и анализ на присъствието на термините, кандидати за речника, в текстово множество.
Основни приноси
Постигнатите резултати в изпълнение на задачите на дисертационния труд са:
-
Разработен е оригинален алгоритъм за съпоставяне на йерархични структури с целева дървовидна структура и извличане на нформация от HTML документ с линейна изчислителна сложност;
-
Създаден е метод за класификация на онлайн мнения чрез изграждане на лексикон на емоционално заредени думи и фрази;
-
Разработен е метод за автоматична класификация на прилагателните имена в българския език по положителност и по емоционални оси;
-
Реализиран е цялостен програмен продукт за извличане и анализ на мнения от уеб и социални мрежи, достъпен в интернет и силно препоръчван от потребителите на продуктови мнения.
Анализ на научните и научно-приложните постижения в дисертационния труд
В Първа глава са поставени целта и задачите на дисертацията. Във Втора глава е направено проучване и анализ на съвременното състояние проблема. Подробно са разгледани изследванията и постиженията до момента, като се започва с най-ранните лингвистични изследвания и се стигне до съвременните методи за оценка на мнения. В Трета глава се изследват начините за извличане на мнения от уеб документи. Предлага се алгоритъм за съпоставяне на йерархични структури и разпознаване на елементи от уеб страници. В Четвърта глава се анализират мненията на потребители за ресторанти и се построява специфичен речник за анализ на положителността на мненията. Пета глава е посветена на изследването на емоционалния заряд на думи в българския език и на построяването на автоматичен класификатор на думите по няколко емоционални оси. Шеста глава представя комбинирането на изложените методи и алгоритми в софтуерен проект. Резултатът от проекта е инструмент за автоматичен анализ на онлайн репутация. Дисертацията приключва със Седма глава, която отчита резултатите и указва бъдещата работа по темата.
Съществени приноси в дисертацията са:
-
Създаване на алгоритъм за разпознаване на структури в HTML, за избирателно окастряне на съпоставящото дърво и прилагане на хеш-функция към възлите на дървото, като алгоритъмът има линейна изчислителна сложност;
-
Построяване за първи път на автоматичен класификатор на думите от българския език, чийто резултат е числова оценка на емоционалния им заряд;
-
Реализиране на софтуерно решение за автоматизиран анализ на становища в цифровите и социалните мрежи.
Достоверност на получените резултати
За достоверността на дисертацията говорят петте обширни публикации и тяхното цитиране в научните среди, изнесените доклади по темата на дисертацията, реализацията на софтуерния проект и неговото цитиране и препоръчване за ползване в професионалните среди.
-
Общо описание на публикациите, които отразяват дисертацията – монографии, статии, свидетелства и патенти, класифицирани по тематика или друг признак и редуцирани поради съвпадение или препокриване
Според правилника на ФМИ за образователната и научна степен “доктор” се изискват поне 2 публикации в рецензирани издания, поне едно от които да е списание. По дисертацията има 5 публикации, като 3 са в сборници с доклади на международни конференции, 1 е в реномирано списание и 1 е в онлайн материалите от национален семинар. Една от публикациите е на български език и четири са на английски език. Публикациите отразяват основните научни резултати, постигнати в дисертацията. Освен това част от резултатите са представени и в един доклад.
-
Отражение на резултатите на дисертацията в трудовете на други автори. Числови показатели - цитати (без автоцитатите), импакт-фактор и др.
Представени са 4 цитирания от чуждестранни учени.
-
При колективни публикации да се отрази приносът на кандидата.
Една публикация е самостоятелна, а другите са в съавторство с научния ръководител на докторанта.
-
Критични бележки и препоръки на рецензента
Бих направил някои бележки, които не са особено съществени спрямо постигнатите резултатите от кандидата:
-
На стр 61 във формула (6) се въвежда разтояние d, без да е изяснено, как се определя то;
-
Фиг. 19 и фиг. 20 съответно на стр. 70 и стр.71 са еднакви;
-
На стр. 80 във формула (12) функцията р е представена и като двуаргументна, а всъщност е едноаргументна;
-
Забелязвят се и някои печатни грешки, като например на стр. 46 в последния ред „може” е излишно, на стр. 75 в последния абзац вместо „да” трябва да е „за”.
-
Качества на автореферата, включително доколко правилно отразява приносите на дисертацията
Авторефератът отразява точно и пълно основните резултати, постигнати в дисертацията.
-
Заключение
Представеният за рецензиране дисертационен труд отговаря на изискванията на Закона за РАСРБ и на съответните Правилници на МОНМ, СУ и ФМИ.
Предвид горното и поради съществените научни приноси на кандидата в дисертационния труд, давам положителна оценка и убедено предлагам на уважаемото жури да присъди на Борис Димитров Крайчев образователната и научна степен “доктор” в област на висше образование, 4.0. Природни науки, математика и информатика, професионално направление 4.6. Информатика и компютърни науки, научна специалност: 01.01.12. Информатика (Информатика – Изкуствен интелект).
24 април 2014 г. Рецензент:
/доц. д-р Александър Геров/
Сподели с приятели: |