„Извличане и анализ на мнения и чувства от текст от онлайн източници



Дата02.01.2018
Размер64.33 Kb.
РЕЦЕНЗИЯ

относно дисертационен труд



за придобиване на образователна и научна степен „доктор”

в област на висше образование

4. Природни науки, математика и информатика,

Професионално направление: 4.6 Информатика и компютърни науки,

Научна специалност: 01.01.12 – Информатика

(Информатика – Изкуствен интелект)

Кандидат: Борис Димитров Крайчев

Тема: „Извличане и анализ на мнения и чувства от текст от онлайн източници”

Научен ръководител: доц. др Иван Койчев

Изготвил рецензията: доц. д-р Александър Геров

Тази рецензия е написана и представена на основание на заповед DO 38-57/05.02.2014 на ректора на СУ „Св. Климент Охридски”, както и на решението на научното жури по процедурата. Тя е изготвена въз основа на ЗРАСРБ, Правилника за прилагане на ЗРАСРБ, Правилника за условията и реда за придобиване на научни степени и за заемане на академични длъжности във Факултета по математика и информатика на СУ „Св. Климент Охридски” и указания за изготвяне на рецензии и становища от членове на научни журита и за документите в електронен вид, подавани от кандидата по процедури за академични длъжности и научни степени на Факултета по математика и информатика на СУ “Св. Климент Охридски”.



  1. Съдържателен анализ на научните и научно-приложните постижения в дисертационния труд. Характеризиране на основните постижения.

Дисертационният труд се състои от 114 страници. Оформен е в седем глави, като първата е уводна, седмата е заключение, а под номера 8, 9 и 10 са представени съответно публикациите, библиографията и декларацията за оргиналност. Съдържа 11 таблици и 26 фигури. Използваната литература е от 85 източника на английски език, от които 4 са онлайн.

Актуалност на проблема

Автоматичният анализ на текст като обект на изследване в компютърната лингвистика и обработката на естествен език се развива интензивно от десетки години, а извличането на мнения и чувства от естествен текст в интернет пространството е обект на активни изследвания в последните дестина години. Разрешаването на възникващите проблеми изисква високи професионални умения в области като информатика, социология и психология. Трудностите са не само в областта на автоматичната обработка на естествен език, но и в предизвикателството да се работи с големи масиви от данни, изискващо създаването на нови методи за разпределена обработка на данните.

Развитието на тази проблематика представлява интерес не само като фундаментални научни изследвания, а и като значими приложни разработки в бизнеса за анализ на потребителското отношение към даден продукт или услуга.

От горното следва високата актуалност на изследванията в областта на извличането и анализа на мнения и чувства от текст от онлайн източници.



Познаване на състоянието на проблема

От извършения в Глава 2 анализ и класификация на различните методи за извличане на чувства и мнения от онлайн текстове е видно задълбоченото познаване на проблема. Представени и оценени са различните методи и програмни реализации за анализ на чувствата на ниво дума, на положителност на ниво изречение и на ниво документ, на потребителско мнение, както и за класификация на текстове чрез алгоритми за машинно самообучение.

Използваните литературни източници също показват, че кандидатът познава естеството на проблема.

Подход и решение на проблема

Разглеждани са методи за извличане на мнения от уеб, техният емоционален анализ, както и общ емоционален анализ на части на речта от българския език.

Основният принос на изследването се състои в разработването на алгоритъм за разпознаване на мнения в уеб страници чрез съпоставящи дървета (Wrapper trees), който има линейна изчислителна сложност. Във връзка с това се идентифицират обектите в едно множество от документи, източниците на отделните документи, времето на публикуване на документите и след класифициране на мненията по положителност се генерира числово представяне на мненията.

Предлага се и метод за изработване на тематично специфични лексикони от емоционално значими думи. Методът използва синонимните връзки в WordNet и анализ на присъствието на термините, кандидати за речника, в текстово множество.



Основни приноси

Постигнатите резултати в изпълнение на задачите на дисертационния труд са:



  • Разработен е оригинален алгоритъм за съпоставяне на йерархични структури с целева дървовидна структура и извличане на нформация от HTML документ с линейна изчислителна сложност;

  • Създаден е метод за класификация на онлайн мнения чрез изграждане на лексикон на емоционално заредени думи и фрази;

  • Разработен е метод за автоматична класификация на прилагателните имена в българския език по положителност и по емоционални оси;

  • Реализиран е цялостен програмен продукт за извличане и анализ на мнения от уеб и социални мрежи, достъпен в интернет и силно препоръчван от потребителите на продуктови мнения.

Анализ на научните и научно-приложните постижения в дисертационния труд

В Първа глава са поставени целта и задачите на дисертацията. Във Втора глава е направено проучване и анализ на съвременното състояние проблема. Подробно са разгледани изследванията и постиженията до момента, като се започва с най-ранните лингвистични изследвания и се стигне до съвременните методи за оценка на мнения. В Трета глава се изследват начините за извличане на мнения от уеб документи. Предлага се алгоритъм за съпоставяне на йерархични структури и разпознаване на елементи от уеб страници. В Четвърта глава се анализират мненията на потребители за ресторанти и се построява специфичен речник за анализ на положителността на мненията. Пета глава е посветена на изследването на емоционалния заряд на думи в българския език и на построяването на автоматичен класификатор на думите по няколко емоционални оси. Шеста глава представя комбинирането на изложените методи и алгоритми в софтуерен проект. Резултатът от проекта е инструмент за автоматичен анализ на онлайн репутация. Дисертацията приключва със Седма глава, която отчита резултатите и указва бъдещата работа по темата.

Съществени приноси в дисертацията са:


  • Създаване на алгоритъм за разпознаване на структури в HTML, за избирателно окастряне на съпоставящото дърво и прилагане на хеш-функция към възлите на дървото, като алгоритъмът има линейна изчислителна сложност;

  • Построяване за първи път на автоматичен класификатор на думите от българския език, чийто резултат е числова оценка на емоционалния им заряд;

  • Реализиране на софтуерно решение за автоматизиран анализ на становища в цифровите и социалните мрежи.

Достоверност на получените резултати

За достоверността на дисертацията говорят петте обширни публикации и тяхното цитиране в научните среди, изнесените доклади по темата на дисертацията, реализацията на софтуерния проект и неговото цитиране и препоръчване за ползване в професионалните среди.



  1. Общо описание на публикациите, които отразяват дисертацията – монографии, статии, свидетелства и патенти, класифицирани по тематика или друг признак и редуцирани поради съвпадение или препокриване

Според правилника на ФМИ за образователната и научна степен “доктор” се изискват поне 2 публикации в рецензирани издания, поне едно от които да е списание. По дисертацията има 5 публикации, като 3 са в сборници с доклади на международни конференции, 1 е в реномирано списание и 1 е в онлайн материалите от национален семинар. Една от публикациите е на български език и четири са на английски език. Публикациите отразяват основните научни резултати, постигнати в дисертацията. Освен това част от резултатите са представени и в един доклад.

  1. Отражение на резултатите на дисертацията в трудовете на други автори. Числови показатели - цитати (без автоцитатите), импакт-фактор и др.

Представени са 4 цитирания от чуждестранни учени.

  1. При колективни публикации да се отрази приносът на кандидата.

Една публикация е самостоятелна, а другите са в съавторство с научния ръководител на докторанта.

  1. Критични бележки и препоръки на рецензента

Бих направил някои бележки, които не са особено съществени спрямо постигнатите резултатите от кандидата:

  • На стр 61 във формула (6) се въвежда разтояние d, без да е изяснено, как се определя то;

  • Фиг. 19 и фиг. 20 съответно на стр. 70 и стр.71 са еднакви;

  • На стр. 80 във формула (12) функцията р е представена и като двуаргументна, а всъщност е едноаргументна;

  • Забелязвят се и някои печатни грешки, като например на стр. 46 в последния ред „може” е излишно, на стр. 75 в последния абзац вместо „да” трябва да е „за”.



  1. Качества на автореферата, включително доколко правилно отразява приносите на дисертацията

Авторефератът отразява точно и пълно основните резултати, постигнати в дисертацията.

  1. Заключение

Представеният за рецензиране дисертационен труд отговаря на изискванията на Закона за РАСРБ и на съответните Правилници на МОНМ, СУ и ФМИ.

Предвид горното и поради съществените научни приноси на кандидата в дисертационния труд, давам положителна оценка и убедено предлагам на уважаемото жури да присъди на Борис Димитров Крайчев образователната и научна степен “доктор” в област на висше образование, 4.0. Природни науки, математика и информатика, професионално направление 4.6. Информатика и компютърни науки, научна специалност: 01.01.12. Информатика (Информатика – Изкуствен интелект).

24 април 2014 г. Рецензент:

/доц. д-р Александър Геров/





База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница