Факултет: Математика и информатика



Дата17.04.2017
Размер85.42 Kb.
#19378



Утвърдил: …………………..

Декан

Дата .............................

СОФИЙСКИ УНИВЕРСИТЕТ “СВ. КЛИМЕНТ ОХРИДСКИ”

Факултет: Математика и информатика


Специалност: (код и наименование)



























Информатика



Магистърска програма: (код и наименование)

М

И

И

3

8

2

1

1

3

Компютърна лингвистика

УЧЕБНА ПРОГРАМА

Ц

1

5

4

Дисциплина:

Основи на статистическата обработка на естествен език Преподавател: гл. ас. д-р Петър Митанкин

Асистент:


Учебна заетост

Форма

Хорариум

Аудиторна заетост

Лекции

60

Семинарни упражнения

0

Практически упражнения (хоспетиране)

0

Обща аудиторна заетост

60

Извънаудиторна заетост

Подготовка на домашни работи

0

Контролни работи и подготовка за тях

30

Учебен проект

0

Самостоятелна работа в библиотека или с интернет ресурси

30

Доклад/Презентация

0

Подготовка за изпит

120
















Обща извънаудиторна заетост

180

ОБЩА ЗАЕТОСТ

240

Кредити аудиторна заетост

2

Кредити извънаудиторна заетост

6

ОБЩО ЕСТК

8






Формиране на оценката по дисциплината1

% от оценката



Контролни работи

25



Участие в час

0



Домашни работи

0


Учебен проект

0


Тестова проверка

0


Текуша самостоятелна работа /контролно

0



Workshops {информационно търсене и колективно обсъждане на доклади и реферати)

0




















Изпит – практика (решаване на задачи)

0


Изпит - теория

75

Анотация на учебната дисциплина:

В курса ще се представят теоретичните основи на някои статистически методи, широко използвани в съвременната компютърна лингвистика. Целта на курса e да покаже как представените методи се прилагат в различни софтуерни системи, свързани с обработка на естествен език. Слушателят на курса ще има възможност да се запознае с фундаментални алгоритми, лежащи в основитe на системи като Google translate и Windows / Android speech recognition.

Курсът започва с въвеждане на n-грамен статистически езиков модел, като се представят алгоритми за построяване на такъв модел от големи текстови корпуси чрез минимизация на ентропия. В курса се показва как такива модели се използват в системи за автоматичен превод от един език на друг и също така в системи за разпознаване на реч. Разглежда се алгоритъмът за максимизиране на очакването. Като частен случай се извежда алгоритъм за оптимизиране на скрит модел на Марков. Показва се приложение, базирано на скрити модели на Марков, за автоматично разпознаване на частите на речта на зададен текст. Курсът включва също така и log-линейни модели, предоставящи възможност за комбиниране на различни по естество знания. Като приложение на log-линейни модели се разглеждат различните по-сложност модели на IBM за машинен превод, като оптимизацията на някои от тях върху двуезичен корпус се оказва осъществивама отново чрез метода за максимизиране на очакването. Разглежда се и log-линеен модел за машинен превод, който комбинира разпознаване на части на речта, езиков модел, таблици за превод на фрази и др. Като частен случай на log-линеен модел се въвеждат условните случайни полета, които се използват за груб синктактичен анализ. Курсът завършва с паралел между алгоритми за автоматично разпознаване на реч и статистически машинен превод.



Предварителни изисквания:

Предварителни знания, излизащи извън рамките на задължителните дисциплини от бакалавърските програми на ФМИ, не се предполагат. По-конкретно, предполагат се предварителни знания по поне един от следните курсове: Вероятности и статистика, Теория на вероятностите и математическа статистика, Теория на вероятностите, Статистика и емпирични методи, Увод в статистиката или друга дисциплина с подобна тематика.




Очаквани резултати:

Слушащите курса студенти да придобият задълбочени познания.


Учебно съдържание







Тема:

Хорариум

1

Оптимален код. Ентропия.

3

2

Вериги на Марков. N-грамни езикови модели.

5

3

Максимизиране на очакването.

4

4.

Скрити модели на Марков.

4

5.

Разпознаване на частите на речта.

4

6.

Log-линейни модели, максимизиращи ентропията.

4

7.

Статистически машинен превод.

7.1. Модели на IBM.

7.2. Извличане на фрази.

7.2. Модели, използващи фрази.



28

7.1. 16


7.2. 4

7.3. 8


8.

Условни случайни полета.

4

9.

Разпознаване на реч.

4



Конспект за изпит




Въпрос

1

N-грамни езикови модели.

2

Максимизиране на очакването.

3

Скрити модели на Марков.

4.

Разпознаване на частите на речта.

5.

Log-линейни модели, максимизиращи ентропията.

6.

Извличане на фрази за статистически машинен превод.

7.

Статистически машинен превод с модели, използващи фрази.

8.

Условни случайни полета.

9.

Разпознаване на реч.

Библиография

Основна:


    1. Боян Димитров, Николай Янев, Вероятности и статистика, 1998, Второ издание, Университетско издателство “Св. Климент Охридски”

    2. Красимир Манев, Увод в дискретната математика, 1998, Второ издание, Издателство на Нов Български Университет

    3. Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development, 2001, Prentice Hall PTR

    4. Philipp Koehn, Statistical Machine Translation, 2010, Cambridge University Press

    5. Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999

Допълнителна:

    1. Peter Brown, John Cocke, Stephen Della Pietra, Vincent Della Pietra, Fredrick Jelinek, John Lafferty, Robert Mercer, Paul Roossin, A statistical approach to machine translation. Computational Linguistics, 1990, 16(2): 79 – 85

    2. John Lafferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, Proceedings of the Eighteenth International Conference on Machine Learning (ICML '01), 2001, 282-289

    3. Franz Och, Hermann Ney, The Alignment Template Approach to Statistical Machine Translation, Computational Linguistics, 2004, 30(4): 417 - 449

    4. Lawrence Rabiner, A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of the IEEE, 1989, 77(2): 257 - 286


Дата: 10.01.2013 г. Съставил: Петър Митанкин



1 В зависимост от спецификата на учебната дисциплина и изискванията на преподавателя е възможно да се добавят необходимите форми, или да се премахнат ненужните.




Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница