Workshops {информационно търсене и колективно обсъждане на доклади и реферати)
Изпит – практика (решаване на задачи)
Изпит - теория
+/-10
Анотация на учебната дисциплина:
Традиционно човешкото знание се съхранява под формата на свободен текст, но при ускореното развитие на технологиите е очевидна необходимостта от структури-рани и явно-декларирани концептуални описания на обекти и явления в природните науки. В някои области като медицината най-важните номенклатури се изработват ръчно в продължение на десетилетия – такава е Международната класификация на болестите, поддържана от Световната здравна организация. В други области, обаче, ръчната изработка с постигане на консенсус се счита невъзможна поради високата си цена, динамиката на поява на знанието, различните контексти на използването му и липсата на традиции за унификация. В тези области се правят активни опити за автоматично извличане и структуриране на знания от текст на естествен език.
Целта на курса е да запознае студентите с основните понятия, подходи, пос-тижения и проблеми при автоматичното извличане на знания от текст. В увода се резюмират постулати за представяне на знанията в изкуствения интелект. Накратко се разглежда представянето на семантиката на текста в компютърната лингвистика и се прави разграничение между формалния модел на значението на текста и концептуалното знание за света. Разглеждат се техники за автоматично извличане на понятия и екземпляри, релации (отношения) и факти от текстове. Примерите са предимно върху текстове от Wikipedia, поради интереса към формализиране на нейното полу-структурирано съдържание. Упражненията са организирани с използване на публичен софтуер и решаване на различни задачи чрез него.
Предварителни изисквания:
Познаване на основните понятия от дискретната математика
Очаквани резултати:
Студентите, завършили успешно курса, ще разбират принципните постановки на автоматичното откриване на знания в текста и ще познават постиженията и затрудненията пред практическото решаване на тази задача.
Учебно съдържание/Конспект
№
ТЕМА
Хорариум лекции
1
Въведение – представяне на знанията в изкуствения интелект, постановка и начин за използване на базите знания
3
2
Съвременни представи за онтологии, езици за представяне на знанията в контекста на семантичния интернет. Използване на етикети на естествен език в концептуалните представяния
3
3
Значение на думите и семантика на изреченията в компютърната лингвистика. Тематични роли на глаголите като n-местни предикати. Логическа форма на изречението
3
4
Разширяване на WordNet с логически форми (Extended WordNet)
2
5
Обхват и отрицание, референция и методи за автоматичното й разрешаване в компютърната лингвистика. Разлика между формалната семантика на текста и онтологичните (концептуални) знания за света
3
6
Автоматично извличане на екземпляри – наименовани единици от текст и класифицирането им
3
7
Автоматично извличане на понятия от текст и свързването им в концептуални йерархии
3
8
Автоматично извличане на свойства на понятията от текст
3
9
Автоматично извличане на релации между понятия от текст
3
10
Автоматично извличане на събития от текст чрез свързване на концептуални единици, открити в различни изречения