Десислава Иванова Панева-Маринова семантично-ориентирана архитектура и модели за персонализиран и адаптивен достъп до знания в мултимедийна дигитална библиотека

Семантично-ориентирано представяне на знанията. Метаданни за персонализиран и адаптивен достъп до знания

Изтегляне 0.62 Mb.

страница	3/9
Дата	23.09.2016
Размер	0.62 Mb.
	#10513

1 2 3 4 5 6 7 8 9

Семантично-ориентирано представяне на знанията. Метаданни за персонализиран и адаптивен достъп до знания

Семантичен уеб и онтологии

Понятието Семантичен уеб (от англ. Semantic Web) е въведено от Тим Бърнърс-Лий, директор на World Wide Web Consortium (W3C), и определя следващото поколение на World Wide Web, което е интелигентно, в смисъл, че машините пряко или косвено тълкуват и обработват значението и предназначението на информационните ресурси на мрежата. Ключът към новите приложения и услуги се крие в достигането на по-високо ниво на машинно-обработваеми семантики в системите за обработка на информация. Семантичният уеб цели да въведе семантично маркиране на данните в мрежата, с цел да се позволи по-точно търсене, анализ, смесване и представяне на данни от различен тип и др. [Павлов&Дочев, ‘03].

В ядрото на Семантичния уеб стоят онтологиите, които са познати още като съществена технология за достигане до семантика, позволяваща представяне на данните в машинно-разбираеми структури. Онтология (от древногръцки: онтос - битие, съществуване; логос - учение, наука) е термин, определящ науката за битието. В съвременната философска литература терминът се използва за означаване на определена система от категории, която е следствие от определена система от възгледи за света. В литературата по изкуствен интелект понятието се използва за означаване на формално представени знания на основата на някаква концептуализация. Концептуализацията предполага описание на множество от обекти и понятия, знания за тях, факти, правила и връзки между тях. Грубер дефинира понятието като „формална експлицитна спецификация на споделена концептуализация”. Онтологията се определя още като концептуален информационен модел, който описва „нещата, които съществуват” в една дефиниционна област (понятия, техните свойства, атрибути, факти, правила и връзки) по един съгласуван и формален начин. Онтологията може да се приеме като стандартизиран спецификационен модел, осигуряващ стабилна основа за общо разбиране на дадена област и този модел може да се споделя между хора и/или приложни компютърни системи. Това осигурява принципен начин за работа с големи количества разпределена и разнородна компютърно-базирана информация [Fensel, ‘04].

Компоненти на онтология

Множеството от твърденията, съставящи онтологията, има формата на логическа теория от първи ред, в която термините от речника са имена на унарни и бинарни предикати, наричани съответно понятия и свойства (отношения или връзки). В най-простия случай онтологията описва йерархия на понятия, свързани с отношения за категоризация. В по-сложните случаи към нея се добавят подходящи аксиоми за изразяване на други връзки между понятията и за ограничаване на предполагаемите интерпретации на значението им. В този смисъл онтологията е база от знания, описваща факти, за които се предполага, че са винаги верни в рамките на определена взаимна общност на основата на общоприетия смисъл на използвания речник [Павлов&Дочев, ‘03].

Понятието (още наричано клас, концепция или фрейм) е своеобразно описание на същността, обща черта, която множество индивиди притежават, нещо за някого/нещо, негова разновидност, функционалност, дейност, начин за действие и др., стига да е пряко свързано с планираните цели на онтологията. Всяко понятие притежава наименование, описание на естествен език и множество от свойства. В допълнение могат да се дефинират подпонятия (негови елементи) и ограничения за тях. Свойствата спомагат за идентифицирането на понятията и се използват или за свързване на екземплярите на различни класове, или за даване на стойност на атрибути. Те са основата на йерархичната (is-a релации) и мрежова структура на онтологията. Два типа релации са особено важни: таксономия и мереология. Аксиомите участват в определянето на ограничения в интерпретацията на онтологичните елементи. Те дефинират факти и правила, които са винаги в сила и са полезни за проверка на коректността на въвежданите данни. Използват се два типа аксиоми: структурни аксиоми и неструктурни аксиоми. Екземплярите на дадена онтология са индивидите на дефинирани класове и факти, представящи връзките между тях.

Класификация на онтологиите

Съществуват множество класификации на онтологиите в зависимост от различни признаци. Някои автори разглеждат онтологиите като ориентирани към базовите понятия, а други - към обектите в предметната област. В литературата се говори за зависимост и независимост на онтологията от конкретна предметна област или задача, определят се още типове онтологии според различните роли, които могат да играят в процеса на построяване на системи, базирани на знания [Fensel, ‘04]. За авторите, които поддържат концептуалната идея, е от особена важност степента на детайлност, използвана за описание на концепциите в онтологиите. Друга класификация се основава на типа на включения в онтологията речник на понятията (виж Глава 2, Дял 2.2. на дисертационния труд).

Седемслоен модел на Семантичния уеб. Езици, средства и стандарти за представяне на онтологии

Семантичният уеб най-често се описва чрез седемслоен модел, разработен от Тим Бърнърс-Лий. На най-долния слой са наборите от символи Unicode и Uniform Resource Identifiers (URIs). Първият прави възможно използването на всички световни азбуки, а URIs, които са разширение на по-известните URLs, осигуряват уникалното представяне на елементите чрез низове от символи, идентифициращи Интернет-ресурсите. Следва използването на eXtensible Markup Language (XML), който дава основния синтаксис. Над него е езикът Resource Description Framework (RDF), който предоставя семантичната структура, базирана на употребата на тройките „субект, обект, предикат”. В рамките на същия слой, RDF Schema (RDFS) дава възможност за дефиниране на структурите като класове и подкласове. На ниво Онтологичен речник има определен брой онтологични езици, разширяващи логическите структури на RDFS. Обикновено се включва и възможността за дефиниране на еквивалентности, инверсии, сечения и обединения. На Логическия слой действията се изпълняват върху твърдения, дефинирани на онтологичния език. Доказателственият слой осигурява доказателствата като необходимо условие за комерсиализация. Последният слой включва управляващи правила за коректност.

Този модел описва практическата реализация на Семантичния уеб, осъществена посредством различни компютърни езици и стандарти като XML, Document Type Definition, XML Schema, RDF, RDFS, DARPA Agent Markup Language, Ontology Inference Layer, Web Ontology Language (OWL) и др. Приложение 1 на дисертационния труд включва детайлно описание на тези съвременни езици и стандарти за представяне на знанието.

За автоматизиране на дейностите със структурите на Семантичния уеб са разработени множество инструменти и приложни програми за създаване и формално изписване на онтологии, анотиране на обекти чрез онтологични метаданни, генериране на заявки и изводи, обединение и интегриране на онтологии, и др. (виж Глава 2, Дял 2.2. на дисертационния труд)

Изводи: Семантичният уеб и неговите градивни компоненти - онтологиите осигуряват структура, методи и средства за представяне на семантичната същност на информационните обекти, създават основа за семантичното им анотиране и семантично-базиран достъп до тях. Създаването на онтологии в различни области позволява унифицирането на знанието им и всеобщото му разбиране, компютърната му обработваемост и правенето на семантични изводи.

Метаданни

Метаданните са структурирана информация, която се създава, за да описва обекти и ресурси и да подпомага тяхното откриване, управление и използване. Според Гил [Gill et al., ‘00] метаданните са сбор от всичко, което някой би могъл да каже за който и да е информационен обект на всяко едно ниво на агрегация, вземайки предвид, че информационен обект е всяко нещо, към което човек или система може да се обърне и да управлява като дискретна единица. Всеки информационен обект има три характеристики, които могат да се опишат с метаданни: съдържание, контекст и структура.

Основните функции на метаданните са: откриване на ресурси/обекти, улесняване на употребата на обектите, осигуряване на операционна съвместимост, съхранение на дигитални ресурси/обекти и др.

Метаданни, съхранявани вътре в обекта (например HTML документ, съдържащ етикети) и обясняващи семантиката на съдържанието, се наричат скрити или вътрешни метаданни, докато метаданни, запазени някъде другаде (обикновено във външен файл), се наричат външни.

Общоприети стандарти за метаданни са: Machine Readable Cataloging (http://www.loc.gov/marc/), Dublin Core Metadata Standard (www.dublincore.org), Warwick Framework, RDF, OCLC/RLG Preservation Metadata standard, Digital Object Identifier и др. [OCLC/RLG Working Group, ‘01].

Метаданните могат да се групират по различни критерии, като функционалност, физическо разположение, процес на генериране, тематика на съдържанието, статус във времето, ниво на структурираност, ниво на обективност и др.

Подходи за използване на онтологии и онтологични метаданни за реализация на персонализация и адаптивност

Тенденцията за поставане в центъра на софтуерните системи на потребителя изисква осигуряване на механизми за бързо и лесно търсене, индексиране и семантично описание на различни дигитални ресурси, извличане на знания за потребителите и техните характеристики и предпочитания, съпоставяне на данните за обекти с тези за потребители, правене на интелигентни изводи по отношение на най-подходящи ресурси за всеки отделен потребител и др. Използването на метаданни е съвременно концептуално решение на тези задачи, което прави възможно описанието, обобщаването, синтеза, търсенето и извличането на същински данни, което от своя страна е необходимо за многократната употреба на последните. Съществуват стандарти и стандартизирани речници от метаданни, обслужващи различни предметни области, които, обаче, не винаги са съвместими помежду си. Тази несъвместимост може да бъде избегната чрез използването на онтологии като концептуална основа за реализацията на мета-описания.

Имайки предвид описаната вече роля на онтологиите, знанията, например, за потребителя на средата (включващи информация като лични данни, демографски статус, цели, задачи, мотивация, предпочитания към системата и представяне на знанията, поведение на потребителя в средата, история на посетени обекти/колекции, специализирано търсене, време за изследване и изучаване на информационни единици и др.) могат да се опишат и структурират чрез онтология и онтологичните метаданни да се използват от специализирани услуги за разбиране на познавателните нужди на потребителя и създаване на персонализирани и адаптивни информационни потоци, които да го задоволяват. По този начин търсенето на информационни материали от различните потребители с различни интереси и гледни точки ще е реализуемо и до ресурсите ще достигнат както тези, за които най-важно е за какво се отнася ресурсът и в каква форма е представен (контекст), така и онези, за които са съществени други характеристики като съдържание, включени понятия, дигитални обекти, изграждащи съдържанието, цел на материала, аудитория, за която е предназначен, минимални знания за разбирането му и т.н.

По отношение на информационното съдържание и неговото мета-описание онтологиите могат да решат проблема с различния начин на възприемане на семантика от страна на автора и читателя чрез установяване на споделена концептуализация в конкретно разглежданата предметна област. Освен това, при създаване на информационни ресурси съществува големият риск двама автори да обясняват един и същ проблем (понятие) по различен начин. Това означава, че семантично идентични понятия могат да бъдат изразени чрез различни ключови думи, например, човек може да използва следните семантично еквивалентни термини за „агент”: агент, играч, сътрудник, създател, човек, който върши нещата, професионалист и т.н. Този проблем може да бъде решен, като се използват онтологии в области, в които означенията от речниковия състав на дадена област (като тук се имат предвид всеобщо възприети термини) са дефинирани по много начини (гореизброените символи се използват в реалния свят и означават концепцията „агент” в онтологията на областта). В допълнение онтологичните аксиоми играят важна роля в представянето на информацията, например, аксиомата, която твърди, че две релации са взаимно противоположни, се използва за проверка на съгласуваността на информацията.

Освен това, от гледна точка на потребителя, съществува проблемът какви термини или ключови думи да се използват при търсенето на информационен материал. Простите заявки по ключови думи са полезни в случаите, когато потребителите имат ясна идея какво търсят и информацията е добре структурирана. В разглежданите среди, често нивото на познаване на предметната област и понятията е ниско и се появява необходимостта от механизъм за установяване на общо разбиране. На второ място, простото търсене по ключови думи не отчита синонимите („агент” и „играч”), съкращенията („World Wide Web” и „WWW”), различните езици („horse” английски и „haus” немски), морфологични вариации („Point-to-Point Network” и „Point to Point Network”), без дори да говорим за контекста на заявката. Този проблем може да бъде решен чрез дефиниране на съответни връзки в онтологията на областта. Онтологичните релации могат да се използват и при организиране на процеса на преглеждане на информационните материали, като създадат структурни отношения между единични части и дигитални обекти. Такива връзки са Next, Prev, IsPartOf, HasPart, References, IsReferencedBy, IsBasedOn, IsBasisFor, Requires, IsRequiredBy. Може дори да се изгради семантична свързаност чрез аксиоми (например, IsPartOf и HasPart - взаимно противоположни релации), които да са от полза при търсенето на информация. Без определяне на тази противоположна зависимост, търсенето на информация би зависило от стратегията за предоставяне на информация във вид на метаданни. Ако човек дефинира, че даден ресурс с име „X” „IsBasedOn” (зависи) от друг ресурс с име „Y”, не съществува възможността (без програмиране или изрично уточнение) да се открият всички ресурси, за които ресурсът „Y” „IsBasisFor” (да е база).

Освен това, информационните ресурси и съставящите ги компоненти могат да бъдат представени в различен контекст като въвеждащи, аналитични, илюстриращи и др. Описанието на контекста подпомага търсенето на свързаните с този контекст обекти, в зависимост от предпочитанията на потребителя. Например, ако той се нуждае от по-подробно обяснение на дадена тема, логично е да търси дигитални обекти, които дават примери по нея. За да се постигне общо разбиране на речниковия състав, нужен за описание на контекста, може да се използва контекстната онтология и съответни метаданни на нейна база.

Изводи: Ако метаданните за реализация на персонализиран и адаптивен информационен поток са основани на онтологии и описват както знанието за потребителя, така и изследваната предметна област, то резултатната система би осигурила реални възможности за откриване на полезни материали, задоволяващи предпочитанията, нуждите и изискванията на потребителя. Стандартното търсене ще се трансформира в персонализирано и контекстно-базирано. Подходът, базиран на онтологии, може много лесно да се разшири до ситуация, в която всички традиционни нива метаданни (например, общи, технически) се използват в анатомия на информационния ресурс и потребителя.

Каталог: dessi -> Desislava%20Paneva files
Desislava%20Paneva files -> Подходи за използване на технологиите на семантичния уеб

Изтегляне 0.62 Mb.

Сподели с приятели:

1 2 3 4 5 6 7 8 9