Компютърни методи за интерпретация на спектрална информация


Моделиране на логиката на човека-експерт при интерпретацията на ИЧ спектри



страница2/3
Дата13.03.2017
Размер391.7 Kb.
#16705
1   2   3

3.2. Моделиране на логиката на човека-експерт при интерпретацията на ИЧ спектри. Получените в уравнение (3) спектро-структурни корелации са именно знанията, които използва човекът-експерт при интерпретацията на ИЧ спектри. Въпреки по-простия вид на тези уравнения в сравнение с (1), в повечето случаи тяхното преобразуване в уравнения от вида

струкs = gs-1(спекs); s = 1, 2, .. N, (4)

е невъзможно, поради наличието на припокриване на характеристичните интервали на поглъщане на химичните подструктури [9].

Този проблем се решава от повечето изследователи като се използва т.н. моделен подход (model driven approach, [10]), който може да се формулира като едно конкретно обобщение на уравнение (4) (доколкото функционалната зависимост е конкретна - импликация):

спекs,1 and спекs,2 ... and спекs,M => струкs; s = 1, 2, .. N, (5)

т.е. наличието на един или няколко спектрални признака предполага наличието на даден структурен елемент. В повечето създадени досега системи той е възприет като единствен метод за изводи, напр. системите CHEMICS [11], CASE [12], EXPERTISE [13], докато в системите STREC [14,15] и EXSPEC [16] се използва подход, иницииран от данните (data-driven approach, [10]). Този подход може да се илюстрира с логическите уравнения, които се използват в системата STREC:



струкs => спекs,1 and спекs,2 ... and спекs,M; s = 1, 2, .. N, (6a)

спекs => струкs,1 or струкs,2 ... or струкs,N; s = 1, 2, .. M, (6b)

където при втория тип уравнения (6b) имаме подход, иницииран от спектралните данни.

В системата STREC е интересен методът, които се прилага за изчисляване на формулираните логически твърдения. Използва се пълно изброяване на пространството на решенията [17], което се намира по върховете на един хипер-куб с ребра от 0 - лъжа (отсъствие на структурен елемент) до 1 - истина (неговото присъствие). При това изброяване се проверява истинността на следните две твърдения [14,15]:

T => (W => A), (7)

които гласят: ако имаме теория T (спектро-структурни корелации от вида (6)), и имаме измерен спектър W, то имаме набор от структури A. Решението А е всички онези комбинации от структурни елементи, които удовлетворяват уравнение (7).

В системата PAIRS [18] се прилагат адитивни правила от типа на (6b), където наличието на даден спектрален признак добавя определено нарастване (инкремент) към вероятността за присъствието на даден структурен елемент.

Формулирането на самите спектро-структурни корелации не е достатъчно за интерпретацията на ИЧ спектър; необходими са и правила по които ще се извършва тази интерпретация. При повечето от системите логическите уравнения от вида (5) и (6) се прилагат последователно, в резултат на което се получава списък на присъстващите и отсъстващи структурни елементи. В системите EXSPEC [16] и EXPIRS [19] е организирано структурирането на правилата в йерархия, като уравненията от вида (5) включват в лявата си страна твърдения за наличието на определени структурни елементи, наречени родителски групи. Разделянето на логическите уравнения от правилата за тяхното прилагане се извършва по-скоро теоретично, отколкото на практика. В литературата [10] първите е прието да се наричат база от знания, а вторите - машина за изводи. В по-модерните системи логическите уравнения се съдържат в обикновен текстов файл, и могат да се променят и допълват без да се променя изпълнимия код на системата [16,19].

Когато логиката на интерпретацията на човека-експерт се вложи (програмира) в компютърна програма или набор от програми, то получената система се нарича система основана на знания (knowledge based system) или експертна система. За успешното приложение на системата са необходими [10,20] наличието на следните модули, свързани и взаимодействащи си един с друг: (a) база от знания, отделена от (b) машината за изводи, (c) удобен потребителски интерфейс, също и (d) интерфейс за интервю на експерти по областта на приложение (в случая - ИЧ спектроскопия). За избягване на неудобния и скъп метод за натрупване на знания посредством кодирането им от експерт, системата се нуждае и от (e) база от факти (в случая - ИЧ спектри на съединения с известна структура), и (f) система за автоматично генериране на знания и правила от тях. За проследяването от потребителя на изводите, направени от системата е необходим и (g) модул за обяснение.

Представянето на знанията на експерта с логически твърдения от вида (6) ограничава решението на обратната спектроскопска задача до набор от структурни дескриптори. За да се установи пълната структура на непознатото съединение е необходимо тези структурни дескриптори да се комбинират по правилата на структурната химия в набор от възможни химични структури. Тази комбинация е невъзможна, ако няма други ограничения, напр. за молекулната маса или молекулната формула.

Броят на генерираните структури варира в зависимост от сложността на неизвестната структура от няколко десетки до няколко хиляди. Ето защо важен следващ етап е пресяването на тези структури, чрез симулация на спектри. Предвид на това, че при този процес отделните структурни елементи са свързани един с друг, т.е. те са с известно обкръжение, симулацията на спектри би дала по-точни резултати от предсказването на структурните дескриптори даже и при използването на уравнения от вида (3) [3]. В този случай симулацията на спектри би имала наистина “отсяващ” ефект и би намалила броя на предсказаните структури.

Симулацията на спектри е от ключово значение за интерпретацията на мас-спектри, където яснотата на поставената задача - разкъсване на определени химични връзки е способствала за едно от първите приложения на изкуствения интелект в науката - системата DENDRAL [21]. В ИЧ спектроскопия симулацията на спектри се извършва на емпирично ниво с методите на молекулната механика [22] и нормалния координатен анализ [23]. Последният метод е приложен в системата STREC, единствената, която в областта на ИЧ спектроскопия прилага отсяването на структури чрез симулиране на спектри.

В заключение в таблица 1 са сравнени характеристиките на основните експертни системи, използвани за интерпретация на ИЧ спектри.

Таблица 1. Характеристики на основните експертни системи, използвани за интерпретация на ИЧ спектри [10].

Система

автоматично генериране

на


знания

генерация

на


структури

симулация

на


спектри

модул

за


обяснения

други

приложени

методи


CHEMICS [11]

-

+

-

-

1H-ЯМР

13C-ЯМР

STREC [14,15,24]

-

+

+

-

1H-ЯМР

МС

УВ/Вид



CASE [12]

+

+

-

-

1H-ЯМР

13C-ЯМР

PAIRS [18]

+

-

-

+

-

EXPERTISE [13]

+

-

-

-

-

EXSPEC [16]

+

+

-

+

МС

3.3. Анализ на структурите на съединенията от хит-листа.В тази част е описан подход за класификацията на ИЧ спектри на органични съединения чрез използване на концепцията за максимална обща подструктура на две химични структури. Когато непознатото химично съединение не може са се идентифицира с помощта на търсене на неговият ИЧ спектър в спектрална библиотека, полученият хит-лист се анализира с помощта на програмата ToSiM. За структурите на съединенията от хит-листа се изчисляват най-често срещаните в тях подструктури, наречени характеристични подструктури. Практиката показва, че те могат да бъдат една добра основа за разкриването на структурата на непознатото съединение.

3.3.1. Максимална обща подструктура. Максимална обща подструктура (МОП) на две химични съединения се нарича най-голямата подструктура, която е обща за тях. В структурната химия МОП намира приложение предимно за оценяване на подобието между две структури [139]. Друго приложение на МОП е анализът на резултатите от търсене в библиотека от спектри [7,8].

Програмата ToSiM съдържа алгоритъм за определянето на МОП на две дадени химични структури, които са представени със своите таблици на свързаност [132]. Алгоритъмът намира поредица от “атом-атом” и “връзка-връзка” съответствия (matches) в двете молекули, като започва от произволна двойка съответстващи си атоми (по един от всяка молекула) и продължава със сравнението на връзките и атомите, следвайки разклоненията на едно топологично дърво. В резултат се получава свързана подструктура, чиято топология и тип на атомите (възлите) отговаря на определена част от едната и от другата структура. Потребителят на програмата може да въведе следните параметри или ограничения при сравнението: (a) да /не/ се проверява типът на съответстващите си атоми, (b) да /не/ се проверява типът на съответстващите си връзки, (c) да /не/ се разглеждат водородните атоми в двете подструктури, (d) всички хетероатоми да /не/ се приемат за идентични, и (e) въвеждане на минималния брой на съответстващите си неводородни атоми в двете структури.

МОП на две химични сруктури е една добра мярка за тяхното подобие, но когато броят на сравняваните структури нараства, МОП губи своето значение като такава. Причината за това е, че наличието на само една структура, различна от всички останали коренно променя получената като резултат МОП. Допълнително нараства рязко и броят на изчисленията до степен на невъзможност за тяхното провеждане [132]. Ето защо общите структурни белези за набор от структури се описват от програмата ToSiM като част от множеството на максималните общи подструктури на всички двойки структури.

За Nте структури от хит-листа са възможни N.(N-1)/2 двойки структури, и съответно толкова МОП се изчисляват от програмата. За всяка подструктура се преброяват нейните присъствия (честота) в структурите на хит-листа, Ni, и МОП се подреждат по своя ранг Ri:



Rj = (1 - f ).Nj /N + f.Aj /Amax, (20)

където Ai е броят на неводородните атоми в съответната МОП, Amax е максималният брой на неводородни атоми във всички N изследвани структури, а f е коефициент, определян от потребителя. Ако f е нула, само честотата на присъствие определя съответната подредба; ако f е 1, подреждането се определя само от размера на съответните МОП. Алгоритъмът за анализ на структурите от хит-листа е представен на фигура 10.





ИЧ спектър




библиотека от ИЧ спектри
13484 спектри и химични структури



















търсене в библиотеката от спектри






















хит-лист

50 съединения с ИЧ спектри, които са най-подобни на търсения спектър

























обработка на хит-листа

1. премахване на повтарящите се структури.

2. определяне на набора от максимални общи подструктури за всички 1225 двойки структури

3. подреждане на набора МОП по тяхната честота на срещане в структурите от хит-листа

























18 характеристични подструктури













премахване на подструктурите, които се съдържат в останалите
















сбит набор от характеристични подструктури
















избор на подструктури за интерпретиране на спектъра или като вход в програмата за генериране на изомери





Фигура 10. Схема на приложението на концепцията за максимална обща подструктура за анализ на структурите на съединенията от хит-лист, получен при търсене в библиотека от ИЧ спектри.

Полученият при търсенето с програмната система IRIS хит-лист се записва в т.н. списъчен файл (list file), който е служебен за програмата ToSiM. Това е обикновен текстов файл, който съдържа в първите два реда броя и имената на използваните спектрални библиотеки, а в следващите редове - поредните номера на съединенията в библиотеката и техните химични имена - по един ред за всяко съединение от хит-листа. С помощта на този файл се зареждат в паметта на програмата ToSiM структурите от получения при библиотечното търсене хит-лист.

Резултатите от анализа на хит-листа, получен при търсене на спектъра на бутиролактон са типични за молекули с ниска молекулна маса. Извършено е търсене в библиотеката по метода на коефициента на корелация, уравнение (16). ИЧ спектър на бутиролактона и структурите на първите 10 съединения от хит-листа са дадени на фигура 11. Петчленният лактонен пръстен присъства в осем от структурите (девет, ако се пренебрегне sp2 хибридизацията на един от въглеродните атоми в десетия хит), а естерната група във всичките десет съединения.

Получаваните резултати зависят от големината на анализирания хит-лист. Това влияние може да се демонстрира при сравнение на резултатите от МОП анализ на 20 и 50 структури, съответно фигури 12 и 13. На първата фигура са дадени първите пет характеристични подструктури, а на втората - първите 15; и на двете фигури те са подредени по честотата на тяхното срещане в структурите на хит-листа. Изобразените подструктури да се възприемат без съответните водородни атоми, защото МОП анализът е извършван с пренебрегване на водородните атоми в сравняваните структури.





бутиролактон

C4 H6 O2



Мол. маса = 86.09





хит 1: HQI = 939



хит 2: HQI = 921



хит 3: HQI = 921



хит 4: HQI = 911



хит 5: HQI = 910



хит 6: HQI = 899



хит 7: HQI = 895



хит 8: HQI = 895



хит 9: HQI = 895



хит 10: HQI = 895



Фигура 11. Първите 10 структури от хит-лист, получен при търсене на спектъра на “непознатото” съединение бутиролактон.

20 Y

19 Y

15 N

13 N

9 N












Фигура 12. Първите пет характеристични подструктури, намерени при обработката на хит-лист от 20 структури, получен при търсене на спектъра на бутиролактон. За всяка подструктура е даден броят на нейните появи в структурите на хит-листа. Y/N - подструктурата присъства/отсъства в изследваната структура.

В първия случай бутиролактонният пръстен се съдържа в 19 от структурите на хит-листа, а фрагментът C-C-O-C=O -- във всичките 20. Останалите три намерени подструктури са с честота 15, 13 и 9, но не се съдържат в изследваната структура. Докато във втория случай 10 от общо 15те характеристични подструктури се съдържат в бутиролактона; сред тях са първите девет.



48 Y

45 Y

42 Y

41 Y

39 Y











36 Y

35 Y

32 Y

31 Y

28 N












27 Y

27 N

23 N

20 N

19 N














Сподели с приятели:
1   2   3




©obuch.info 2024
отнасят до администрацията

    Начална страница