Компютърни методи за интерпретация на спектрална информация



страница1/3
Дата13.03.2017
Размер391.7 Kb.
  1   2   3


Компютърни методи за интерпретация на спектрална информация

автор: Пламен Пенчев

(това е предварителен материал и като такъв в него може да има много неясноти и грешки, за което авторът се извинява на читателите!)

1. Обзор на проблема. Химията е наука, боравеща с изключително обширна информация, тъй като досега са синтезирани или изолирани от природата над 60 милиона химични съединения. Записването в бази от данни на техните имена, структура, физикохимични и спектрални признаци е изключително обемно от информационна гледна точка. Още повече че има съвсем реална възможност за съществуването на милиарди нови съединения в следствие на различна подредба и свързване на атомите (т.н. цветен граф), което на практика означава възможност за синтез или изолиране от природни източници на милиарди нови неоткрити досега органични съединения.

1.1. Разкриване на структурата на съединенията. Редица автори разглеждат съвременния подход за разкриване на структурата на химичните съединения като състоящ се от три етапа: (1) интерпретация на спектрални данни, даваща набор от фрагменти и други структурни характеристики на неизвестното съединение, (2) комбиниране на тези фрагменти в пълни химични структури, които съответстват на получените структурни характеристики, както и с други химични ограничения като молекулна формула и известни части от съединението, и (3) предсказване на някои от молекулните спектри на генерираните структури и сравняването им с реално измерените спектри [1,2].

Под спектрална интерпретация в настоящия текст ние разбираме извличането на структурни характеристики на неизвестното съединение от неговите спектри. Структурна характеристика може да бъде, например, функционална група (напр. карбонилна група), неговата 2D структура (т.н. таблица на свързаност на атомите) или неговата 3D структура. Когато неизвестната структура се разкрие ние говорим за идентификация на съединението. В някои случаи идентификацията може да се получи при пълно съответствие на спектъра на изследваното съединение със спектър от библиотека или при някакъв тип (обикновено математичен) обработка на спектъра на смес или набор от спектри на смеси. Очевидно, идентификацията на изследваното съединение е главна цел на спектралната интерпретация и на процеса на разкриването на структурата. Това на практика означава, че спектралната интерпретация на различни по вид спектри е централен проблем при разкриването на структурата.

Въпреки че интерпретацията на ИЧ, Раман, 13C ЯМР спектри и мас-спектри има общи черти, то природата на тези спектри е коренно различна и това предполага различна методология за: (1) начина на съхраняване и търсене на спектралната информация, (2) проектирането на интерпретационната система, и (3) начина на използване на получената химична информация. Ето защо в настоящия текст различните спектрални методи ще бъдат разгледани отделно.

1.2. Методи за компютърна интерпретация. Съвременното разкриване на структурата на ново съединение се извършва на основата на редица негови спектрални данни – спектри на ядрено магнитен резонанс (ЯМР), инфрачервени (ИЧ) спектри, мас-спектри и т.н. Както споменахме, така наречената спектрална интерпретация е първоначалният и задължителен етап от изясняване на структурата на съединенията. Опитните спектроскописти и химици са изключително вещи в интерпретацията на спектрални данни, но въпреки това някои от тях започнаха да се занимават с компютърна интерпретация на спектрални данни, за да автоматизират тази обременителна и бавна процедура [1,2]. Те бяха окуражени в тази си нова дейност от нарастналия обем на спектралната информация, лесния достъп до разнообразни бази от данни и възможността за автоматизиране на тази дейност. Напоследък компютрите станаха по-бързи и по-евтини, а и програмният софтуер беше значително подобрен. Още повече, че глобалната Интернет мрежа даде възможности за по-пълен достъп до химична и спектрална информация.

Три основни подхода се прилагат за компютърна интерпретация на спектрална информация: експертни системи [3,4], разпознаване на образи [5] и търсене в библиотеки от спектри [6]. Експертните системи ползват база от знания, структурирани в система от логични правила, която се написва от един или няколко експерта в съответната област или се извлича автоматично от компютърна база от данни по проблема. Другите два подхода винаги изискват подходящо съставена спектрална библиотека. Така нареченото библиотечно търсене в спектрални бази от данни има две основни цели: (1) идентификация на непознатото съединение, ако неговият спектър е сред спектрите в библиотеката (търсене с цел идентификация, identity search), или (2) получаване на списък от съединения, чиито спектри са най-подобни на спектъра на неизвестното (търсене по подобие, similarity search). Този списък се нарича в литературата списък на хитовете (hitlist). И за двата типа на търсене най-важни аспекти са представянето на спектралната информация, използваната мярка за спектрално подобие и прилагания алгоритъм за търсене [6]. При търсенето по подобие друга ключова характеристика е методът за анализ на структурите на съединенията в списъка на резултати (хитове). Други немаловажни характеристики на търсещата система са скоростта и гъвкавостта на приложения алгоритъм за търсене, размерът, съдържанието и надежността на спектралната база от дани, възможностите за осъвременяване и допълване на спектралните библиотеки, както и наличието на редица помощни модули, като този за анализ на структурите на резултатите и модул за извличане на спектро-структурни корелации. [6-7].

Тъй като спектърът отразява в значителна степен структурата на съединението, то полученият списък на хитовете може да се използва за получаване на някои изводи относно структурата на непознатото съединение. Това се извършва или чрез преглеждане на тези структури от изследователя или с помощта на математичен алгоритъм като този на намиране на максималната обща подструктура (МОП, MCS от английския израз ”maximum common substructure”) [8].

Математичната страна на МОП е добре развита [9] и приложенията на алгоритъма варират от изследване на биологична активност [10] до намиране на кластери в бази от данни [11]. За анализ на резултати от търсене в спектрални библиотеки МОП концепцията е приложена първо за масс-спектри [12] и спектри на 13C-ЯМР [13]. Varmuza и сътрудници прилагат автоматична екстракция на МОП от структурите на резултатите от търсене в ИЧ спектрална библиотека от 13,484 спектри [8, 14-16].

Друга съвременна концепция, тази на изкуствените невронни мрежи, ИНМ, (ANN, artificial neural networks) е широко прилагана в последните години за интерпретация на спектри. ИНМ е математичен модел, който наподобява биологичните невронни мрежи и се състои от свързани групи от възли (неврони), обикновено структурирани в слоеве. При тях информацията се обработва свързано и разпределено [17,18]. На практика, повечето модели на ИНМ са адаптивни системи, които нагласят силата на връзките между невроните при процес, наречен обучение, като имитират работата на човешкия мозък. Тази серия от изчисления за промяна на тези връзки реално означава, че те са нелинейни статистически модели, които изобразяват входните вектори (набор от стойности) в изходните вектори и така откриват представителните образи в извадката от данни.

От края на 80-те години ИНМ се използват интензивно в химията и спектроскопията [19]. Тъй като един спектър може да бъде представен като N-мерен вектор от спектрални признаци, то той е много подходящ за вход в ИНМ, а съответните структурни признаци се аранжират също като вектор (с различна размерност) и алгоритъмът намира математичната връзка между тях, която на практика изразява спектро-структурните корелации. Разбира се че за тази цел се използват спектри на съединения с известна структура, които съставят т.н. обучителна извадка. Досега най-използваните ИНМ са тези на (1) многослойни мрежи с право разпространение на сигналите и обратно разпространение на грешките, (2) ИНМ на Kohonen и (3) мрежи с обратно разпространение на сигналите (counter-propagation ANN) ANN [5,19-20].

В настоящия материал ще бъдат разгледани само малка част от методите, които се използват за компютърна интерпретация на спектри – това е продиктувано както от тяхното разнообразие по отношение на използваните математически и логически знания, така и от многобройните приложения, описани в литературата. Въпреки това, читателят ще се запознае с основите на тази проблемна област. В курса ще бъдат използвани оригинални компютърни програми, написани от автора, както и професионален софтуер.

1.3. Спектрални методи и тяхната информативност. От всички инструментални методи за анализ на органични съединения, ЯМР спектроскопията е своеобразна царица сред тях. С разнообразните си техники – протонен (1H-) и 13C- едномерен резонанс, както и 2D спектралните корелациионни методи тя е в основата на разкриване на структурата на напълно непознати съединения или нейното подтвърждаване при новосинтезирани съединения. От едномерните спектри (само с тях може да се състави библиотека), 13C-ЯМР спектрите като цяло са най-информативни, последвани от протонните ЯМР спектри, мас-спектрите и ИЧ спектрите. В този материал ще бъдат разгледани работата със спектрални библиотеки от ИЧ и Раман спектри, както и търсенето в библиотека от напълно отнесени 13C-ЯМР спектри.

Компютърната интерпретация на мас-спектри е изключително изследвана и разработена област и има редица комерсиални приложения във вид на софтуер за търсене и интерпретация [xxencycloped]. Мас-спектрите са изключително информативни и дават информация за молекулната формула и маса, дължината на веригата, наличието на редица функционални групи и пр. Освен това самите мас-спектри са идеални за илюстрация на различните компютърни и хемометрични методи, но за съжаление във факултета няма мас-спектрометър, с който да се измерват спектри на органични съединения и няма и специалист в тази област, затова те не са обект на този материал.



13C-ЯМР спектрите отразяват в най-голяма степен скелета на органичните съединения, а тази информация е трудна за извличане от другите видове спектри [23, 24]. Едно компютърно приложение на 13C-ЯМР спектралните библиотеки е подходът за интерпретационно търсене в библиотека от напълно отнесени 13C-ЯМР-спектри (т.е. на всеки въглероден атом в структурата е отнесен неговия сигнал в 13C-ЯМР-спектъра). Този подход е описан подробно в настоящия материал.

Раман спектроскопията с инфрачервени лазери (NIR-FT-Raman spectroscopy) е показала ясно своята приложимост за анализ на биологични проби. Един сериозен недостатък на ИЧ спектроскопия е крайно ограниченият набор от разтворители, които могат да се използват, да не говорим, че използването на силно полярни разтворители е нежелателно заради изместването на ивиците. Това усложнява анализа на водноразтворими проби, което е повсевместна практика при биологичните изследвания: ивиците на водата в средната инфрачервена област (4000-400 cm-1) са интензивни в ИЧ спектъра и покриват голяма част от спектралната област. Но трябва да се отбележи, че ивиците на водата в Раман спектъра са слабоинтензивни и затова Раман спектрите са незаменими при спектралната идентификация и интерпретация на проби от природен произход.

От друга страна, компютърната интерпретация на Раман спектри е слабо изследвана област [25]. Въпреки характеристичността на Раман ивиците (подобно на тази в ИЧ спектрите), възникват проблеми, когато се работи с относителната интензивност на тези ивици. Например, карбонилната група (>C=O) дава силно интензиви ивици в ИЧ спектръра, но слаби по интензитет в Раман спектъра; много други характеристични групи (фрагменти) показват същата тенденция. Въпреки това, някои от химичните групи, като C=C, бензеново ядро и др., дават силно интензивни ивици в Раман спектрите, докато тези същите ивици са слаби или с променлив интензитет в ИЧ спектрите. Това от своя страна прави Раман спектралните библиотеки едно ценно допълнение при интерпретационния процес на мултиспектралните данни.

2. Компютърни методи за интерпретация на спекрална информация.

2.1. Интерпретация на вибрационни спектри. Приложението на експертни системи за интерпретация на ИЧ спектри и програми за библиотечно търсене в ИЧ спектрални библиотеки е добре изучена област и има множество приложни програми, създадени от производителите на апарати и софтуерни компании. Три коренно различни метода за компютърна интерпретация на спектрална информация са разгледани в настоящия материал: обработка на резултатите от библиотечно търсене с метода на най-близките съседи (kNN, k-nearest neighbors) и с метода на максималната обща подструктура (MCS, maximum common substructure), както и приложението на математичните алгоритми, които симулират обработката на информация в мозъка на човек, наречени изкуствени невронни мрежи, (ANN, artificial neural networks).

kNN методът е много добре изучен и се е доказал като мощно средство за класификация на спектри по подструктури [21]. Този метод включва следните етапи:

- ИЧ спектърът на изследваното съединение се потърсва в библиотека от спектри. Получените резултати (списъкът на хитове) е съставен от съединения, чиито спектри са най-подобни на спектъра на неизвестното в контекста на използваната мярка за спектрално подобие.

- Алгоритъм от теория на графите (обикновено търсене на подструктури) се използва за намиране на броя съединения, в чиято структура има дадена подструктура.

- Въз основа на този брой се взима решение дали дадената подструктура присъства или отсъства в неизвестната структура.

По-сложният подход за същата цел е приложението на МОП алгоритъм върху резултатите от търсене, т.е. върху структурите на съединенията от списъка на хитовете (представени обикновено като таблици на свързаност, т.н. “2D structures”). МОП е най-големият общ граф на две структури, изразени с техните таблици на свързаност. Но трябва да се отбележи, че ако се изчислява МОП на няколко структури, то тя може да бъде малка по размер или даже да не съществува, ако някоя от структурите се различава значително от другите. Освен това, МОП алгоритъмът е изчислително сложен и бавен, когато се обработват повече структури. Ето защо, обикновено структурите се сравняват по двойки. Когато тези двойки са от списъка с хитове, получените МОП се считат, че присъстват в структурата на неизвестното съединение. Както беше споменато, математичната основа на МОП алгоритъма е добре разработена.

Фигура 1 дава най-обща представа за търсенето в библиотеки от ИЧ спектри и последващата обработка на структурите на хитове.



Фигура. Приложение на спектралната интерпретация и търсенето в библиотеки от ИЧ спектри.

2.2. Интерпретация на 13C ЯМР спектри. Протонните (1H) ЯМР спектри са също изключително информативни относно структурата на съединението, но те са необичайни за включването им в бази от данни, чрез тяхното числено превръщане (digitizing). Те много рядко се дават в числен вид в списанията във вид на спектрална крива, а се докладват като сигнали, с тяхната мултиплетност, отнесени към съответните протони. От друга страна, самите числови криви силно зависят от честотата на съответния ЯМР апарат. Ето защо само 13C ЯМР спектри са подходящи за библиотечно търсене. При тях на всеки въглероден атом съответства едно реално число, химическото отместване и друго, което показва мултиплетността, породена от съседните протони.

Библиотечно търсене на 13C ЯМР спектри, чрез сравняване на целия спектър съвсем не е лишено от недостатъци, които най-ярко се проявяват ако в базата данни няма спектри на подобни по структура съединения. В този случай резултатите могат да бъдат много малко информативни и даже напълно погрешни. Този недостатък може да бъде преодолян чрез използването на т.н. интерпретационно библиотечно търсене в библиотека от напълно отнесени 13C ЯМР спектри. Методът се основава на факта, че ако структурата на изследваното съединение има обща част (подструктура) с някоя от библиотечните структури, то и спектърът на неизвестното има обща част със спектъра на библиотечния запис. Това на практика означава, че трябва да се търси част от спектъра на неизвестното в спектрите в библиотеката. Ако атомите от библиотечната структура, със съвпаднали сигнали, са свързани един с друг те могат да се отбележат и групират в някаква подструктура. Последната има предимството да се дава като включена в структурата на библиотечния запис и се счита за достатъчно надеждна, за да присъства в неизвестната структура. Подходът е предложен от Bremser’s [23], който използва подструктури, центрирани около даден атом, чийто сигнал съвпада със сигнал от неизвестния спектър. По-сетне е доразвит от Shelley и Munk [24] без ограничение на вида на подструктурите – при тях всички техни сигнали съвпадат с тези на неизвестното.

Интерпретационно библиотечно търсене използва 13C ЯМР спектъра, който се дава като сигнал и мултиплетност на въглеродните атоми; обикновено първата стойност е закръглена до 0.1 ppm. Важен параметър е неопределеността на съвпадане на сигналите, т.н толеранс. Като цяло алгоритъмът за интерпретационно библиотечно търсене може да бъде разделен на две части: (1) търсене на сигналите на неизвестното в индексни файлове, съставени от сигналите на съединенията в библиотеката и получаване на списък на библиотечните структури, които имат брой на съвпадение на сигналите с тези на неизвестното, повече от даден праг, и (2) разписване (експанзия) на подструктури от само тези атоми от структурите, които имат съвпаднали сигнали (изразът “expansion of connected substructures” е непреводим и точният му смисъл е «проследяване на атомите и връзките и групирането им в подструктура»).

Пълна и работеща версия на програма за интерпретационно библиотечно търсене е написана от автора на настоящия текст при неговия престой в групата на Prof. Munk в периода 2001-2005 г. Методите не са публикувани, защото се нуждаят от съществено подобрение, а за целите на обучението базата от данни (която е на Садтлер, Sadtler) не може да бъде използвана, понеже е с авторски права, но библиотека от 1000 спектъра, съставена от магистър Стефка Начкова и автора..



2.3. Ограничение на методите за интерпретация на спектри. Ограниченията на методите за интерпретация на ИЧ спектри произлизат от: (a) частичното отразяване на структурната информация в измервания спектър; (b) непълнотата на информацията в избраните спектрални признаци; (c) недостатъчната представителност на “обучаващата извадка”; (d) ограниченията на модела, приложен при класификацията; (e) ограниченията на модела, приложен при интерпретацията на резултатите.
Първата причина - частичното отразяване на структурната информация в ИЧ спектри се споменава от много автори, които класират физичните методи за анализ в следната последователност по информационно съдържание: мас-спектри > 13C-ЯМР > 1H-ЯМР > ИЧ > Раман > УВ/Вид спектроскопия [137]. Сред физическите причини, свързани с принципа на генериране (от природата!) на ИЧ спектри (точка (a) по-горе) за тази непълнота по-важни са следните:

  • някои от химичните структури слабо (или не) поглъщат ИЧ лъчение - напр. симетрично заместени двойни и тройни връзки;

  • други структурни елементи не притежават характеристични ивици - напр. единичните въглерод-въглерод, кислород-кислород и т.н. връзки;

  • няма систематична промяна в някоя от характеристиките на ИЧ спектър (интензитет и площ на ивици, мултиплетност и т.н.) при нарастване броя на функционалните групи, с малки изключения на груби емпирични зависимости [138];

  • не се наблюдава (или е неизвестна) систематична промяна на скелетните трептения в дактилоскопичната област 1200 - 600 см-1;

  • припокриването на ивиците на различните химични групи и наличието на обертонови и съставни честоти.

3. Математически методи за интерпретация на ИЧ спектри.

3.1. Обща класификация на методите. Използваните математически методи за интерпретация на ИЧ спектри с цел изясняване на структурата или идентификацията на химичните съединения се разделят най-общо на три групи в литературата [2]:

  • моделиране на логиката, използвана от човека-експерт при интерпретация на ИЧ спектри;

  • хемометрични методи;

  • сравняване на измерения спектър с библиотека от спектри.

В основата на трите групи методи стои експериментално определеният факт, че съществува еднозначна зависимост между структурата на дадено химично съединение и неговия спектър [3]:

спектър = f(структура) (1)

Тази привидно проста зависимост предполага наличието на обратна функция f  1, която приложена върху спектъра трябва да даде структурата на химичното съединение:



структура = f--1(спектър) (2)

Въпреки простата си формулировка, обратната спектроскопска задача - уравнение (2) - няма точно и еднозначно решение с изключение на най-простите химични структури. В зависимост от своите математически основи различните методи се справят по различен начин с решението на уравнение (2). При методите от първата група уравнение (1) се разбива на система от уравнения



спекs = gs(струкs); s = 1, 2, .. N, (3)

които свързват части от спектъра или дадени спектрални характеристики спекs (напр. местоположение, интензитет, полуширина и форма на ивиците в спектъра) с определени структурни дескриптори струкs (напр. подструктури, тип и порядък на връзки, молекулна формула). Докато уравнение (1) се “получава” чрез измерване на спектъра с помощта на ИЧ спектрометър, то уравненията (3) се определят от спектроскопистите на базата на измерването и анализа на голям брой спектри на вещества с позната структура.

Останалите две групи методи, се основават на условието за “непрекъснатост” на функцията (1) в пространството на структурите, което гласи: на близки по структура съединения съответстват подобни спектри [3]. Всъщност доколко ще се изпълнява това условие зависи от вида на пространството на структурите и това на спектрите, както и от мерките за близост, използвани в едното и в другото пространство.

Хемометричните методи [1,4,5] разглеждат спектрите на химичните съединения като геометрични обекти - вектори в N мерното спектрално хипер-пространство. Чрез редица линейни и нелинейни методи за изображение това пространство се проектира в пространството на химичните подструктури, като за целта се използват обучителни итеративни процедури, провеждани върху извадка от спектри на съединения с известна структура. В зависимост от представителността на обучаващата извадка хемометричните методи успяват повече или по-малко точно да получат линейна или нелинейна интерполация на уравнение (2).

При третата група методи се измерва подобието на спектъра на непознатото вещество със спектрите на група съединения, обединени в библиотека [3,6]. Библиотеката от заснети спектри може да се разглежда като таблично представяне на уравнение (1), подобно на известните логаритмични таблици. В резултат на сравнителна процедура от библиотеката се отделя поредица от спектри на съединения, намиращи се най-близко до спектъра на непознатото съединение в пространството на спектрите (т.н. хит-лист, hit-list). Изследователят може да прецени (при визуално сравнение на спектрите или използване на определени статистически критерии) дали непознатото съединение е представено в библиотеката. В този случай се говори за търсене за идентификация на непознатото съединение [3]. Ако съединението не е представено със спектър в библиотеката, от използваните алгоритми се изисква получаването на хит-лист от подобни по структура съединения. В този случай библиотеката се използва за търсене по подобие [3].

Между втора и трета група методи няма принципна разлика в използваните математически модели за описване на обектите в структурното и спектралното пространство, а също така няма и различие при определяне на мерките за подобие в двете пространства. Основната разлика между двата метода се състои в подходите за изображение на структурното в спектралното пространство, които се използват само от хемометричните методи. От друга страна полученият при библиотечно търсене хит-лист предполага място на непознатата структура в близост до структурите на съединенията от хит-листа, т.е. имаме едно неявно изображение от спектралното в структурното пространство. Това неявно изображение може да се конкретизира чрез използване на някои от хемометричните методи, като анализ на структурите на съединенията от получения хит-лист [7,8].


  1   2   3


База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница