Компютърни методи за интерпретация на спектрална информация



страница3/3
Дата13.03.2017
Размер391.7 Kb.
#16705
1   2   3

Фигура 13. Първите 15 характеристични поструктури, намерени при обработката на хит-лист от 50 структури, получен при търсене на спектъра на бутиролактон. Означенията са както на фигура 12.

При използването само на първата структура от хит-лист МОП анализът ще даде точно нея като характеристична подструктура, която ще е грешна, ако нямаме спектър на изследваното вещество в библиотеката. При МОП анализ на всички структури от библиотеката (другият краен случай) бихме получили подструктури, характеристични за библиотеката като цяло, но не и за изследваното съединение. Ето защо съществува някакъв оптимален брой на сравняваните структури. Изследвания по този въпрос показват, че този брой е някъде около 45 до 60 структури и той зависи от конкретната изследвана структура. Тъй като на практика изследователят не знае тази структура, то за библиотека от 14000 спектъра се препоръчва МОП анализ на структурите на първите 50 хита (не забравяйте, че с повишаване на техния брой изчисленията нарастват в геометрична прогресия; при 50 структури се извършват 50*49/2 = 1225 сравнения.

В приведените примери подструктурите са подредени по честотата на тяхното срещане в структурите от хит-листа, т.е. f = 0.0 в уравнение (20). Проведени експерименти показват, че използването на f = 1.0 при изчисляване на ранга Rj на подструктурите дава напълно грешни подструктури в началото на списъка. Причината за това е, че в началото на списъка се получават най-големите подструктури, които по правило са МОП на дадена двойка от структури и не се съдържат в другите структури от хит-листа, което на практика означава, че те характеризират съответната двойка, а не целия хит-лист. Още повече, че тази двойка може да е МОП на структури, намиращи се в края на хит-листа, т.е. имащи по-слаба прилика със структурата на изследваното вещество.

Варирането на f в интервала (0.0, 1.0) с 0.1 показва, че ако искаме верните (reliable) подструктури да са в началото на получавания списък, то трябва да се работи с f = 0.0, т.е. подструктурите да се подреждат изцяло по тяхната честота на поява в хит-листа. Това на практика означава предимство за по-разпространените подструктури в хит-листа и напълно отговаря на опита на специалистите по ИЧ спектроскопия, за които съединенията от хит-листа, взети заедно са една добра оценка на структурата на неизвестното вещество.

От друга страна, подструктурите с по-висока честота на поява имат и по-голяма статистическа значимост като резултати. Да предположим, че сме подбрали случайно 50 спектъра от цялата библиотека (13484 спектъра) и те съставят хит-листа. Ако честотата на срещане на дадена подструктура в библиотеката е p, то се очаква приблизително същата честота и в избрания хит-лист, понеже той е случайна извадка от библиотеката. Вероятността за наличие на k подструктури в хит-лист от n спектъра се дава приблизително с биноминалното разпределение:

p(k)= [n! / (k!(n-k)!)] pk (1-p)n-k (21)

Нарастването на честотата на срещане на подструктурата в хит-листа, k/n, над дадена граница показва, че хит-листът не е случайна извадка от библиотеката, а е подбран по специални критерии, които облагодетелствуват появата на разглежданата подструктура в хит-листа. Един от тези критерии е приликата на търсения спектър с тези от хит-листа - прилика, която се пренася и върху съответните структури. Ако подструктурата се среща nj пъти, то сумата от уравнение (22) дава вероятността за грешка от първи род, т.е. когато нулевата хипотеза (хит-листът е случайно избран) е вярна, а ние я отхвърляме*. Ако имаме много малка стойност на то можем да отхвърлим нулевата хипотеза и да приемем, че подструктурата се среща в хит-листа поради някакви обективни причини.

= p(k); k = ni ... n (22)

В приложение 1 са дадени стойностите на нивото на значимост за различни честоти на поява на подструктурата в библиотеката и в хит-листа. Например, за първата подструктура от фигура 13 р = 2682/13484 = 19.9%, k/n = 48/50 = 96%, при което от приложението намираме = 0.0000, а изчислената стойност по уравне-ния (21) и (22) е 10  31. За всичките подструктури от фигурата най-висока стойност на нивото на значимост, = 0.0002, е за 12та подструк-тура, която присъства в 3909 съединения от библиотеката. Проведените експерименти със спектрите на други съединения показват, че всички получавани характеристични структури (18 на брой) са статистически значими със < 0.001.

Подструктурите от фигура 13 могат да се използват за разкриване на структурата на изследваното съединение. За целта е необходимо те да бъдат поставени в списъка на присъстващите подструктури (GOODLIST) на програмата MolGen. В трета колона на таблица 17 е даден броят на генерираните структури при увеличаване на броя на подструктурите в списъка GOODLIST. Вижда се, че при използване на първите пет характеристични подструктури броят на изомерите намалява до един - в случая правилната структура на изследваното съединение. Редуцирането на броя на възможните изомери (даже до един) може да се извърши дори с некоректни подструктури, но в този случай правилната структура не е сред генерираните от програмата. Единственият начин, когато може да се открие некоректна подструктура в GOODLIST е при получаване на нула изомера на изхода от програмата MolGen.

При генериране на всички изомери с молекулната формула на бутиролактона (C4H6O2) без никакви ограничения се получават 263 изомера. Във втора колона са дадени резултати с използване на само по една от подструктурите: те показват доколко отделните характеристични подструктури са богати на структурна информация. Подструктурите с по-висока честота са по-малки и като правило те съдържат много малка част от структурната информация, т.е. съществува известна зависимост между техния размер и броя на получаваните изомери [140], но по-важна роля играят броят на свободните валентности на характеристичната подструктура, както и наличието в тях на елементи, които участват с по-малки коефициенти в молекулната формула [140]. Въпреки че всяка от структурите редуцира по няколко пъти броя на изомерите (напр. 263/9  29 пъти) тяхното общо използване намалява много бавно общия брой на изомерите - сравн. трета колона. Причина за това е, че характерис-тичните подструктури имат много общи структурни части, а даже някои от тях са подструктури на останалите. Въпросът дали е уместно да се редуцира броят на подструктурите чрез премахването им и получаването на сбит списък от характеристични структури не може да се реши директно, защото е възможно дадена малка подструктура да е коректна, а голямата, която я съдържа да не е. Единствено, ако се намери независим начин за определяне на верността на характеристичните подструктури е възможно премахването на тази част от тях. Въпреки това в следващите фигури ние сме представили сбити списъци от характеристични подструктури, понеже целта, която преследваме е сравняване на различни подходи, а не генериране на вярната структура.









брой на генерираните изомери

j

подструктура j

в GOODLIST



подструктури 1 до j

в GOODLIST



1

9




2

72

7

3

9

4

4

3

3

5

5

1




Таблица 17. Използване на хактерис-тичните подструктури в програмата MolGen за генериране на възможната структура на изследваното съединение.



49 Y

43 Y

42 Y

40 Y

37 Y











36 Y

32 Y

28 N

28 N

27 N











27 N

26 Y

25 N

24 N

23 N















Фигура 14. Първите 15 характеристични подструктури, намерени при обработката на хит-лист от 50 структури, получен при търсене на спектъра на бутиролактон. Броят на водородните атоми при тежките атоми е отчитан при сравнение на структурите. Означенията са както на фигура 12.

В заключение ще отбележим, че предложеният метод за анализ на структурите на хит-листа е едно разширение на стандартните методи на kте най-близки съседа и на потенциалите. За разлика от тях получаваните при този метод подструктури не са предварително дефинирани от изследователя, а са резултат на естествен анализ на общите структурни елементи в съединенията от хит-листа. По този начин те са по-добри като оценка на структурата, понеже не се основават на субективните представи на химика за основните структурни елементи (функции) в химичните съединения.



Описаният метод има два недостатъка: (1) резултатите от анализа се влияят от междуструктурните корелации в използваната библиотека като последните не могат да се оценят статистически точно, и (2) за разлика от другите хемометрични методи резултатите са само положителни, т.е. не може да се докаже отсъствието на дадена химична подструктура. Трябва да се отбележи, че и другите класификационни методи се влияят от междуструктурните корелации в използваната обучаваща извадка (която е аналог/част от библиотеката), така че първият недостатък е общ проблем на всички хемометрични методи. Вторият проблем се тушира в известна степен от факта, че в ИЧ спектроскопия, като правило повечето методи за интерпретация дават с по-голяма достоверност информация за отсъствието на дадена подструктура, отколкото за нейното присъствие.

3. Методи за търсене в библиотеки от ИЧ спектри
Литература

  1. Gray, N. A. B.; Computer-Assisted Structure Elucidation. John Wiley, New York, 1986.

  2. Munk, M. E.; Computer-Based Structure Determination: Then and Now. J. Chem. Inf. Comput. Sci., 38, 997-1009 (1998).

  3. Luinge, H.J.; J.H. Van der Maas; Expert Systems for Automated Interpretation of Molecular Spectra, pp. 25-36. in: W.O. George, H.A. Willis (Eds.); Computer Methods in UV, Visible and IR Spectroscopy. Royal Society of Chemistry, London, 1990.

  4. Korytko, A.; Schulz, K.-P.; Madison, M. S.; Munk, M. E.; HOUDINI: A New Approach to Computer-Based Structure Generation. J. Chem. Inf. Comput. Sci., 43, 1434-1446 (2003).

  5. Judge, Kevin; Chris W. Brown; Lutz Hamel; Sensitivity of Infrared Spectra to Chemical Functional Groups. Anal. Chem. 2008, 80, 4186–4192

  6. Luinge, H.J.; Automated Interpretation of Vibrational Spectra. Vib. Spectrosc., 1, 3-18 (1990).

  7. Hemmer, M.; J. Aires-de-Sousa; Structure-Spectra Correlations: in J. Gasteiger and T. Engel (Eds.), Chemoinformatics. Wiley-VCH, Berlin 2003.

  8. Varmuza, K.; P. Penchev; H. Scsibrany; Maximum Common Substructures of Organic compounds Exhibiting Similar Infrared Spectra. J. Chem. Inform. Comput. Sci., 38, 420-427 (1998).

  9. Brint, Andrew T.; Peter Willett. Algorithms for the Identification of Three-Dimensional Maximal Common Substructures. J. Chem. Inf. Comput. Sci., 27, 152-158 (1987).

  10. Yuan, Shengang; Chongzhi Zheng; Identification of maximal common substructures in structure/ activity studies. Anal. Chim. Acta, 235, 239-241 (1990).

  11. Stahl, Martin; Harald Mauser; Database Clustering with a Combination of Fingerprint and Maximum Common Substructure Methods. J. Chem. Inf. Model., 45, 542-548 (2005).

  12. Cone, Michael M.; Rengachari Venkataraghavan; Fred W. McLafferty; Computer-aided interpretation of mass spectra. 20. Molecular structure comparison program for the identification of maximal common substructures. J. Am. Chem. Soc., 99, 7668-7671 (1977).

  13. Chen, L.; Robien, W.; Application of the Maximum Common Substructure Algorithm to Automatic Interpretation of 13C.-NMR Spectra. J. Chem. Inf. Comput. Sci., 34, 934-941 (1994).

  14. Varmuza, K.; P.N. Penchev, H. Scsibrany; Large and Frequently Occurring Substructures in Organic Compounds Obtained by Library Search of Infrared Spectra. Vib. Spectrosc., 19, 407-412 (1999).

  15. Penchev, Plamen N.; Kurt Varmuza; Characteristic substructures in sets of organic compounds with similar infrared spectra. Comp. & Chem., 25, 231–237 (2001).

  16. Varmuza, Kurt; Nikolay T. Kochev; Plamen N. Penchev; Evaluation of Hitlists from IR Library Searches by the Concept of Maximum Common Substructures. Anal. Sci., 17, i659-i662 (2001).

  17. D.E. Rumelhart (Ed.); Parallel Distributed Processing. MIT Press, Cambfidge, USA, 1986.

  18. T. Kohonen; Self-Organization and Associative Memory. Springer Verlag, Berlin, 1988.

  19. Zupan, J.; Gasteiger, J.; Neural Networks in Chemisty and Drug Design. Willey-VCH, Weinheim, 1999.

  20. Penchev, P.N.; G.N. Andreev; K. Varmuza; Automatic Classification of Infrared Spectra Using a Set of Improved Expert-based Features. Anal. Chim. Acta, 388, 145-159 (1999).

  21. Massart, D.L.; B.G.M. Vandeginste; S.N. Deming; Y. Michote; L. Kaufman; Chemometrics: A Textbook. Elsevier, Amsterdam, 1988.

  22. Penchev P.N.; A.N. Sohou; G.N. Andreev; Description and Performance Analyses of An Infrared Library Search System. Spectroscopy Letters, 29, 1513-1522 (1996).

  23. Bremser, W.; Structure Elucidation and Artificial Intelligence. Angew. Chem. Int. Ed. Engl., 27, 247-260 (1988).

  24. Shelley, C.A.; Munk, M.E. Computer Prediction of Substructures from Carbon-13 Nuclear Magnetic Resonance Spectra. Anal. Chem. 54, 516-521 (1982).

  25. Ewen Smith and Geoffrey Dent; Modern Raman Spectroscopy – A Practical Approach. John Wiley & Sons, Chichester, 2005.

  26. Hippe, Z.; A conceptual challenge: multispectroscopy expert systems in structure elucidation, pp. 64-91, in: J. Zupan (Ed.); Computer-supported Spectroscopic Data Bases. Ellis Horwood, Chichester, UK, 1986.

  27. Klawun, C.; C.L. Wilkins; Joint neural network interpretation of infrared and mass spectra. J. Chem. Inform. Comput. Sci., 36, 249-257 (1996).

  28. Munk, M.E.; M.S. Madison; E.W. Robb; The neural network as a tool for multispectral interpretation. J. Chem. Inform. Comput. Sci., 36, 231-238 (1996).

  29. Varmuza, K.; P. Penchev; F. Stancl; W. Werther; Systematic structure elucidation of organic compounds by mass spectra classification. J. Mol. Struc., 408/409, 91-96 (1997).




* Става въпрос за едностранна постановка на задачата (one sided test), понеже е без-смислено да разглеждаме nj /n < p.




Сподели с приятели:
1   2   3




©obuch.info 2024
отнасят до администрацията

    Начална страница