Светослав Симеонов Симеонов, Стопански факултет, су „Св. Климент Охридски”



Дата28.03.2017
Размер95.02 Kb.
Използване на някои статистически модели за оценка на кредитоспособност
Светослав Симеонов Симеонов, Стопански факултет,

СУ „Св. Климент Охридски”

___________________________________________________________________________


Резюме

През последните няколко десетилетия кредитния скоринг набра широка популярност поради развитието както на аналитичните техники, така и на пазарите за банково и небанково финансиране. Изкуствените невронни мрежи са една от добрите алтернативи тъй като притежават отлични възможности да „запомнят” и обобщават информацията и резултатите от нея. От своя страна, приложението на невронните мрежи за анализ на кредитоспособност често е критикувано поради трудности в избора на структурата на мрежата, значимостта на входящите променливи и дългия период на самообучение. Целта на статията е да провери приложението в областта на оценка на кредитоспособността на един интегриран подход между невронна мрежа и дискриминантен анализ. За целта на изследването са използвани данни от кредитната история на банка. Точността при оценката на така формирания метод надвишава тази на традиционната логистична регресия и дисриминантния анализ, като освен това времето за обучение е значително по-кратко.


Ключови думи: кредит скоринг, дискриминантен анализ, невронни мрежи

___________________________________________________________________________




  1. Въведение

В исторически план отпускането на кредит или предоставянето на финансови средства под някаква форма винаги е било свързано с познаване на страната, която получава паричния ресурс. Клиентите на финансовите институции са били третирани индивидуално, като за целта благодарение на причинно следствени връзки и зависимости се създават определени правила и практики, които подпомагат вземането на решение, допълвани от опита и рутината на взамащия решение.

В края на 60-те години на миналия век с постепенното навлизане на нови масови продукти в потребителското кредитиране в САЩ се заражда и необходимостта от автоматизирани модели за бърза и надеждна оценка при вземането на решение на кого да бъде отпуснат финансов ресурс и в какъв размер. В допълнение, двуцифрените темпове на растеж, генериращи огромни обеми от информация, сериозната конкуренция и стремежът към по-добри бизнес практики налагат допълнително да се развие инструментариум за количествена оценка на риска. По този начин с течение на времето започват да се формират математически и статистически техники – известни като скоринг модели, които заемат ключово място в процеса на оценка на кредитоспособността. По своята същност това са класификационни задачи при определени допускания и първоначални параметри (Anderson, 1984; Dillion & Goldstein, 1984; Hand, 1981; Johnson & Wichern, 1998; Morrison, 1990). В резултат различни статистически методи, непараметрични статистики и модели с елементи на изкуствен интелект се въвеждат на различните етапи в развитието на кредитния скоринг.

Първоначално за моделиране се използва линейния дискриминантен анализ, който търпи критики по отношение на допускането за категориен характер на променливите и сходство на ковариационните матрици на класовете „добри” и „лоши” кредитополучатели (Reichert, Cho, & Wagner, 1983). Като алтернатива, логистичната регресия също дава добри резултати при оценката обаче на дихотомни резултати. През 80-те години Harrell and Lee (1985) правейки редица изследвания стигат до извода, че логистичната регресия има същата ефективност като тази на дискриминантния анализ. През последните две десетилетия се развиват невронните мрежи, за да се справят с по-сложни нелинейни връзки между зависимите и независимите променливи. Тази им способност ги прави по-удачен инструмент от горепосочените две техники (Desai, Conway, & Overstreet, 1997; Desai, Crook, & Overstreet, 1996; Jensen, 1992; Piramuthu, 1999; West, 2000), но сравнително дългото време за самообучение и намиране на оптималната структура на мрежата често се явява пречка пред широката й употреба. В опит да се преодолее този недостатък, ще разгледаме двуфазен процес, съчетаващ първо дискриминантен анализ за селектиране на най-подходящия набор от променливи и второ класическа невронна мрежа за оценка на качеството кредитоспособност. За по-голяма прецизност допълнително вкарваме класифицираните резултати от дискриминантния анализ към входния слой, и разглеждаме сравнение на 4-те техники, а именно: дискриминантен анализ, логистична регресия, невронна мрежа и хибриден модел на невронна мрежа и дискриминантен анализ.


  1. Изследователска методология и преглед на литературата

2.1 Дискриминантен анализ

Като средство за класификация, дискриминантния анализ е предложен за първи път от Фишер през 1930. Според определени характеристики на обясняващите променливи, този метод търси най-добрата линейна комбинация за да класифицира изучаваните обекти в две или повече групи при оптимална акуратност (Cooper & Emory, 1995; Dillion & Goldstein, 1984; Johnson & Wichern, 1998). От статистическа гледна точка за да е най-прецизен крайния резултат, променливите следва да бъдат независими и нормално разпределени.

Линейният дискриминантен анализ може да бъде изразен като:
D = b0 + b1X1 + b2X2 + · · · + bnXn
2.2 Логистична регресия

Логистичната регресия не изисква непременно сбъдване на допусканията от дискриминантния анализ. Изследвания показват, че логистичната регресия дава идентични като точност резултати, дори и тези допускания да са валидни (Harrell and Lee 1985).

Логистичната регресия може да се представи като:
Log(p/(1-p)) = b0 + b1x1 + b2x2 + · · · + bixi


    1. Невронни мрежи

Невронните мрежи следват или поне опитват да следват модела на процесите в човешкия мозък. Най-общо една невронна мрежа се състои от: входящи променливи, изходящи променливи, неврони, структура на мрежата, която описва връзките между невроните, алгоритъм на самообучение, който описва теглата на параметрите на невронната мрежа. Невроните трансформират входящата информация в изходяща посредством определена функционална зависимост, най-често монотонна. В допълнение невроните са организирани в различни слоеве, като съществуват връзки само между неврони от различни слоеве, но не и от неврони в един и същ слой.

Лесен начин за представяне на невронна мрежа с един скрит слой е следната графика (Rumelhart, Hinton, & Williams, 1986):



Невронните мрежи традиционно моделират добре нестационарни процеси именно поради вградената си способност за „запомняне” и обобщаваща способност.




  1. Емпирични изследвания

За изследване на резултатите от моделите използваме база данни от притежатели на кредитни карти, съдържаща 9 обясняващи променливи: пол, възраст, семейно положение, образование, професия, статус във фирмената йерархия, местоживеене, годишен доход и експозиция. Променливата, която изследваме – нивото на кредитоспособността – има две възможни състояния: „добро” или „лошо”. Общият брой на всички наблюдения е 6,000, като 4,000 от тях се използват за построяване на модела, а 2,000 – за неговата валидация.
3.1 Дискриминантен анализ

Използва се стъпковия дискриминантен подход (Johnson & Wichern, 1998; Neter et al., 1996). 6 значими променливи са избрани за финалната дискриминационна функция, а именно: пол, възраст, професия, местоживеене, годишен доход и експозиция.


3.2 Логистична регресия

Използва се стъпкова логистична регресия (Neter et al., 1996), при която се открояват 4 значими променливи – пол, възраст, годишен доход и експозиция.


3.3 Невронни мрежи

Използва се невронна мрежа с един скрит слой, тъй като Cybenko (1989) и Hornik et al. (1989) препоръчват употребата именно на такава, поради факта, че е достатъчна да моделира сложна система с произволно високо ниво на точност. Входящите променливи са 9, а изходящата 1.


3.4 Хибриден дискриминантно невронен модел

В този случай входящите променливи са 7 – шест от дискриминантния анализ заедно с резултата от самия дискриминантен анализ.


Обобщените резултати от проведените анализи са представени в следващите таблици. При тестване на моделите е нужно да се отбележи, че съществуват два типа грешки при класификацията: грешка от тип І и грешка от тип ІІ. Грешка от тип І – добър кредитополучател е погрешно квалифициран като лош и грешка от тип ІІ – лош кредитополучател е погрешно квалифициран като добър. За целите на сравнителния анализ по-значимия тип грешка е естествено тази от тип ІІ.
Таблица 1: Обобщени резултати на всички модели – коректност на предсказване

Дискриминантен анализ

71,40%

Логистична регресия

73,45%

Невронна мрежа

73,70%

Хибриден модел на дискриминантен анализ и невронна мрежа

77,00%


Таблица 2: Грешки от Тип І и Тип ІІ при всички модели

Модел

Тип І

Тип ІІ

Дискриминантен анализ

25,43%

31,71%

Логистична регресия

23,81%

29,24%

Невронна мрежа

14,73%

37,66%

Хибриден модел на дискриминантен анализ и невронна мрежа

18,47%

27,45%


Таблица 3: Хибриден модел на дискриминантен анализ и невронна мрежа

Класифицирано състояние

Добър кредит

Лош кредит

Реално състояние







Добър кредит

808 (81,53%)

183 (18,47%)

Лош кредит

277 (27,45%)

732 (72,55%)

Среден процент на правилна класификация: 77,00%

Хибридният модел не само дава по-добри резултати, но и по-ниско ниво на грешка от Тип ІІ.


  1. Заключения и възможности за бъдещи изследвания

Кредитният скоринг има и ще има все по-значимо място в цялостните оценки на риска във финансовите институции с оглед на засилващата се конкуренция между последните от една страна и нуждата от качествени системи за оценка на риска от друга. В момента все повече компании търсят по-добри стратегии за управление на кредитните си портфейли с помощта именно на кредит скоринг техники. Поради тази причина развитието както на чисто статистически модели, така и на модели с елементи на изкуствен интелект, наред с мощни софтуерни платформи бележи постоянен ръст. Безспорно най-използваният метод в полето на оценката на кредитоспособността – като задача за класифициране на обекти – е дискриминантния анализ, често критикуван заради необходимостта от редица първоначални допускания. Невронните мрежи, от друга страна, бидейки също много често използван метод имат недостатъка да се самообучават дълго. Комбинирайки двата подхода постигаме резултат, който дава по-точни резултати и при това за по-кратко време. В новия двуфазен хибриден модел първо посредством дискриминантен анализ се определя класифициращата сила на променливите, като след това най-значимите от тях се използват за входящи променливи в модела на невронната мрежа. По този начин статистическия инструментариум помага да се намали броя на променливите, ускорявайки допълнително процеса на намиране на решение. Наред с това, резултатите от дискриминантния анализ се добавят към входния слой, за да дадат по-добро първоначално решение, увеличавайки прецизността на невронната мрежа.

Насоки за бъдещи изследвания могат да бъдат включване на резултати от други статистически техники – класификационни и регресионни дървета (CART), мултивариативни адаптивни регресионни шпонки (MARS) като алтернатива на дискриминантния анализ. Така също към невронните мрежи биха могли да бъдат интегрирани и други техники с елементи на изкуствен интелект – размит дискриминантен анализ, генетични алгоритми, сивата теория и т.н. Като поле за приложение, аналитичният инструментариум може да се разпростре и върху области като: анализ на клиентската лоялност, сегментация на популации, анализ на пазарна кошница, предотвратяване на измамни транзакции и др.


Литература:

Anderson, J. A., & Rosenfeld, E. (1988). Neurocomputing: Foundations of research. Cambridge: MIT Press.

Arminger, G., Enache, D., & Bonne, T. (1997). Analyzing credit risk data: A comparison of logistic discriminant classification tree analysis and feedforward networks. Computational Statistics, 12, 293–310.

Bardos, M. (1998). Detecting the risk of company failure at the Banque de France. Journal of Banking and Finance, 22, 1405–1419.

Barney, D. K., Graves, O. F., & Johnson, J. D. (1999). The farmers home administration and farm debt failure prediction. Journal of Accounting and Public Policy, 18, 99–139.

Borowsky, M. (1995). Scoring puts up higher numbers. US Banker, 105(1), 63.

Cheng, B., & Titterington, D. M. (1994). Neural network: A review from a statistical perspective (with discussion). Statistical Science, 9, 2–54.

Chung, H. M., & Gray, P. (1999). Special section: Data mining. Journal of Management Information Systems, 16, 11–16.

Cooper, D. R., & Emory, C. W. (1995). Business research method. Orlando, FL: Dryden.

Cox, D. R. (1970). Analysis of binary data. London: Methuen.

Craven, M. W., & Shavlik, J. W. (1997). Using neural networks for data mining. Future Generation Computer Systems, 13, 221–229.

Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematical Control Signal Systems, 2, 303–314.

Davies, P. C. (1994). Design issues in neural network development. Neurovest, 5, 21–25.

Deng, P.-S. (1993). Automatic knowledge acquisition and refinement for decision support: A connectionist inductive inference model. Decision Sciences, 24(2), 371–393.

Desai, V. S., Conway, J. N., & Overstreet, G. A., Jr. (1997). Credit scoring models in the credit union environment using neural networks and genetic algorithms. IMA Journal of Mathematics Applied in Business and Industry, 8, 324–346.

Dillon, W. R., & Goldstein, M. (1984). Multivariate analysis methods and applications. New York: Wiley.

Eisenbeis, R. A. (1978). Problems in applying discriminant analysis in credit scoring models. Journal of Banking and Finance, 2, 205–219.

Falbo, P. (1991). Credit scoring by enlarged discriminant analysis. OMEGA, 19(4), 275–289.

Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, 179–188.

Glorfeld, L. W., & Hardgrave, B. C. (1996). An improved method for developing neural networks—The case of evaluating commercial loan creditworthiness. Computers and Operations Research, 23(10), 933–944.

Grablowsky, B. J., & Talley, W. K. (1981). Probit and discriminant factors for classifying credit applicants: A comparison. Journal of Economics and Business, 33, 254–261.

Hand, D. J., & Henley, W. E. (1997). Statistical classification methods in consumer credit scoring: A review. Journal of the Royal Statistical Society, Series A, 160(3), 523–541.

Harrell, F. E., & Lee, K. L. (1985). A comparison of the discrimination of discriminant analysis and logistic regression. In P. K. Se (Ed.), Biostatistics: Statistics in biomedical, public health, and environmental sciences. Amsterdam: North-Holland.

Haykin, S. S. (1994). Neural networks: A comprehensive foundation. New York, NY: Macmillan.

Hecht-Nielsen, R. (1990). Neurocomputing. Menlo Park, CA: Addison-Wesley.

Henley, W. E. (1995). Statistical aspects of credit scoring. Doctoral Dissertation. Milton Keynes, UK: The Open University.

Hornik, K., Stinchcombe, M., & White, H. (1989). Multilayer feedforward networks are universal approximations. Neural Networks, 2, 336–359.

Hosmer, D. W., & Lemeshow, S. (1989). Applied logistic regression. New York: Wiley.

Jagielska, I., & Jaworski, J. (1996). Neural network for predicting the performance of credit card accounts. Computational Economics, 9(1), 77–82.

Jensen, H. L. (1992). Using neural networks for credit scoring. Managerial Finance, 18, 15–26.

Joanes, D. N. (1993). Rejecting inference applied to logistic regression for credit scoring. IMA Journal of Mathematics Applied in Business and Industry, 5, 35–43.

Johnson, R. A., & Wichern, D. W. (1998). Applied multivariate statistical analysis (Fourth Edition). Upper Saddle River, NJ: Prentice-Hall.

Kang, S. (1991). An investigation of the use of feedforward neural networks for forecasting. PhD Thesis. Kent State University.

Kay, O. W., Warde, A., & Martens, L. (2000). Social differentiation and the market for eating out in the UK. International Journal of Hospitality Management, 19(2), 173–190.

Kim, J. C., Kim, D. H., Kim, J. J., Ye, J. S., & Lee, H. S. (2000). Segmenting the Korean housing market using multiple discriminant analysis. Construction Management and Economics, 18, 45–54.

Laitinen, E. K., & Laitinen, T. (2000). Bankruptcy prediction: Application of the Taylor’s expansion in logistic regression. International Review of Financial Analysis, 9(4), 327–349.

Lee, G., Sung, T. K., & Chang, N. (1999). Dynamics of modeling in data mining: interpretive approach to bankruptcy prediction. Journal of Management Information Systems, 16, 63–85.

Lippmann, R. P. (1987). An introduction to computing with neural nets. IEEE ASSP Magazine, 4–22.

Martell, T. F., & Fitts, R. L. (1981). A quadratic discriminant analysis of bank credit card user characteristics. Journal of Economics and Business, 33, 153–159.

Morrison, D. F. (1990). Multivariate statistical methods. New York, NY: McGraw-Hill.

Neter, J., Kutner, M. H., Nachtsheim, C. J., & Wasserman, W. (1996). Applied linear statistical models. Chicago, IL: Irwin.

Overstreet, G. A., Jr., Bradley, E. L., Jr. (1994). Applicability of generic linear scoring models in the USA credit union environment: Further analysis. Working Paper, University of Virginia.

Overstreet, G. A., Jr., Bradley, E. L., Jr., & Kemp, R. S. (1992). The T.-S. Lee et al. / Expert Systems with Applications 23 (2002) 245–254 253 flat-maximum effect and generic linear scoring model: A test. IMA

Journal of Mathematics Applied in Business and Industry, 4, 97–109. Pampel, F. C. (2000). Logistic regression—A premier. Thousand Oaks, CA: Sage.

Piramuthu, S. (1999). Financial credit-risk evaluation with neural and neurofuzzy systems. European Journal of Operational Research, 112, 310–321.

Piramuthu, S., Shaw, M. J., & Gentry, J. A. (1994). A classification approach using multi-layered neural networks. Decision Support Systems, 11(5), 509–525.

Reichert, A. K., Cho, C. C., & Wagner, G. M. (1983). An examination of the conceptual issues involved in developing credit-scoring models.

Journal of Business and Economic Statistics, 1, 101–114.

Repley, B. (1994). Neural networks and related methods for classification (with discussion). Journal of the Royal Statistical Society, Series B, 56, 409–456. Richeson, L., Zimmermann, R. A., & Barnett, K. G. (1994). Predicting consumer credit performance: Can neural networks outperform traditional statistical methods? International Journal of Applied Expert Systems, 2(2), 116–130.

Robins, G. (1993). Credit scoring: Can retailers benefit from neural networks? Stores, 34–35.

Rumelhart, D. E., Hinton, D. E., & Williams, R. J. (1986) (Vol. 1). Learning internal representations by error propagation in parallel distributed processing, Cambridge, MA: MIT Press, pp. 318–362.

Sanchez, M. S., & Sarabia, L. A. (1995). Efficiency of multi-layered feedforward neural networks on classification in relation to linear discriminant analysis, quadratic discriminant analysis and regularized discriminant analysis. Chemometrics and Intelligent Laboratory Systems, 28, 287–303.

Stern, H. S. (1996). Neural networks in applied statistics. Technometrics, 38(3), 205–216.

Suh, E. H., Noh, K. C., & Suh, C. K. (1999). Customer list segmentation using the combined response model. Expert Systems with Applications, 17(2), 89–97.

Tang, Z., & Fishwick, P. A. (1993). Feedforward neural nets as models for time series forecasting. ORSA Journal on Computing, 5, 374–385.

Thomas, L. C. (2000). A survey of credit and behavioral scoring: Forecasting financial risks of lending to customers. International Journal of Forecasting, 16, 149–172.

Titterington, D. M. (1992). Discriminant analysis and related topics. In J. N. Crook, & D. B. Edelman (Eds.), Credit scoring and credit control (pp. 53–73). Oxford: Oxford University Press.

Torsun, I. S. (1996). A neural network for a loan application scoring system. The New Review of Applied Expert Systems, 2, 47–62.

Trevino, L. J., & Daniels, J. D. (1995). FDI theory and foreign direct investment in the United States: A comparison of investors and noninvestors.

International Business Review, 4, 177–194. Vellido, A., Lisboa, P. J. G., & Vaughan, J. (1999). Neural networks in business: A survey of applications (1992–1998). Expert Systems With

Applications, 17, 51–70. West, D. (2000). Neural network credit scoring models. Computers and Operations Research, 27, 1131–1152.

Westgaard, S., & van der Wijst, N. (2001). Default probabilities in a corporate bank Portfolio: A logistic model approach. European Journal of Operational Research, 135(2), 338–349.

Wiginton, J. C. (1980). A note on the comparison of logit and discriminant models of consumer credit behavior. Journal of Financial and Quantitative Analysis, 15, 757–770.

Williamson, A. G. (1995). Refining a neural network credit application system with a genetic algorithm. Journal of Microcomputer Applications, 18, 261–277.

Wong, F. S. (1991). Time series forecasting using backpropagation neural networks. Neurocomputing, 2, 147–159.

Wong, B. K., Bodnovich, A. T., & Selvi, Y. (1997). Neural network applications in business: a review and analysis of the literature (1988–1995). Decision Support Systems, 19, 301–320.



Zhang, G., Patuwo, B. E., & Hu, M. Y. (1998). Forecasting with artificial neural networks: The state of the art. International Journal of Forecasting, 14, 35–62.




База данных защищена авторским правом ©obuch.info 2016
отнасят до администрацията

    Начална страница