Лекции: „Избрани теми от Биоматематиката”



Дата30.11.2018
Размер57.27 Kb.
#106165

Лекции: „Избрани теми от Биоматематиката”


(Т. Боев)


Метод на най-малките квадрати – пресмятане на регресионни коефициенти (проста/двуфакторна нехомогенна линейна регресия).
1. Постановка.

Дадени са точките P1(x1,y1), P2(x2,y2), P3(x3,y3), …, Pn-1(xn-1,yn-1), Pn(xn,yn), чиито координати x1, x2, x3,..., xn-1, xn и y1, y2, y3,... yn-1, yn са получени като стойности от n на брой измервания на двойка величини x, y. Търсейки дали има линейна връзка между величините x и y (според измерените стойности), т.е. напр. y да е линейна функция на x , да разгледаме произволна права с декартово уравнение y = αx + β.


През всяка точка Pj (j = 1, 2, ...., n) прекарваме вертикална права (т.е. успоредна на Oy) до пресичането й с правата y = αx + β в т. Pj* (xj , yj*); ясно е, че yj* = αxj + β.

Ще потърсим такава права y = αx + β, че сумата на квадратите на разстоянията |PjPj*|, т.е. сумата |P1P1*|2 + |P2P2*|2 + ... + |PnPn*|2 да е минимална. Понеже |PjPj*|2 = (y– αxj    β)2 , очевидно горната сума е всъщност следната формула:


F(α,β) = (y– αx1    β)2 + (y– αx2    β)2 + (y– αx3    β)2 + … + (y– αxn    β)2.

Търсената права, с гореспоменатото минимално свойство, ще наричаме регресионна права, а коефициентите й α и β - регресионни коефициенти. В така поставената задача се търсят всъщност такива стойности α0 и β0, че F(α00) = min F(α,β), т.е. в двумерната точка (α00) функцията F да има минимум.

2. Корелационен коефициент – оценка на линейността.
Средните стойности на величините , ще означаваме съответно с , ; всяка от тях накратко наричаме средно на (за) съответната група величини, т.е. средните на величините , съответно са:

Разликите , наричаме отклонения от средното (за стойностите на величината x, съответно y – т.е. стойностите , ).

Следната сума от произведения,

,

наричаме ковариация на (стойностите на) величините x, y. Ковариацията има ясен геометричен смисъл: стойностите , на съответните отклонения разглеждаме като координати на двойка вектори; тогава ковариацията е всъщност скаларното произведение на тези вектори.

Дължините на гореспоменатите вектори (както е известно от аналитичната геометрия) съответно са: и . Да нормираме разглежданите вектори – означава да разделим съответния вектор на дължината му, т.е. да образуваме нова двойка вектори – с координати съответно

, .

Сега скаларното произведение на така построените “единични” вектори (с дължина 1), т.е. величината



наричаме коефициент на корелация (накратко – корелация) на (стойностите на) величините x и y.



Коментар. Да означим за удобство построените по-горе “единични” вектори съответно с и ; имаме, че , където е скаларното произведение на векторите и . От 3-мерния случай (т.е. при ) знаем, че ( е ъгълът между векторите и ). Следователно (понеже ) и векторите са почти колинеарни (успоредни), когато , т.е. . Предвид аналогията на общия случай ( ) с 3-мерния, последното означава, че векторът с координати е почти успореден на този с координати , когато за корелацията имаме: . От тук не е трудно да заключим, че между данните и имаме “почти” линейна зависимост, когато ; тогава има смисъл да пристъпим към изчисляване на регресионните коефициенти , и при произволни допълнително получени (измерени) стойности на величината x да работим с данни за величината y, изчислени от (чрез) “линейния модел” (т.е. – със стойности ), вместо да измерваме нови експериментални данни .Когато , казваме, че (данните за) величините x и y корелират, или че са в корелация (има корелация между тях). Когато (тогава и ковариацията е почти нула -- векторите са почти перпендикулярни), по същество няма линейна връзка между величините x и y (съдейки по изходните измерени данни и ); тогава нямаме основание да започваме пресмятания за , . В такъв случай заключението е, че величините не корелират и може да се търси друг тип (вече нелинейна) зависимост между тях.

Чрез елементарни алгебрични преобразования не е трудно да преработим формулата за корелацията (дадена по-горе) във вида:


(2.1) .
Забележка. Пълният отговор на въпроса за прецизното оценяване дали е “достатъчно” близо до 1 изисква един значителен статистически анализ, какъвто не е предвиден в настоящото изложение. Широко достъпен е обаче необходимият софтуер за осъществяване на цялостен регресионен анализ, основан на по-широк обхват познания по статистика.
3. Едно приложение – “Песента на щурците”.
Тук ще разгледаме накратко решението на един вече класически въпрос (в биологичните изследвания) – има ли линейна зависимост между честотата на цвъртенията на даден вид скакалци и температурата на въздуха – известен като Песента на щурците. Положителният отговор на този въпрос е даден през 1948 г. от група американски биолози от Harvard College, коита са провели експеримент със скакалци от типа земен щурец на райета. Данните от експеримента поместваме в следната таблица:

С x и y в таблицата са означени съответно температурата в -градуси (по Фаренхайт) и броят цвъртения в секунда (регистрирани при съответната температура). Забележка. Регистрирането на цвъртенията се извършва чрез специализирана апаратура, която автоматично брои импулси в зададен честотен диапазон. При горните данни имаме следната


Постановка на проблема:
1). Да се оцени линейността на модела – т.е.да се пресметне корелацията между x и y по данните от таблицата;

2). Да се намери уравнението на регресионната права;

3). Да се определи очакваният брой цвъртения/сек. при нови температури – напр. при .

4). Да се определи температурата, ако са регистрирани даден брой (напр. 18) цвъртения/сек.


С помощта на калкулатор, използвайки в частност формула (2.1), съгласно данните от таблицата можем да получим следното:

Обсъждане. Полученото за r показва, че имаме силно изразена корелация (линейна зависимост) между изследваните величини. Следователно за по-нататъшни цели можем да си служим с линейния модел . Чрез него можем да отговорим на въпросите от 3) и 4).





Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница