Высшая Mатематика Решение задач и примеров - OnLine
./ Главная /Корреляция, ковариация, линейная регрессия, ШАГ-1/Пример >

Пример вычисления корреляции, построения линейной регрессии и проверки гипотезы зависимости двух СВ нашим сервисом:



Заметьте! Решение вашей конкретной задачи будет выглядеть аналогично данному примеру, включая все таблицы и поясняющие тексты, представленные ниже, но с учетом ваших исходных данных…


Задача:
Имеется связанная выборка из 26 пар значений (хk,yk):
k   1 2 3 4 5 6 7 8 9 10
xk    25.20000   26.40000   26.00000   25.80000   24.90000   25.70000   25.70000   25.70000   26.10000   25.80000
yk  30.80000   29.40000   30.20000   30.50000   31.40000   30.30000   30.40000   30.50000   29.90000   30.40000

k   11 12 13 14 15 16 17 18 19 20
xk    25.90000   26.20000   25.60000   25.40000   26.60000   26.20000   26.00000   22.10000   25.90000   25.80000
yk  30.30000   30.50000   30.60000   31.00000   29.60000   30.40000   30.70000   31.60000   30.50000   30.60000

k   21 22 23 24 25 26
xk    25.90000   26.30000   26.10000   26.00000   26.40000   25.80000
yk  30.70000   30.10000   30.60000   30.50000   30.70000   30.80000

Требуется вычислить/построить:
   - коэффициент корреляции;
   - проверить гипотезу зависимости случайных величин X и Y, при уровне значимости α = 0.05 ;
   - коэффициенты уравнения линейной регрессии;
   - диаграмму рассеяния (корреляционное поле) и график линии регрессии;



РЕШЕНИЕ:


1. Вычисляем коэффициент корреляции.

Коэффициент корреляции — это показатель взаимного вероятностного влияния двух случайных величин. Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1, то это свидетельство сильной связи между величинами, а если ближе к 0 — то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно выразить через другую посредством математической функции.

Вычислить коэффициент корреляции можно по следующим формулам:

Rx,y = 
cov( X,Y )
σxσy
     ( 1.1 ),    где:
cov( X,Y ) - ковариация случайных величин Х и Y
σx2 = 
1
n
n
Σ
k = 1
(xk-Mx)2  ,   σy2 = 
1
n
n
Σ
k = 1
(yk-My)2     ( 1.2 ),    - оценки дисперсий случайных величин X и Y соответственно.
Mx = 
1
n
n
Σ
k = 1
xk  ,   My = 
1
n
n
Σ
k = 1
yk     ( 1.3 ),    - оценки математического ожидания случайных величин X и Y соответственно.
или по формуле

Rx,y = 
Mxy - MxMy
SxSy
     ( 1.4 ),    где:
Mx = 
1
n
n
Σ
k = 1
xk ,   My = 
1
n
n
Σ
k = 1
yk ,   Mxy = 
1
n
n
Σ
k = 1
xkyk     ( 1.5 )
Sx2 = 
1
n
n
Σ
k = 1
xk2 - Mx2 ,   Sy2 = 
1
n
n
Σ
k = 1
yk2 - My2     ( 1.6 )
На практике, для вычисления коэффициента корреляции чаще используется формула ( 1.4 ) т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y), то выгоднее использовать формулу ( 1.1 ), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений.
1.1 Вычислим коэффициент корреляции по формуле ( 1.4 ), для этого вычислим значения xk2, yk2 и xkyk и занесем их в таблицу 1.

Таблица 1

 k 

 xk   yk   хk2   yk2   хkyk 
123456
 1  25.2  30.8   635.04000   948.64000   776.16000 
 2  26.4  29.4   696.96000   864.36000   776.16000 
 3  26.0  30.2   676.00000   912.04000   785.20000 
 4  25.8  30.5   665.64000   930.25000   786.90000 
 5  24.9  31.4   620.01000   985.96000   781.86000 
 6  25.7  30.3   660.49000   918.09000   778.71000 
 7  25.7  30.4   660.49000   924.16000   781.28000 
 8  25.7  30.5   660.49000   930.25000   783.85000 
 9  26.1  29.9   681.21000   894.01000   780.39000 
 10  25.8  30.4   665.64000   924.16000   784.32000 
 11  25.9  30.3   670.81000   918.09000   784.77000 
 12  26.2  30.5   686.44000   930.25000   799.10000 
 13  25.6  30.6   655.36000   936.36000   783.36000 
 14  25.4  31   645.16000   961.00000   787.40000 
 15  26.6  29.6   707.56000   876.16000   787.36000 
 16  26.2  30.4   686.44000   924.16000   796.48000 
 17  26  30.7   676.00000   942.49000   798.20000 
 18  22.1  31.6   488.41000   998.56000   698.36000 
 19  25.9  30.5   670.81000   930.25000   789.95000 
 20  25.8  30.6   665.64000   936.36000   789.48000 
 21  25.9  30.7   670.81000   942.49000   795.13000 
 22  26.3  30.1   691.69000   906.01000   791.63000 
 23  26.1  30.6   681.21000   936.36000   798.66000 
 24  26  30.5   676.00000   930.25000   793.00000 
 25  26.4  30.7   696.96000   942.49000   810.48000 
 26  25.8  30.8   665.64000   948.64000   794.64000 


1.2. Вычислим Mx по формуле ( 1.5 ).

1.2.1. Сложим последовательно все элементы xk

x1 + x2 + … + x26 =   25.20000 + 26.40000 + ... + 25.80000 = 669.500000

1.2.2. Разделим полученную сумму на число элементов

669.50000 / 26 =  25.75000

Mx =  25.750000


1.3. Аналогичным образом вычислим My.

1.3.1. Сложим последовательно все элементы yk

y1 + y2 + … + y26 =   30.80000 + 29.40000 + ... + 30.80000 = 793.000000

1.3.2. Разделим полученную сумму на число элементов выборки

793.00000 / 26 =  30.50000

My =  30.500000


1.4. Аналогичным образом вычислим Mxy.

1.4.1. Сложим последовательно все элементы 6-го столбца таблицы 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Разделим полученную сумму на число элементов

20412.83000 / 26 =  785.10885

Mxy =  785.108846


1.5. Вычислим значение Sx2 по формуле ( 1.6. ).

1.5.1. Сложим последовательно все элементы 4-го столбца таблицы 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Разделим полученную сумму на число элементов

17256.91000 / 26 =  663.72731

1.5.3. Вычтем из последнего числа квадрат величины Mx получим значение для Sx2

Sx2 =  663.72731 - 25.750002 =  663.72731 - 663.06250 =  0.66481


1.6. Вычислим значение Sy2 по формуле ( 1.6. ).

1.6.1. Сложим последовательно все элементы 5-го столбца таблицы 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Разделим полученную сумму на число элементов

24191.84000 / 26 =  930.45538

1.6.3. Вычтем из последнего числа квадрат величины My получим значение для Sy2

Sy2 =  930.45538 - 30.500002 =  930.45538 - 930.25000 =  0.20538


1.7. Вычислим произведение величин Sx2 и Sy2.

Sx2Sy2 =  0.66481 • 0.20538 =  0.136541


1.8. Извлечем и последнего числа квадратный корень, получим значение SxSy.

SxSy =  0.36951


1.9. Вычислим значение коэффициента корреляции по формуле (1.4.).

R = ( 785.10885 -  25.75000 • 30.50000) /  0.36951 =  ( 785.10885 -  785.37500) /  0.36951 =  -0.72028


ОТВЕТ:      Rx,y  =  -0.720279


2. Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).

Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения, необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t-критерия:
t =
Rx,y
n - 2
1 - R2x,y
     ( 2.1 )
Случайная величина t следует t-распределению Стьюдента и по таблице t-распределения необходимо найти критическое значение критерия (tкр.α) при заданном уровне значимости α. Если вычисленное по формуле ( 2.1 ) t по модулю окажется меньше чем tкр.α, то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные данные не противоречат гипотезе о зависимости случайных величин.

2.1. Вычислим значение t-критерия по формуле ( 2.1 ) получим:
t =
-0.72028
26 - 2
1 - ( -0.72028)2
 =  -5.08680

2.2. Определим по таблице t-распределения критическое значение параметра tкр.α

Искомое значение tкр.α располагается на пересечении строки соответствующей числу степеней свободы и столбца соответствующего заданному уровню значимости α.
В нашем случае число степеней свободы есть n - 2 = 26 - 2 = 24 и α = 0.05 , что соответствует критическому значению критерия tкр.α  = 2.064 (см. табл. 2)

Таблица 2    t-распределение
 Число степеней свободы
( n - 2 ) 
 α = 0.1  α = 0.05  α = 0.02  α = 0.01  α = 0.002  α = 0.001 
16.31412.70631.82163.657318.31636.62
22.9204.3036.9659.92522.32731.598
32.3533.1824.5415.84110.21412.924
42.1322.7763.7474.6047.1738.610
52.0152.5713.3654.0325.8936.869
61.9432.4473.1433.7075.2085.959
71.8952.3652.9983.4994.7855.408
81.8602.3062.8963.3554.5015.041
91.8332.2622.8213.2504.2974.781
101.8122.2282.7643.1694.1444.587
111.7962.2012.7183.1064.0254.437
121.7822.1792.6813.0553.9304.318
131.7712.1602.6503.0123.8524.221
141.7612.1452.6242.9773.7874.140
151.7532.1312.6022.9473.7334.073
161.7462.1202.5832.9213.6864.015
171.7402.1102.5672.8983.6463.965
181.7342.1012.5522.8783.6103.922
191.7292.0932.5392.8613.5793.883
201.7252.0862.5282.8453.5523.850
211.7212.0802.5182.8313.5273.819
221.7172.0742.5082.8193.5053.792
231.7142.0692.5002.8073.4853.767
241.7112.0642.4922.7973.4673.745
251.7082.0602.4852.7873.4503.725
261.7062.0562.4792.7793.4353.707
271.7032.0522.4732.7713.4213.690
281.7012.0482.4672.7633.4083.674
291.6992.0452.4622.7563.3963.659
301.6972.0422.4572.7503.3853.646
401.6842.0212.4232.7043.3073.551
601.6712.0002.3902.6603.2323.460
1201.6581.9802.3582.6173.1603.373
1.6451.9602.3262.5763.0903.291


2.2. Сравним абсолютное значение t-критерия и tкр.α

Абсолютное значение t-критерия не меньше критического t =  5.08680, tкр.α = 2.064, следовательно экспериментальные данные, с вероятностью 0.95 ( 1 - α ), не противоречат гипотезе о зависимости случайных величин X и Y.


3. Вычисляем коэффициенты уравнения линейной регрессии.

Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y. Если считать, что величина X свободная, а Y зависимая от Х, то уравнение регрессии запишется следующим образом

Y = a + b•X       ( 3.1 ),    где:
b = Rx,y
σy
σx
 = Rx,y
Sy
Sx
     ( 3.2 ),
a = My - b•Mx     ( 3.3 )

Рассчитанный по формуле ( 3.2 ) коэффициент b называют коэффициентом линейной регрессии. В некоторых источниках a называют постоянным коэффициентом регрессии и b соответственно переменным.

Погрешности предсказания Y по заданному значению X вычисляются по формулам :

σy/x = σy
1-R2x,y
 = Sy
1-R2x,y
     ( 3.4 )      - абсолютная погрешность,
δy/x = 
σy/x
My
100%     ( 3.5 )     - относительная погрешность

Величину σy/x (формула  3.4 ) еще называют остаточным средним квадратическим отклонением, оно характеризует уход величины Y от линии регрессии, описываемой уравнением ( 3.1 ), при фиксированном (заданном) значении X.

3.1. Вычислим отношение
Sy2
Sx2
.
Sy2 / Sx2  =  0.20538 /  0.66481 =  0.30894

3.2. Вычислим отношение
Sy
Sx
.
Извлечем из последнего числа квадратный корень - получим:
Sy / Sx  =  0.55582


3.3 Вычислим коэффициент b по формуле ( 3.2 )

b =  -0.72028 •  0.55582 =  -0.40035


3.4 Вычислим коэффициент a по формуле ( 3.3 )

a =  30.50000 - ( -0.40035 •  25.75000) =  40.80894


3.5 Оценим погрешности уравнения регрессии.

3.5.1 Извлечем из Sy2 квадратный корень получим:

Sy = 
0.20538
= 0.45319 ;


3.5.2 Возведем в квадрат Rx,y получим:

R2x,y = -0.720282 = 0.51880

3.5.3 Вычислим абсолютную погрешность (остаточное среднее квадратическое отклонение) по формуле ( 3.4 )

σy/x =  0.45319
1 - 0.51880
= 0.31437

3.5.4 Вычислим относительную погрешность по формуле ( 3.5 )

δy/x = ( 0.31437 /  30.50000)100% = 1.03073%

ОТВЕТ:  Уравнение линейной регрессии имеет вид:     Y = 40.80894 -0.40035 X     ( 3.6 )
  Погрешности уравнения: σy/x =  0.31437 ;     δy/x =  1.03073%

4. Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.

Диаграмма рассеяния — это графическое изображение соответствующих пар (xk , yk ) в виде точек плоскости, в прямоугольных координатах с осями X и Y. Корреляционное поле является одним из графических представлений связанной (парной) выборки. В той же системе координат строится и график линии регрессии. Следует тщательно выбрать масштабы и начальные точки на осях, чтобы диаграмма была максимально наглядной.

4.1. Находим минимальный и максимальный элемент выборки X это 18-й и 15-й элементы соответственно, xmin =  22.10000 и xmax =  26.60000.

4.2. Находим минимальный и максимальный элемент выборки Y это 2-й и 18-й элементы соответственно, ymin =  29.40000 и ymax =  31.60000.


4.3. На оси абсцисс выбираем начальную точку чуть левее точки x18 =  22.10000, и такой масштаб, чтобы на оси поместилась точка x15 =  26.60000 и отчетливо различались остальные точки.

4.4. На оси ординат выбираем начальную точку чуть левее точки y2 =  29.40000, и такой масштаб, чтобы на оси поместилась точка y18 =  31.60000 и отчетливо различались остальные точки.

4.5. На оси абсцисс размещаем значения xk, а на оси ординат значения yk.

4.6. Наносим точки (x1, y1 ), (x2, y2 ),…,(x26, y26 ) на координатную плоскость. Получаем диаграмму рассеяния (корреляционное поле), изображенное на рисунке ниже.


4.7. Начертим линию регрессии.

Для этого найдем две различные точки с координатами (xr1 , yr1) и (xr2 , yr2) удовлетворяющие уравнению (3.6), нанесем их на координатную плоскость и проведем через них прямую. В качестве абсциссы первой точки возьмем значение xmin =  22.10000. Подставим значение xmin в уравнение (3.6), получим ординату первой точки. Таким образом имеем точку с координатами (  22.10000, 31.96127 ). Аналогичным образом получим координаты второй точки, положив в качестве абсциссы значение xmax =  26.60000. Вторая точка будет: (  26.60000, 30.15970 ).

Линия регрессии показана на рисунке ниже красным цветом
Диаграмма рассеяния (корреляционное поле) и график линии регрессии

Обратите внимание, что линия регрессии всегда проходит через точку средних значений величин Х и Y, т.е. с координатами (Mx , My).



см. пример с ковариацией...

решить мою задачу...
на ввод условия...

к списку решаемых задач...
Яндекс цитирования Ramblers Top100 Союз образовательных сайтов