Высшая Mатематика Решение задач и примеров - OnLine
./ Главная /Корреляция, ковариация, линейная регрессия, ШАГ-1/Пример >

Пример вычисления ковариации, построения графика и уравнения линейной регрессии нашим сервисом:



Заметьте! Решение вашей конкретной задачи будет выглядеть аналогично данному примеру, включая все таблицы и поясняющие тексты, представленные ниже, но с учетом ваших исходных данных…


Задача:
Имеется связанная выборка из 11 пар значений (хk,yk):
k   1 2 3 4 5 6 7 8 9 10
xk    51.00000   50.00000   48.00000   51.00000   46.00000   47.00000   49.00000   60.00000   51.00000   52.00000
yk  13.00000   15.00000   13.00000   16.00000   12.00000   14.00000   12.00000   10.00000   18.00000   10.00000

k   11
xk    56.00000
yk  12.00000

Требуется вычислить/построить:
   - коэффициент ковариации;
   - коэффициент корреляции;
   - проверить гипотезу зависимости случайных величин X и Y, при уровне значимости α = 0.05 ;
   - коэффициенты уравнения линейной регрессии;
   - диаграмму рассеяния (корреляционное поле) и график линии регрессии;



РЕШЕНИЕ:

1. Вычисляем коэффициент ковариации.

Коэффициент ковариации характеризует степень линейной зависимости двух случайных величин Х и Y и вычисляется по формуле:
cov(X,Y) = 
1
n
n
Σ
k = 1
(xk-Mx)(yk-My)     ( 1.1 ),    где:
Mx = 
1
n
n
Σ
k = 1
xk  ,   My = 
1
n
n
Σ
k = 1
yk     ( 1.2 ),    - оценки математического ожидания случайных величин X и Y соответственно.
То есть, ковариация, это математическое ожидание произведения центрированных случайных величин


1.1. Вычислим оценку математического ожидания случайной величины Х.

1.1.1. Сложим последовательно все элементы выборки X

x1 + x2 + … + x11 =   51.00000 + 50.00000 + ... + 56.00000 = 561.000000

1.1.2. Разделим полученную сумму на число элементов выборки

561.00000 / 11 =  51.00000

Mx =  51.000000


1.2. Аналогичным образом вычислим оценку математического ожидания случайной величины Y.

1.2.1. Сложим последовательно все элементы выборки Y

y1 + y2 + … + y11 =   13.00000 + 15.00000 + ... + 12.00000 = 145.000000

1.2.2. Разделим полученную сумму на число элементов выборки

145.000000 / 11 =  13.18182

My =  13.181818

1.3. Вычислим значения центрированных величин (xk-Mx) и (yk-My) для всех элементов выборки.
Результаты занесем в таблицу 1.

1.4. Вычислим произведение центрированных величин (xk-Mx)•(yk-My).
Результаты занесем в таблицу 1.

Таблица 1

 k 

 xk   yk   ( хk-Mx )   ( yk-My )   ( хk-Mx )•( yk-My ) 
123456
 1  51  13   0.00000   -0.18182   0.00000 
 2  50  15   -1.00000   1.81818   -1.81818 
 3  48  13   -3.00000   -0.18182   0.54545 
 4  51  16   0.00000   2.81818   0.00000 
 5  46  12   -5.00000   -1.18182   5.90909 
 6  47  14   -4.00000   0.81818   -3.27273 
 7  49  12   -2.00000   -1.18182   2.36364 
 8  60  10   9.00000   -3.18182   -28.63636 
 9  51  18   0.00000   4.81818   0.00000 
 10  52  10   1.00000   -3.18182   -3.18182 
 11  56  12   5.00000   -1.18182   -5.90909 

1.5. Вычислим ковариацию cov(X,Y) как среднее значение элементов 6-го столбца таблицы 1.

1.5.1. Сложим последовательно все элементы 6-го столбца

y1 + y2 + … + y11 =   0.00000 + -1.81818 + ... + -5.90909 = -34.000000

1.5.2. Разделим полученную сумму на число элементов выборки

-34.000000 / 11= -3.09091


ОТВЕТ:      cov(X,Y) =  -3.090909


2. Вычисляем коэффициент корреляции.

Коэффициент корреляции — это показатель взаимного вероятностного влияния двух случайных величин. Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1, то это свидетельство сильной связи между величинами, а если ближе к 0 — то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно выразить через другую посредством математической функции.

Вычислить коэффициент корреляции можно по следующим формулам:

Rx,y = 
cov( X,Y )
σxσy
     ( 2.1 ),    где:
cov( X,Y ) - ковариация случайных величин Х и Y
σx2 = 
1
n
n
Σ
k = 1
(xk-Mx)2  ,   σy2 = 
1
n
n
Σ
k = 1
(yk-My)2     ( 2.2 ),    - оценки дисперсий случайных величин X и Y соответственно.
Mx = 
1
n
n
Σ
k = 1
xk  ,   My = 
1
n
n
Σ
k = 1
yk     ( 2.3 ),    - оценки математического ожидания случайных величин X и Y соответственно.
или по формуле

Rx,y = 
Mxy - MxMy
SxSy
     ( 2.4 ),    где:
Mx = 
1
n
n
Σ
k = 1
xk ,   My = 
1
n
n
Σ
k = 1
yk ,   Mxy = 
1
n
n
Σ
k = 1
xkyk     ( 2.5 )
Sx2 = 
1
n
n
Σ
k = 1
xk2 - Mx2 ,   Sy2 = 
1
n
n
Σ
k = 1
yk2 - My2     ( 2.6 )
На практике, для вычисления коэффициента корреляции чаще используется формула ( 2.4 ) т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y), то выгоднее использовать формулу ( 2.1 ), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений.
2.1 Вычислим коэффициент корреляции по формуле ( 2.1 ) для этого воспользуемся результатами представленными в таблице 1, дополнив последнюю двумя новыми столбцами в которые запишем (предварительно вычислив) значения квадратов центрированных случайных величин (xk-Mx)2 и (yk-My)2. Получим таблицу 2.

Таблица 2

 k 

 xk   yk   ( хk-Mx )   ( хk-Mx )2   ( yk-My )   ( yk-My )2 
1234567
 1  51  13   0.00000   0.00000   -0.18182   0.03306 
 2  50  15   -1.00000   1.00000   1.81818   3.30579 
 3  48  13   -3.00000   9.00000   -0.18182   0.03306 
 4  51  16   0.00000   0.00000   2.81818   7.94215 
 5  46  12   -5.00000   25.00000   -1.18182   1.39669 
 6  47  14   -4.00000   16.00000   0.81818   0.66942 
 7  49  12   -2.00000   4.00000   -1.18182   1.39669 
 8  60  10   9.00000   81.00000   -3.18182   10.12397 
 9  51  18   0.00000   0.00000   4.81818   23.21488 
 10  52  10   1.00000   1.00000   -3.18182   10.12397 
 11  56  12   5.00000   25.00000   -1.18182   1.39669 

2.2. Вычислим σx2 как среднее значение элементов 5-го столбца таблицы 2.

2.2.1. Сложим последовательно все элементы 5-го столбца

  0.00000 + 1.00000 + ... + 25.00000 = 162.000000

2.2.2. Разделим полученную сумму на число элементов выборки

σx2 =  162.00000 / 11 =  14.727273


2.3. Вычислим σy2 как среднее значение элементов 7-го столбца таблицы 2.

2.3.1. Сложим последовательно все элементы 7-го столбца

  0.03306 + 3.30579 + ... + 1.39669 = 59.636364

2.3.2. Разделим полученную сумму на число элементов выборки

σy2 =  59.636364 / 11 =  5.421488


2.4. Вычислим произведение σx2σy2.

σx2σy2 =  14.727273• 5.421488 =  79.843727

2.5. Извлечем из последнего числа квадратный корень, получим значение σxσy.

σxσy =  8.935532

2.5.Вычислим коэффициент корреляции по формуле ( 2.1 ).

Rx,y = 
cov( X,Y )
σxσy
 =  -3.090909 /  8.935532 =  -0.345912


ОТВЕТ:      Rx,y  =  -0.345912


3. Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).

Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения, необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t-критерия:
t =
Rx,y
n - 2
1 - R2x,y
     ( 3.1 )
Случайная величина t следует t-распределению Стьюдента и по таблице t-распределения необходимо найти критическое значение критерия (tкр.α) при заданном уровне значимости α. Если вычисленное по формуле ( 3.1 ) t по модулю окажется меньше чем tкр.α, то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные данные не противоречат гипотезе о зависимости случайных величин.

3.1. Вычислим значение t-критерия по формуле ( 3.1 ) получим:
t =
-0.34591
11 - 2
1 - ( -0.34591)2
 =  -1.10601

3.2. Определим по таблице t-распределения критическое значение параметра tкр.α

Искомое значение tкр.α располагается на пересечении строки соответствующей числу степеней свободы и столбца соответствующего заданному уровню значимости α.
В нашем случае число степеней свободы есть n - 2 = 11 - 2 = 9 и α = 0.05 , что соответствует критическому значению критерия tкр.α  = 2.262 (см. табл. 3)

Таблица 3    t-распределение
 Число степеней свободы
( n - 2 ) 
 α = 0.1  α = 0.05  α = 0.02  α = 0.01  α = 0.002  α = 0.001 
16.31412.70631.82163.657318.31636.62
22.9204.3036.9659.92522.32731.598
32.3533.1824.5415.84110.21412.924
42.1322.7763.7474.6047.1738.610
52.0152.5713.3654.0325.8936.869
61.9432.4473.1433.7075.2085.959
71.8952.3652.9983.4994.7855.408
81.8602.3062.8963.3554.5015.041
91.8332.2622.8213.2504.2974.781
101.8122.2282.7643.1694.1444.587
111.7962.2012.7183.1064.0254.437
121.7822.1792.6813.0553.9304.318
131.7712.1602.6503.0123.8524.221
141.7612.1452.6242.9773.7874.140
151.7532.1312.6022.9473.7334.073
161.7462.1202.5832.9213.6864.015
171.7402.1102.5672.8983.6463.965
181.7342.1012.5522.8783.6103.922
191.7292.0932.5392.8613.5793.883
201.7252.0862.5282.8453.5523.850
211.7212.0802.5182.8313.5273.819
221.7172.0742.5082.8193.5053.792
231.7142.0692.5002.8073.4853.767
241.7112.0642.4922.7973.4673.745
251.7082.0602.4852.7873.4503.725
261.7062.0562.4792.7793.4353.707
271.7032.0522.4732.7713.4213.690
281.7012.0482.4672.7633.4083.674
291.6992.0452.4622.7563.3963.659
301.6972.0422.4572.7503.3853.646
401.6842.0212.4232.7043.3073.551
601.6712.0002.3902.6603.2323.460
1201.6581.9802.3582.6173.1603.373
1.6451.9602.3262.5763.0903.291


3.2. Сравним абсолютное значение t-критерия и tкр.α

Абсолютное значение t-критерия меньше критического 1.1060141716536 < 2.262, следовательно зависимости между случайными величинами X и Y нет.


4. Вычисляем коэффициенты уравнения линейной регрессии.

Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y. Если считать, что величина X свободная, а Y зависимая от Х, то уравнение регрессии запишется следующим образом

Y = a + b•X       ( 4.1 ),    где:
b = Rx,y
σy
σx
 = Rx,y
Sy
Sx
     ( 4.2 ),
a = My - b•Mx     ( 4.3 )

Рассчитанный по формуле ( 4.2 ) коэффициент b называют коэффициентом линейной регрессии. В некоторых источниках a называют постоянным коэффициентом регрессии и b соответственно переменным.

Погрешности предсказания Y по заданному значению X вычисляются по формулам :

σy/x = σy
1-R2x,y
 = Sy
1-R2x,y
     ( 4.4 )      - абсолютная погрешность,
δy/x = 
σy/x
My
100%     ( 4.5 )     - относительная погрешность

Величину σy/x (формула  4.4 ) еще называют остаточным средним квадратическим отклонением, оно характеризует уход величины Y от линии регрессии, описываемой уравнением ( 4.1 ), при фиксированном (заданном) значении X.
4.1. Вычислим отношение
σy2
σx2
.
σy2 / σx2  =  5.42149 /  14.72727 =  0.36813

4.2. Вычислим отношение
σy
σx
.
Извлечем из последнего числа квадратный корень - получим:
σy / σx  =  0.60673


4.3 Вычислим коэффициент b по формуле ( 4.2 )

b =  -0.34591 •  0.60673 =  -0.20988


4.4 Вычислим коэффициент a по формуле ( 4.3 )

a =  13.18182 - ( -0.20988 •  51.00000) =  23.88552


4.5 Оценим погрешности уравнения регрессии.

4.5.1 Извлечем из σy2 квадратный корень получим:

σy = 
5.42149
= 2.32841 ;

4.5.2 Возведем в квадрат Rx,y получим:

R2x,y = -0.345912 = 0.11966

4.5.3 Вычислим абсолютную погрешность (остаточное среднее квадратическое отклонение) по формуле ( 4.4 )

σy/x =  2.32841
1 - 0.11966
= 2.18467

4.5.4 Вычислим относительную погрешность по формуле ( 4.5 )

δy/x = ( 2.18467 /  13.18182)100% = 16.57335%

ОТВЕТ:  Уравнение линейной регрессии имеет вид:     Y = 23.88552 -0.20988 X     ( 4.6 )
  Погрешности уравнения: σy/x =  2.18467 ;     δy/x =  16.57335%

5. Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.

Диаграмма рассеяния — это графическое изображение соответствующих пар (xk , yk ) в виде точек плоскости, в прямоугольных координатах с осями X и Y. Корреляционное поле является одним из графических представлений связанной (парной) выборки. В той же системе координат строится и график линии регрессии. Следует тщательно выбрать масштабы и начальные точки на осях, чтобы диаграмма была максимально наглядной.

5.1. Находим минимальный и максимальный элемент выборки X это 5-й и 8-й элементы соответственно, xmin =  46.00000 и xmax =  60.00000.

5.2. Находим минимальный и максимальный элемент выборки Y это 8-й и 9-й элементы соответственно, ymin =  10.00000 и ymax =  18.00000.


5.3. На оси абсцисс выбираем начальную точку чуть левее точки x5 =  46.00000, и такой масштаб, чтобы на оси поместилась точка x8 =  60.00000 и отчетливо различались остальные точки.

5.4. На оси ординат выбираем начальную точку чуть левее точки y8 =  10.00000, и такой масштаб, чтобы на оси поместилась точка y9 =  18.00000 и отчетливо различались остальные точки.

5.5. На оси абсцисс размещаем значения xk, а на оси ординат значения yk.

5.6. Наносим точки (x1, y1 ), (x2, y2 ),…,(x11, y11 ) на координатную плоскость. Получаем диаграмму рассеяния (корреляционное поле), изображенное на рисунке ниже.


5.7. Начертим линию регрессии.

Для этого найдем две различные точки с координатами (xr1 , yr1) и (xr2 , yr2) удовлетворяющие уравнению (4.6), нанесем их на координатную плоскость и проведем через них прямую. В качестве абсциссы первой точки возьмем значение xmin =  46.00000. Подставим значение xmin в уравнение (4.6), получим ординату первой точки. Таким образом имеем точку с координатами (  46.00000, 14.23120 ). Аналогичным образом получим координаты второй точки, положив в качестве абсциссы значение xmax =  60.00000. Вторая точка будет: (  60.00000, 11.29293 ).

Линия регрессии показана на рисунке ниже красным цветом
Диаграмма рассеяния (корреляционное поле) и график линии регрессии

Обратите внимание, что линия регрессии всегда проходит через точку средних значений величин Х и Y, т.е. с координатами (Mx , My).



см. пример без ковариации...

решить мою задачу...
на ввод условия...

к списку решаемых задач...
Яндекс цитирования Ramblers Top100 Союз образовательных сайтов