Math |
Высшая Mатематика Решение задач и примеров - OnLine
|
./ Главная /Корреляция, ковариация, линейная регрессия, ШАГ-1/Пример > |
Пример вычисления ковариации, построения графика и уравнения линейной регрессии нашим сервисом:Задача: Имеется связанная выборка из 11 пар значений (хk,yk):
- коэффициент ковариации; - коэффициент корреляции; - проверить гипотезу зависимости случайных величин X и Y, при уровне значимости α = 0.05 ; - коэффициенты уравнения линейной регрессии; - диаграмму рассеяния (корреляционное поле) и график линии регрессии; РЕШЕНИЕ: 1. Вычисляем коэффициент ковариации.Коэффициент ковариации характеризует степень линейной зависимости двух случайных величин Х и Y и вычисляется по формуле:
1.1. Вычислим оценку математического ожидания случайной величины Х. 1.1.1. Сложим последовательно все элементы выборки X x1 + x2 + … + x11 = 51.00000 + 50.00000 + ... + 56.00000 = 561.000000 1.1.2. Разделим полученную сумму на число элементов выборки 561.00000 / 11 = 51.00000 Mx = 51.000000 1.2. Аналогичным образом вычислим оценку математического ожидания случайной величины Y. 1.2.1. Сложим последовательно все элементы выборки Y y1 + y2 + … + y11 = 13.00000 + 15.00000 + ... + 12.00000 = 145.000000 1.2.2. Разделим полученную сумму на число элементов выборки 145.000000 / 11 = 13.18182 My = 13.181818 1.3. Вычислим значения центрированных величин (xk-Mx) и (yk-My) для всех элементов выборки. Результаты занесем в таблицу 1. 1.4. Вычислим произведение центрированных величин (xk-Mx)•(yk-My). Результаты занесем в таблицу 1. Таблица 1 1.5. Вычислим ковариацию cov(X,Y) как среднее значение элементов 6-го столбца таблицы 1.
1.5.1. Сложим последовательно все элементы 6-го столбца y1 + y2 + … + y11 = 0.00000 + -1.81818 + ... + -5.90909 = -34.000000 1.5.2. Разделим полученную сумму на число элементов выборки -34.000000 / 11= -3.09091 ОТВЕТ: cov(X,Y) = -3.090909 2. Вычисляем коэффициент корреляции.Коэффициент корреляции — это показатель взаимного вероятностного влияния двух случайных величин.
Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1,
то это свидетельство сильной связи между величинами, а если ближе к 0 — то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение
R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно
выразить через другую посредством математической функции. Вычислить коэффициент корреляции можно по следующим формулам:
На практике, для вычисления коэффициента корреляции чаще используется формула ( 2.4 )
т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y), то выгоднее использовать
формулу ( 2.1 ), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений. 2.1 Вычислим коэффициент корреляции по формуле ( 2.1 )
для этого воспользуемся результатами представленными в таблице 1, дополнив последнюю двумя новыми столбцами в
которые запишем (предварительно вычислив) значения квадратов центрированных случайных величин (xk-Mx)2 и (yk-My)2.
Получим таблицу 2. Таблица 2 2.2. Вычислим σx2 как среднее значение элементов 5-го столбца таблицы 2.
2.2.1. Сложим последовательно все элементы 5-го столбца 0.00000 + 1.00000 + ... + 25.00000 = 162.000000 2.2.2. Разделим полученную сумму на число элементов выборки σx2 = 162.00000 / 11 = 14.727273 2.3. Вычислим σy2 как среднее значение элементов 7-го столбца таблицы 2. 2.3.1. Сложим последовательно все элементы 7-го столбца 0.03306 + 3.30579 + ... + 1.39669 = 59.636364 2.3.2. Разделим полученную сумму на число элементов выборки σy2 = 59.636364 / 11 = 5.421488 2.4. Вычислим произведение σx2σy2. σx2σy2 = 14.727273• 5.421488 = 79.843727 2.5. Извлечем из последнего числа квадратный корень, получим значение σxσy. σxσy = 8.935532 2.5.Вычислим коэффициент корреляции по формуле ( 2.1 ).
ОТВЕТ: Rx,y = -0.345912 3. Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения,
необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t-критерия:
Случайная величина t следует t-распределению Стьюдента
и по таблице t-распределения необходимо найти критическое значение критерия (tкр.α) при заданном уровне
значимости α. Если вычисленное по формуле ( 3.1 ) t по модулю окажется меньше
чем tкр.α, то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные
данные не противоречат гипотезе о зависимости случайных величин. 3.1. Вычислим значение t-критерия по формуле ( 3.1 ) получим:
3.2. Определим по таблице t-распределения критическое значение параметра tкр.α Искомое значение tкр.α располагается на пересечении строки соответствующей числу степеней свободы и столбца соответствующего заданному уровню значимости α. В нашем случае число степеней свободы есть n - 2 = 11 - 2 = 9 и α = 0.05 , что соответствует критическому значению критерия tкр.α = 2.262 (см. табл. 3) Таблица 3 t-распределение
3.2. Сравним абсолютное значение t-критерия и tкр.α Абсолютное значение t-критерия меньше критического 1.1060141716536 < 2.262, следовательно зависимости между случайными величинами X и Y нет. 4. Вычисляем коэффициенты уравнения линейной регрессии.Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость
между случайными величинами X и Y. Если считать, что величина X свободная, а Y зависимая от Х, то уравнение регрессии запишется следующим образом Y = a + b•X ( 4.1 ), где:
Рассчитанный по формуле ( 4.2 ) коэффициент b называют коэффициентом линейной регрессии. В некоторых источниках
a называют постоянным коэффициентом регрессии и b соответственно переменным. Погрешности предсказания Y по заданному значению X вычисляются по формулам :
σy / σx = 0.60673 4.3 Вычислим коэффициент b по формуле ( 4.2 ) b = -0.34591 • 0.60673 = -0.20988 4.4 Вычислим коэффициент a по формуле ( 4.3 ) a = 13.18182 - ( -0.20988 • 51.00000) = 23.88552 4.5 Оценим погрешности уравнения регрессии. 4.5.1 Извлечем из σy2 квадратный корень получим:
4.5.2 Возведем в квадрат Rx,y получим: R2x,y = -0.345912 = 0.11966 4.5.3 Вычислим абсолютную погрешность (остаточное среднее квадратическое отклонение) по формуле ( 4.4 )
4.5.4 Вычислим относительную погрешность по формуле ( 4.5 ) δy/x = ( 2.18467 / 13.18182)100% = 16.57335%
5. Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.Диаграмма рассеяния — это графическое изображение соответствующих пар (xk , yk ) в виде точек плоскости, в прямоугольных координатах с осями X и Y. Корреляционное поле является одним из графических представлений связанной (парной) выборки. В той же системе координат строится и график линии регрессии. Следует тщательно выбрать масштабы и начальные точки на осях, чтобы диаграмма была максимально наглядной.5.1. Находим минимальный и максимальный элемент выборки X это 5-й и 8-й элементы соответственно, xmin = 46.00000 и xmax = 60.00000. 5.2. Находим минимальный и максимальный элемент выборки Y это 8-й и 9-й элементы соответственно, ymin = 10.00000 и ymax = 18.00000. 5.3. На оси абсцисс выбираем начальную точку чуть левее точки x5 = 46.00000, и такой масштаб, чтобы на оси поместилась точка x8 = 60.00000 и отчетливо различались остальные точки. 5.4. На оси ординат выбираем начальную точку чуть левее точки y8 = 10.00000, и такой масштаб, чтобы на оси поместилась точка y9 = 18.00000 и отчетливо различались остальные точки. 5.5. На оси абсцисс размещаем значения xk, а на оси ординат значения yk. 5.6. Наносим точки (x1, y1 ), (x2, y2 ),…,(x11, y11 ) на координатную плоскость. Получаем диаграмму рассеяния (корреляционное поле), изображенное на рисунке ниже. 5.7. Начертим линию регрессии. Для этого найдем две различные точки с координатами (xr1 , yr1) и (xr2 , yr2) удовлетворяющие уравнению (4.6), нанесем их на координатную плоскость и проведем через них прямую. В качестве абсциссы первой точки возьмем значение xmin = 46.00000. Подставим значение xmin в уравнение (4.6), получим ординату первой точки. Таким образом имеем точку с координатами ( 46.00000, 14.23120 ). Аналогичным образом получим координаты второй точки, положив в качестве абсциссы значение xmax = 60.00000. Вторая точка будет: ( 60.00000, 11.29293 ). Линия регрессии показана на рисунке ниже красным цветом ![]() см. пример без ковариации... решить мою задачу... на ввод условия... к списку решаемых задач... | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() ![]() |