Рубрики

Выборочный коэффициент корреляции: свойства, формула

Выборочный коэффициент корреляции является важным статистическим инструментом для анализа взаимосвязи между двумя количественными переменными. Давайте разберемся в его сущности и практическом применении.

Основные понятия

Выборочный коэффициент корреляции отражает силу и направление линейной связи между двумя случайными величинами X и Y в некоторой выборке данных. Он показывает, насколько значения одной переменной изменяются с ростом или уменьшением значений другой переменной.

Выборочный коэффициент корреляции обозначается буквой r и принимает значения от -1 до +1 включительно.

При положительных значениях r наблюдается прямая зависимость: с ростом X растет Y, при отрицательных значениях - обратная: с ростом X падает Y. Чем ближе r к нулю, тем слабее связь между переменными.

Виды коэффициентов корреляции

Различают:

  • парный коэффициент корреляции между двумя переменными;
  • множественный коэффициент корреляции между одной переменной и набором других;
  • частный коэффициент корреляции с поправкой на влияние третьей переменной.

В нашей статье речь пойдет о выборочном парном коэффициенте корреляции.

Портрет исследовательницы

Области применения

Выборочный коэффициент корреляции широко используется в таких областях как:

  1. Экономика и финансы - для анализа взаимосвязей между показателями.
  2. Медицина и биология - при изучении влияния различных факторов на состояние здоровья.
  3. Социология - для выявления взаимозависимостей в общественных процессах.

Он позволяет получить количественную оценку силы связи и может использоваться для прогнозирования и построения моделей.

Глаза мудрого старика

Вычисление по формуле

Для вычисления выборочного коэффициента корреляции \(\color{red}{r_{xy}}\) используется следующая формула:

\( r_{xy} = \frac{\sum\limits_{i=1}^{n}(x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i - \overline{x})^2} \sqrt{\sum\limits_{i=1}^{n}(y_i - \overline{y})^2}} \)

где:
\(x_i\), \(y_i\) - значения переменных X и Y в i-й точке выборки; \(\overline{x}\), \(\overline{y}\) - их средние значения; n - объем выборки.

Давайте посмотрим на примере расчета. Пусть у нас есть данные о росте и весе 10 студентов:

Рост, см 170 175 178 180 182 185 190 195 200
Вес, кг 63 68 75 80 85 88 100 105 110

Найдем \(\overline{x}\) и \(\overline{y}\): \(\overline{x} = \frac{170 + 175 + \dots + 200}{10} = 185\) см \(\overline{y} = \frac{63 + 68 + \dots + 110}{10} = 85\) кг

Подставляя значения \(x_i\), \(y_i\), \(\overline{x}\), \(\overline{y}\) в формулу, получаем \(\color{red}{r_{xy}} = 0.96\). Это говорит о сильной положительной линейной связи между ростом и весом в данной выборке.

Особенности интерпретации

При интерпретации полученного значения \(\color{red}{r_{xy}}\) следует помнить, что оно характеризует только линейную связь между признаками X и Y. Если между ними существует нелинейная связь (например, параболическая), то коэффициент корреляции может оказаться близок к нулю, что неправильно отражает истинную ситуацию.

Кроме того, высокое значение |r| свидетельствует лишь о наличии тесной статистической связи в данной конкретной выборке , но не говорит о причинно-следственных отношениях между X и Y.

Проверка значимости

Для проверки, является ли выборочный коэффициент корреляции статистически значимым (отличается от нуля), используют специальные критерии. Наиболее распространенные из них:

  • t-критерий Стьюдента;
  • F-критерий Фишера.

Эти критерии позволяют проверить гипотезу о равенстве \(\color{red}{r_{xy}}\) нулю на заданном уровне значимости (например, 0.05).

Доверительный интервал

Помимо значения \(\color{red}{r_{xy}}\) также важно оценить точность этой величины, что делается с помощью доверительного интервала. Ширина интервала зависит от объема выборки: чем он больше, тем уже интервал и выше точность оценки коэффициента корреляции.

Множественный коэффициент корреляции

Для случая, когда одна переменная Y связана сразу с несколькими предикторами \(X_1\), \(X_2\) и так далее, используется множественный коэффициент корреляции \(R\). Он характеризует тесноту множественной линейной регрессии.

Связь с регрессией

Выборочный коэффициент корреляции тесно связан с регрессионным анализом. Квадрат коэффициента корреляции (\(r_{xy}^2\)) показывает какая доля дисперсии переменной Y объясняется линейной регрессией на X.

Интерпретация квадрата коэффициента корреляции

Как уже упоминалось, квадрат коэффициента корреляции \(r_{xy}^2\) показывает долю вариации зависимой переменной Y, объясненную изменением фактора X в рамках линейной модели.

Например, если \(r_{xy}^2 = 0.64\), это означает, что 64% вариации Y вызвано изменением X, а остальные 36% - действием других факторов и случайных причин.

Интерпретация знака

Знак самого коэффициента корреляции показывает направление связи:

  • Положительный \(r_{xy}\) - прямая связь (рост X влечет рост Y);
  • Отрицательный \(r_{xy}\) - обратная связь (рост X влечет падение Y).

Допустимые значения

Коэффициент детерминации \(r_{xy}^2\) может принимать значения от 0 до 1 включительно. Но на практике редко превышает 0.75, поскольку на любой процесс влияет множество случайных и неучтенных факторов.

Несмотря на кажущуюся простоту, при использовании и интерпретации выборочного коэффициента корреляции часто встречаются типичные ошибки.

Причинно-следственные выводы

Высокое значение |r| не означает наличие причинно-следственной связи между X и Y. Переменные могут коррелировать в силу косвенных причин или действия третьих неучтенных факторов.

Экстраполяция на другие выборки

Значение \(\color{red}{r_{xy}}\), полученное на некоторой конкретной выборке, не обязательно будет таким же для других выборок или генеральной совокупности. Необходимо с осторожностью делать обобщения.

Проверка наличия выбросов

Перед расчетом коэффициента корреляции важно проверить имеющиеся данные на наличие выбросов - резко выделяющихся наблюдений, не характерных для основной выборки.

Наличие даже единичных выбросов может существенно исказить значение \(\color{red}{r_{xy}}\) и привести к ошибочным выводам. Рекомендуются следующие методы проверки:

  • Визуальный анализ диаграммы рассеяния;
  • Использование статистических критериев (например, критерия Граббса).

Проверка на нормальность

Хотя коэффициент корреляции можно вычислить и для распределений, отличных от нормального, многие статистические процедуры (проверка значимости, нахождение доверительных интервалов) требуют нормальности данных.

Поэтому рекомендуется предварительно проводить проверку на соответствие нормальному распределению с помощью специальных критериев:

  • Критерий согласия Колмогорова-Смирнова;
  • Критерий согласия Шапиро-Уилка и другие.

Анализ остатков модели

При использовании коэффициента корреляции для построения регрессионной модели, важно проанализировать ее остатки - разности между фактическими значениями переменной Y и предсказанными моделью.

Анализ остатков позволяет выявить систематические отклонения от предпосылок модели (например, отсутствие линейности связи) и скорректировать ее.