В этом видео мы начнем говорить о том, как правильно интерпретировать значения коэффициентов корреляции и, в частности, сосредоточимся на проблеме, можно ли по полученному выборочному значению коэффициента корреляции сказать, что он достаточно большой и отличается от 0? Давайте рассмотрим вот такую задачу. За 100 дней у нас есть значения средней дневной температуры и количество проданных рожков мороженого. Значение коэффициента корреляции Пирсона, посчитанное по этой выборке, равно 0,45, Спирмена – 0,44. Можно ли по этим полученным значениям утверждать, что объем продаж мороженого и среднедневная температура статистически взаимосвязаны? Ответить на этот вопрос позволяет статистический критерий Стьюдента. Он принимает на вход парные выборки признаков X1 и X2, и проверяет нулевую гипотезу о том, что значение коэффициента корреляции Пирсона между ними равно 0. Он может это делать против любой односторонней или двусторонней альтернативы. Статистика критерия выражается через значение выборочного коэффициента корреляции и объема выборки n. Если нулевая гипотеза справедлива, то есть, корреляции нет, эта статистика имеет распределение Стьюдента с числом степеней свободы n − 2. Для проверки такой же точно гипотезы, но про корреляцию Спирмена, а не Пирсона, можно использовать абсолютно тот же самый критерий Стьюдента. Давайте вернемся к примеру с мороженым. Нулевая гипотеза о том, что линейной связи нет или значение коэффициента корреляции Пирсона равно 0, против двусторонней альтернативы критерием Стьюдента уверенно отвергается. Достигаемый уровень значимости порядка 4 * 10 в −6 < 0,05. Признаки действительно, похоже, линейно статистически взаимосвязаны. Корреляция Пирсона между ними равна 0,45. 95 % доверительный интервал для нее от 0,28 до 0,59. Этот доверительный интервал, кстати, можно построить, как на основе статистики критерия Стьюдента, так и, например, с помощью бутстрепа. Используем корреляцию Спирмена, чтобы проверить гипотезу об отсутствии монотонной взаимосвязи между двумя признаками. Против двусторонней альтернативы критерием Стьюдента эта гипотеза также отвергается с очень похожим достигаемым уровнем значимости. Признаки действительно монотонно связаны. Это не удивительно, мы уже показали, что они связаны линейно, а линейная взаимосвязь – частный случай монотонной. Корреляция Спирмена составляет 0,44. 95 % доверительный интервал для нее от 0,26 до 0,60. Давайте теперь перейдем к признакам категориальным, и рассмотрим задачу оценки эффективности тромболитической терапии по данным эксперимента, который проводился в Московской городской клинической больнице №25. В эксперименте участвовало 206 пациентов. Мы хотим понять, влияет ли наличие сахарного диабета у этих пациентов на эффективность тромболитической терапии. Данные представляют такую таблицу 2 x 2. У 78 пациентов сахарный диабет был. Из них 48 выздоровели, 30 не выздоровели. Значение коэффициента корреляции Мэтьюса, подсчитанное по этой таблице, составляет −11. Кажется, что, возможно, наличие сахарного диабета понижает шансы на выздоровление у пациентов. Давайте эту гипотезу проверим формально. Это делается с помощью критерия хи-квадрат. Он принимает на вход две связанные выборки длины n, каждая из нулей и единиц, и проверяет нулевую гипотезу о том, что значение коэффициента корреляции Мэтьюса между нашими двумя признаками равно нулю против двусторонней альтернативы. Гипотеза проверяется с помощью статистики, равной произведению n на квадрат выборочного коэффициента корреляции Мэтьюса. Если нулевая гипотеза справедлива и значение коэффициента корреляции действительно равно 0, то статистика имеет распределение хи-квадрат с одной степенью свободы. В задаче проверки нормальности мы уже говорили о том, что критерий хи-квадрат достаточно капризный. Вот и в этом случае для него нужно, чтобы выборки были достаточно большими: нужно не менее 40 объектов для того, чтобы использовать этот критерий. Кроме того, необходимо, чтобы каждая из вот этих четырех величин была больше 5. Откуда эти четыре величины берутся, мы узнаем очень скоро. А пока давайте применим критерий хи-квадрат к данным эксперимента по оценке эффективности тромболитической терапии. Нулевая гипотеза о том, что эффективность лечения не зависит от наличия диабета против двусторонней альтернативы, критерием хи-квадрат не отвергается. Достигаемый уровень значимости примерно 0,17 – это больше чем уровень значимости 0,05. То есть нельзя утверждать, что между двумя этими признаками есть связь. Давайте обобщим критерий хи-квадрат на случай категориальных признаков. Рассмотрим вот такую таблицу сопряженности для X1 и X2. Пусть X1 принимает k1 разных уровней, X2 — k2 разных уровней, в ячейке, в строке и в столбце j стоит nij — количество объектов, на которых реализуется значение X1 номер i и значение X2 номер j. Введем еще дополнительное обозначение для сумм по строкам и столбцам. Сумма по j-тому столбцу будем обозначать за n + j, а сумму по i-той строке за ni+. Критерий хи-квадрат для категориальных признаков выглядит следующим образом. Он принимает на вход связанные выборки X1 и X2 длины n и проверяет гипотезу о том, что между X1 и X2 связи нет, то есть они независимы. Проверяет ее он против общей альтернативы, то есть H0 не верна, какая-то связь есть. Это делается с помощью статистики хи-квадрат, которая считается по таблице сопряженности, которую мы только что нарисовали. Смотрится отклонение между nij, количеством объектов в каждой ячейке, и ожидаемым количеством объектов в этой ячейке, при условии справедливости нулевой гипотезы. Если X1 и X2 независимы, то мы ожидаем, что в ячейке, в строке i и в столбце j реализуется количество элементов равное (ni+ * n +j) / n. При справедливости нулевой гипотезы, статистика критерия имеет распределение хи-квадрат с числом степеней свободы k1 − 1 * k2 − 2. Не сложно показать, что критерий для таблиц 2 x 2, которые мы до этого рассмотрели, является частным случаем этого критерия. А вот в каких условиях критерий хи- квадрат для таблиц сопряженности может применяться. Нужно, чтобы выборки были достаточно большими, нужно, чтобы у вас было не менее 40 объектов, и кроме того, нужно, чтобы ожидаемое количество элементов в каждой ячейке таблицы было меньше 5, не более чем в 20 % ячеек. Можно считать, что для категориальных признаков критерий хи-квадрат проверяет гипотезу о равенстве нулю коэффициента V Крамера против альтернативы, что он нулю не равен. Вообще говоря, коэффициент V Крамера определяется как раз через статистику вот этого критерия хи-квадрат. Именно вот этот хи-квадрат стоит здесь в числителе дроби под корнем. Итак, в этом видео мы начали говорить о том, как правильно интерпретировать полученные в эксперименте значения выборочных коэффициентов корреляции. Мы узнали, с помощью каких методов можно отвечать на вопрос: значимо ли коэффициент корреляции отличается от нуля? Для корреляции Пирсона и Спирмена это делается с помощью критерия Стьюдента. Для корреляции Мэтьюса и коэффициента V Крамера — с помощью критерия хи-квадрат. В следующем видео мы продолжим говорить о том, как значения коэффициентов корреляции правильно интерпретировать.