Корреляции Пирсона и Спирмена, которые мы теперь умеем считать, позволяют нам квантифицировать силу взаимосвязи между двумя непрерывными переменными. В этом видео мы разберемся с тем, как это делать для категориальных, и начнем с бинарных. Для двух бинарных переменных мерой силы взаимосвязи между ними является коэффициент корреляции Мэтьюса. На вход он принимает таблицу сопряженности. По строкам там стоят значения одного признака, по столбцам — второго, в каждой ячейке — количество объектов, на которых реализовалась эта пара. Равен коэффициент корреляции Мэтьюса отношению ad − bc к корню из произведения всех сумм по строкам и столбцам. Точно так же, как и коэффициенты Пирсона и Спирмена, корреляция Мэтьюса лежит в диапазоне от −1 до 1, и 0 точно так же соответствует случаю полного отсутствия взаимосвязи между переменными. 1 соответствует ситуации, когда у вас X1 и X2 полностью совпадают, то есть у вас b и c равны 0, у вас отсутствуют в выборке объекты, на которых значение X1 и X2 отличаются. −1 — это ситуация противоположная: в вашей выборке нет ни одного объекта, на которых значения двух бинарных признаков совпадают. Давайте обобщим этот подход на случай категориальных признаков. Пусть у нас X1 принимает K1 разных значений, а X2 — K2 разных значений. Составим большую таблицу сопряженности, у которой в i-й строке и j-м столбце будет стоять nij — это количество объектов выборки, на которых значение признака X1 = i, а значение признака X2 = j. Вот на основании этой таблицы сопряженности мы будем считать нашу меру взаимосвязи между X1 и X2, и мера эта называется коэффициент V Крамера. Как ни странно, обозначается она не V, а φ с нижним индексом c (по первой букве фамилии Крамер). И равен этот коэффициент корню из специальным образом нормированного значения статистики хи-квадрат. Как хи-квадрат считается для таблицы сопряженности, мы узнаем очень скоро. А пока давайте обратим внимание на то, что значение коэффициент Крамера принимает исключительно в интервале от 0 до 1, то есть он не может быть отрицательным. 0 точно так же соответствует полному отсутствию взаимосвязи, а 1 — полному совпадению переменных X1 и X2 с точностью до переименования уровней. Отрицательная корреляция между двумя категориальными переменными быть не может, поскольку уровни категориальных переменных не связаны друг с другом отношениями порядков. Итак, мы разобрались, как считать корреляцию между парами бинарных переменных, парами категориальных, а до этого — как считать корреляцию между парами непрерывных переменных. Что делать, если признаки в вашей паре разных видов? Например, пусть X1 — непрерывный, а X2 — бинарный. Чисто теоретически на этих данных вы можете посчитать корреляцию Пирсона или Спирмена. Никакая из них не сломается из-за того, что одна из выборок будет не непрерывной, а бинарной. Но делать так не стоит. Это очень плохо. Корреляции Пирсона и Спирмена не рассчитаны на применение к бинарным или категориальным признакам. Величина, которую вы получите, будет иметь мало смысла. На самом деле для пар признаков, один из которых непрерывный, а другой — категориальный, вообще не нужно считать никакой коэффициент корреляции. X1 и X2 в нашем примере, где X1 непрерывный, а X2 — бинарный, будут положительно коррелированы, если матожидание X1 на объектах, где X2 = 1 больше, чем матожидание X1 на объектах, где X2 = 0. Таким образом, мерой силы взаимосвязи между X1 и X2 может служить просто разность вот этих двух математических ожиданий. Эта величина не нормированная, она может меняться в любом диапазоне, от −∞ до +∞, но интерпретировать ее намного легче, чем вот странный коэффициент корреляции, который вы можете посчитать на такой паре выборок. Итак, в этом видео мы разобрались, как считать корреляцию между бинарными переменными с помощью коэффициента Мэтьюса, между категориальными переменными с помощью коэффициента Крамера, и между парами переменных, одна из которых категориальная, а другая — непрерывная: никак. В следующем видео мы поговорим об интерпретации значений корреляции.