[БЕЗ ЗВУКА] В этом видео мы начнем разбираться со способами формализации понятия корреляции. И начнем с самого распространенного — с коэффициента корреляции Пирсона. Корреляция Пирсона — это мера силы линейной взаимосвязи между двумя случайными величинами X1 и X2. Определяется она следующим образом. Это математическое ожидание произведения отклонений случайных величин от своих математических ожиданий, деленное на корни из дисперсии этих случайных величин. Коэффициент корреляции Пирсона принимает значения от −1 до 1, где 1 соответствует идеальной линейной взаимосвязи между случайными величинами, в которой при росте X1 растет и X2. −1 — это идеальная линейная связь с отрицательным знаком. То есть когда X1 растет, X2 падает. 0 — это случай отсутствия корреляции. когда корреляция равна 0, это значит, что две случайные величины меняются независимо друг от друга. Если у вас есть выборка пар X1X2 объема n, по ней очень легко посчитать выборочный коэффициент корреляции Пирсона. Вот формула. Давайте теперь посмотрим на несколько примеров, которые помогут нам разобраться, как работает коэффициент корреляции. Рассмотрим облако точек на диаграмме рассеивания, то есть на графике, где по одной оси отложена X1, по другой – X2. Возьмем облако точек с идеальной положительной корреляцией, равной 1, и начнем это облако постепенно размывать. Вы видите, как с размытием облака коэффициент корреляции Пирсона начинает постепенно уменьшаться до 0, а потом, когда облако снова начинает сжиматься в обратном направлении, он растет по модулю и становится постепенно равным −1. Следующий эксперимент. Возьмем облако с высокой положительной корреляцией между случайными величинами, и начнем его постепенно загибать. Чем сильнее мы его искривляем, тем меньше становится коэффициент корреляции Пирсона. Когда мы превращаем наше облако в параболу, значение выборочного коэффициента корреляции получается близким к 0. Это неудивительно, поскольку корреляция Пирсона — это мера силы линейной взаимосвязи между случайными величинами. То есть все нелинейные функциональные зависимости, даже если они очень хорошо выражены, коэффициент корреляции Пирсона не обнаруживают. Это можно увидеть и на следующих примерах. Если между X1 и X2 какие-то сложные зависимости, далекие от линейных, коэффициент корреляции Пирсона будет всё равно равным 0. Следующий важный пример. Возьмем облако из тысячи точек с сильной отрицательной корреляцией. И из этого облака 5 точек начнем постепенно отодвигать в верхний правый угол диаграммы рассеивания. Мы видим, что чем дальше мы отодвигаем эти 5 точек, тем меньше по модулю становится значение выборочного коэффициента корреляции. С какого-то момента оно переходит через 0 и начинает расти. Достаточно сильно отодвинув эти всего 5 точек из тысячи, мы можем получить большой положительный коэффициент корреляции. Это говорит нам о том, что коэффициент корреляции Пирсона неустойчив к выбросам. Небольшое количество точек могут оказывать на него существенное влияние, если они находятся достаточно далеко от основного облака. Это существенная особенность корреляции Пирсона, которую нужно иметь ввиду. В следующем видео мы поговорим о корреляции Спирмена, которая к выбросам существенно более устойчива.