[БЕЗ_ЗВУКА]
[БЕЗ_ЗВУКА] Сегодня мы рассмотрим
с вами, как посчитать корреляции и проверить их значимость с помощью R.
Ну, для начала давайте также прочитаем данные,
они у нас лежат в файле dataRegression.
[ЗВУК]
[ЗВУК] Здесь
у нас есть статистика по некоторым фирмам.
У нас есть количество звонков по фирме и количество кликов по фирме.
И как раз-таки мы будем смотреть с вами,
есть ли корреляция между двумя этими переменными.
Ну, для начала давайте просто нарисуем данные и посмотрим,
как у нас выглядит диаграмма рассеяния.
[ЗВУК] Ну,
как мы видим, кажется, что зависимость данных у
нас действительно есть, и, действительно, она даже в принципе похожа на линейную,
и давайте посчитаем различные коэффициенты корреляции.
[ЗВУК] Для того чтобы указать метод,
с помощью которого мы хотим посчитать коэффициент корреляции,
необходимо явно указать его переменный метод.
Ну, если, например, мы хотим посчитать с помощью коэффициента корреляции Пирсона,
то необходимо написать Пирсон.
Ну, давайте посчитаем также коэффициенты корреляции Кендалла и Спирмена.
[ЗВУК]
[ЗВУК] Все
три коэффициента корреляции у нас получились
достаточно большие, что говорит нам о наличии сильной связи между переменными,
при том она также у нас является положительно направленной,
потому что коэффициенты корреляции у нас стремятся к единице.
Ну, как вы помните, мы говорили с вами о том, что недостаточно просто посчитать
коэффициенты корреляции, всегда хорошо бы проверить их статистическую значимость.
Для того чтобы проверить значимость коэффициентов корреляции,
мы с вами пользовались критерием Стьюдента.
Давайте проверим его для нашего случая.
Для этого нам необходимо выполнить команду cor.test.
[ЗВУК] Ну,
как вы помните,
мы говорили с вами о том, что мы проверяем нулевую гипотезу о равенстве коэффициента
корреляции нулю против различных альтернатив.
Мы можем проверить с помощью альтернативы меньше, больше либо неравенства.
Ну, для того чтобы проверить с помощью альтернативы неравенства,
нам необходимо явно указать вид альтернативы.
В данном случае нам необходимо указать, что альтернатива у нас двусторонняя,
то есть two sided.
Ну и также здесь необходимо указать метод,
с помощью которого мы считаем коэффициент корреляции, например, метод Пирсона.
[ЗВУК] Здесь
мы видим значение t статистики критерия, видим
количество степеней свободы и получившийся достигнутый уровень значимости.
Он у нас получился очень маленький, что говорит нам о том,
что мы попали в критическую область критерия, и соответственно мы должны
отвергнуть нулевую гипотезу о том, что коэффициент корреляции у нас равен нулю.
То есть мы можем сказать, что корреляция у нас данных статистически значима.
Ну и соответственно все то же самое мы можем проделать для коэффициента
корреляции Кендалла.
Здесь мы также получили очень маленькое значение p-value и также должны
отклонить нулевую гипотезу о равенстве коэффицинта корреляции Кендалла нулю.
И соответственно то же самое мы можем посчитать для коэффициента корреляции
Спирмена.
Здесь мы видим, что R выдал нам
предупреждение о том, что он не смог посчитать
точное значение достигнутого уровня значимости по предельному распределению,
и, соответственно, он предупреждает нас, чтобы мы учитывали это в своих выводах.
Чтобы не видеть этого предупреждения, можно поставить следующее условие.
Если мы ставим exact = FALSE, мы заранее говорим R,
чтобы он не считал достигнутый уровень значимости через предельное распределение,
и, соответственно, в таком случае предупреждение он нам не выдаст.
Таким образом, мы посчитали все три коэффициента корреляции для наших данных,
они все получились достаточно близкими к единице, мы можем сделать вывод,
что корреляция данных у нас есть, она положительно направлена, и, кроме того,
мы проверили ее статистическую значимость.