[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Итак, гетероскедастичность.
Другое красивое слово с некрасивыми последствиями.
Что оно означает, как ее выявить и что с ней делать.
Гетероскедастичностью называют ситуацию, в которой нарушается одно из принципиальных
предположений об ошибках в регрессионной модели.
Вы помните, мы обсуждали эти ошибки ранее, мы обсуждали требования к ним и помним,
что у нас одно из требований к ним — это одинаковый стиль и постоянство
их дисперсии.
То есть дисперсия ошибок никак не зависит от факторов,
которые включаются в регрессионную модель.
Гетероскедастичность — это нарушение этого предположения.
Когда дисперсия, разброс, вот эта вот необъясненная часть у нас зависит от
одного или нескольких факторов, включенных в регрессионную модель.
К примеру, если мы исследуем взаимосвязь семейных сбережений и семейного дохода
и пытаемся понять, как зависят сбережения от дохода, то мы почти наверняка увидим,
что чем выше доходы, тем выше дисперсия.
Потому что чем богаче человек, чем больше денег в распоряжении,
тем больше вариантов как ими пользоваться.
Их можно тратить, их можно вкладывать, их можно, опять-таки,
сберегать или что-нибудь еще с ними делать.
И вот ситуация, которую вы видите на экране, она как раз показывает.
Первый случай — это пример, если бы у нас была ситуация гомоскедастичности,
когда у нас разброс расположен вдоль линии прогноза равномерно, постоянно, то есть
нет никакой значимой закономерности, точки более или менее рассыпаны похожим образом.
Во втором случае пример гетероскедастичности, когда очевидно,
с ростом одного признака по линии прогноза у нас растет не только другой признак,
но и растет дисперсия.
Это как раз ситуация с доходами.
Мы можем предполагать, что чем больше доходов,
тем больше дисперсия в способах распоряжения этими доходами.
Кто-то всё сберегает, кто-то всё вкладывает, кто-то всё тратит и так далее.
Почему же это плохо, чем нам мешает гетероскедастичность?
Она нам мешает тем, что портит оценки параметров модели,
они будут менее эффективны, но в противоположном направлении.
Здесь, наоборот, ошибки занижаются, а t-статистики будут завышаться.
И качество модели нам будет казаться выше, чем оно есть на самом деле.
Откуда может браться гетероскедастичность?
Один из вариантов, когда у нас есть смесь в данных, когда у нас есть две подгруппы,
в которых исследуемая нами взаимосвязь проявляет себя неодинаково.
Но это мы могли бы заметить уже на этапе исследования распределений или диаграмм
рассеяния, увидеть эти группы и посмотреть на них отдельно.
Другой вариант — это особенности данных, как в случае с доходами.
Чем выше доходы, тем больше разброс вариантов, что с ними делать.
Такая же ситуация была бы, если бы мы исследовали, например,
ВНП либо благосостояние страны в целом.
И для бедной страны изменение ВНП на единицу было бы индикатором серьезного
прорыва, для богатой страны изменение ВНП на единицу могло быть просто
случайным отклонением.
Когда у нас дисперсия сильно неодинакова для каждого наблюдения.
Как мы можем обнаружить гетероскедастичность?
Ну, во-первых, анализ совместных распределений.
Говорили уже, что визуальный анализ данных помогает нам очень много что обнаружить и
проблему снять.
Во-вторых, нужно анализировать остатки их распределения.
Про анализ остатков будет следующая лекция, и вы увидите,
что анализ остатков он вообще необходим в регрессионном анализе,
и он помогает нам увидеть и снять не только эту проблему, но и многие другие.
Можно также рассчитать коэффициент ранговой корреляции Спирмена,
мы уже знаем его формулу.
Но здесь у нас в числителе будет не разница рангов по x и по y,
а разница рангов по x и по соответствующему ему остатку.
В таком случае мы увидим, если они коррелированы, значит,
почти наверняка у нас будет гетероскедастичность.
Также есть другие тесты,
на которые мы повнимательнее посмотрим в практической части модуля.
Как можно бороться с гетероскедастичностью?
Во-первых, можно преобразовывать переменные.
Либо какие-то значения убрать, либо логарифмировать,
что нам опять-таки поможет снизить эффект расширяющейся дисперсии.
Можно также использовать взвешенный метод наименьших квадратов,
который вносит поправку на остатки,
значения корректируются в соответствии со стандартными отклонениями остатков.
Либо можно сразу вычислять стандартные ошибки не в чистом виде, как вы видели в
предыдущих лекциях, а с поправкой на возможное наличие гетероскедастичности.
Какие это поправки и как их задавать,
мы опять-таки посмотрим в практической части курса.
Сейчас заканчиваем,
а в следующей лекции поговорим подробнее об анализе остатков и о том, как проверять
соблюдение принципиальных предположений в ошибках регрессионной модели.