В этом видео
мы перейдем от предсказательных интервалов к доверительным и поговорим о том,
чем они отличаются, и как эти доверительные интервалы строить.
Ну давайте сначала вернемся к более общей задаче.
Пусть у нас есть некоторая случайная величина X с функцией распределения,
зависящей от неизвестного параметра θ.
Как что-то о значении параметра θ можно сказать?
Мы собираем выборку X с верхним индексом n,
и по этой выборке считаем значение какой-то статистики θ с крышкой.
Если мы хорошо подобрали статистику,
то она может служить оценкой для неизвестного параметра θ.
Например, если θ — это математическое ожидание X,
то ее хорошая выборочная оценка — это выборочное среднее,
то есть среднее всех X, которые есть в нашей выборке.
Кроме точечных оценок, нас интересует интервальные,
то есть доверительные интервалы.
Доверительным интервалом для параметра θ называется такая пара статистик CL,
CU, что интервал, который эта пара образует, содержит наше неизвестное
значение параметра с вероятностью не меньше, чем 1 − α.
1 − α — это уровень доверия нашего интервала.
Как вот эти CL и CU (нижние и верхние доверительные пределы)
оценивать по выборке?
Если у нас есть оценка θ с крышкой для параметра θ и мы знаем
распределение θ с крышкой — обозначим его за F с индексом θ с крышкой,
— то по этому распределению мы можем очень легко найти доверительный интервал для θ.
Мы просто возьмем квантили этого распределения порядка α / 2 и 1 − α / 2,
и эти квантили будут образовывать доверительный интервал для θ
с уровнем доверия 1 − α.
Давайте построим доверительный интервал для матожидания нормальной распределенной
случайной величины.
Снова будем предполагать, что дисперсия известна.
Оценкой для параметра μ является выборочное среднее,
то есть X с чертой и с индексом n.
Поскольку наша выборка взята из нормального распределения,
ее выборочное среднее также имеет нормальное распределение,
поскольку нормальное распределение замкнуто относительно суммирования.
Распределение выборочного среднего — нормальное,
с тем же матожиданием μ и с дисперсией в n раз меньше, то есть σ² / n.
Таким образом, для выборочного среднего, которое является случайной величиной,
мы знаем распределение, а значит, мы можем построить для нее предсказательный
интервал, как мы научились делать в предыдущем видео.
Предсказательный интервал для выборочного среднего имеет вид: μ
± z порядка 1 − α / 2 * (σ / √n).
Вот это деление на √n здесь появляется,
поскольку дисперсия случайной величины и выборочное среднее равна σ² / n.
В таком интервале наше выборочное среднее лежит с вероятностью,
в точности равной 1 − α.
Теперь, чтобы построить доверительный интервал для μ, единственное, что
нам нужно сделать — это в неравенствах, которые стоят под знаком вероятности,
перенести через знаки неравенства μ и выборочное среднее.
Мы получим, что вероятность того,
что μ лежит на отрезке от выборочного среднего −z
порядка 1 − α / 2 * (σ / √n),
до выборочного среднего +z порядка 1 − α / 2 *
σ / √n = точно так же в точности 1 − α.
Таким образом, мы построили доверительный интервал для μ.
Давайте поговорим об отличиях между этими двумя интервалами (предсказательном и
доверительном).
В предсказательном интервале границы не случайны, случайно то,
что стоит между этих границ, то есть наша случайная величина — выборочное среднее.
В доверительном интервале все ровно наоборот: то,
что стоит в середине — это не случайный параметр.
Параметр μ — это какая-то фиксированная константа, просто мы ее не знаем.
А случайными являются как раз границы интервала.
Для нормально распределенной случайной величины с матожиданием μ и дисперсией
σ² предсказательный интервал имеет вид: μ ± z порядка 1 − α / 2 * σ.
Если мы хотим этот предсказательный интервал как-то оценивать по выборке,
нам нужно избавиться от μ в его границах, потому что μ нам не известно.
Единственное, что мы можем сделать,
и лучшее, что мы можем сделать — это заменить μ на выборочное среднее.
Таким образом, наш предсказательный интервал для случайной величины X
— это выборочное среднее ± z порядка 1 − α / 2 * σ.
В свою очередь доверительный интервал для μ, который мы по той же самой выборке
можем построить, имеет вид: выборочное среднее ±z порядка
1 − α / 2 * (σ / √n), то есть он в √n раз уже.
Это неудивительно, поскольку предсказательный интервал оценивает
диапазон, в котором меняется сама случайная величина,
а доверительный интервал для среднего говорит, в каком диапазоне,
мы предполагаем, лежит среднее этой случайной величины.
Вообще говоря, этой техникой можно пользоваться для построения доверительных
интервалов для матожидания не только нормально распределенных случайных
величин, но и практически любых других.
На помощь нам приходит центральная предельная теорема.
Она говорит нам, что распределение выборочного среднего по достаточно большой
выборке — если распределение исходной случайной величины не слишком скошено —
может быть аппроксимировано нормальным с средним, равным среднему
исходной случайной величины, и дисперсией, которая в n раз меньше.
Таким образом, доверительный интервал для матожидания исходной случайной величины
имеет вид: выборочное среднее ± z порядка 1 − α / 2, умноженное на
дисперсию нашей случайной величины, если она известна, деленное на √n.
Итак, в этом видео мы поговорили о доверительных интервалах, мы обсудили,
чем они отличаются от предсказательных и как их можно строить,
зная распределение статистик.
Мы построили доверительные интервалы для выборочного среднего нормального
распределения с известной дисперсией.
Чтобы двигаться дальше, нам понадобится ввести еще несколько распределений.
В следующем видео мы поговорим о трех распределениях,
которые порождаются нормальным.