[МУЗЫКА] [МУЗЫКА] Уважаемые слушатели, данный видеоурок посвящен работе с выборками за некоторой случайной величиной x, подчиняющейся заданному закону распределения. Итак, откроем следующий скрипт и посмотрим, какие функции у нас имеются в языке R для работы с распределениями. В языке R предусмотрена работа с различными распределениями, для которых зарезервированы следующие слова, в частности, unif для равномерного распределения, norm — нормальное, лог-нормальное, экспоненциальное, гамма и так далее. Рассмотрим основные функции работы с этими распределениями на примере нормального. У нас имеются следующие функции. Если команда начинается с r, а далее следует имя распределения, данная команда будет генерировать нам случайную выборку объема n из заданного распределения; p, также с именем распределения, будет давать нам значение функции распределения F(x); dnorm, density — это будет значение плотности, и q — это значение квантиля заданного уровня. Рассмотрим работу с этими функциями в пакете R. Для начала я хочу сгенерировать случайную последовательность значений, выбранную из нормального распределения с параметрами 0 и 1, то есть стандартного нормального распределения. Сформируем выборку объемом 100 значений, а далее укажем значения математического ожидания и дисперсии. Посмотрим, что у нас получилось, какая последовательность была сформирована. Мы видим последовательность, состоящую из 100 значений, предположительно, распределенных по нормальному закону с заданными параметрами 0, 1. Кстати, если мы хотим сгенерировать выборку из стандартного нормального закона, указывать параметры необязательно, то есть параметры 0, 1 будут идти по умолчанию. Посмотрим, каком объем этой выборки, то есть количество объектов в данной последовательности. Это можно сделать с помощью функции length. И мы видим, что количество значений равно 100. Сумма элементов определяется командой sum. И мы можем также рассчитать среднее значение, выборочное среднее для данной выборки, разделив сумму на количество наблюдений, то есть по стандартной формуле среднего арифметического. Как видим, мы получаем значение, близкое к нулю. Но ту же самую операцию можно было сделать встроенной в язык R функцией нахождения среднего mean. Как видим, мы получили абсолютно то же самое значение. Еще одной важной, основной характеристикой распределения является дисперсия. Для нашей выборки мы можем вычислить выборочную дисперсию с помощью операции var, то есть variance. Мы задавали параметр, соответствующей дисперсии, равным единице, и получили оценку дисперсии, близкую к единице. Среднеквадратическое отклонение, то есть корень из дисперсии, вычисляется с помощью операции sd, standard deviation. Он также должен быть теоретически равен единице, у нас получилось значение, близкое к единице. Среднеквадратическое отклонение является корнем из дисперсии, соответственно, то же самое значение мы могли получить, извлекая корень из найденной дисперсии. Как видим, это значение совпадает со значением выше. Медиана, для расчета медианы, и квантили. Посмотрим, что нам даст эта функция. Функция квантилей определяет нам вполне конкретные значения для уровня 0 %, 25 %, 50, 75 и 100. Если мы хотим вывести квантили с заданными вероятностями, то мы должны указать их с помощью дополнительного параметра prob, probability. Укажем вектор значений вероятностей, для которых мы хотим рассчитать квантили. Например, пусть это будут только значения 25 и 75. Мы, соответственно, получаем значения, которые также у нас содержались в векторе выше, но теперь мы видим только два, которые мы указали в векторе вероятностей. Также может быть найден квантиль абсолютно любого уровня вероятности от 0 до 1. Также в языке R есть функция summary, которая выдает сразу несколько числовых характеристик, а именно это минимальное и максимальное значение, медиана и среднее значение и первый и третий квартили, то есть квантили, соответствующие вероятности 0,25 и 0,75. Также мы можем сгенерировать выборки, соответствующие и другим распределениям, используя функцию аналогичной конструкции, которая начинается с буквы r, а дальше идет имя, соответствующее выбранному закону распределения. Например, если мы хотим сформировать выборку биномиального закона распределения объемом 200 с параметрами n = 10 и вероятностью 0,6, мы используем rbinom, указывая в скобках соответствующие значения параметров, и получаем вот такую вот последовательность. Биномиально распределенная случайная величина принимает значения от 0 до 10, и, соответственно, данная операция дала нам последовательность 200 наблюдений значений от 0 до 10. Понятно, что вероятность у нас была 0,6, и, соответственно, не все возможные значения вошли в эту выборку. Что мы можем построить для данной выборки? Эта выборка дискретная с повторами, соответственно, мы можем представить ее вариационным рядом. Для построения вариационного ряда мы можем использовать операцию table. Результатом действия данной операции является последовательность различных значений, содержащихся в выборке, которые указываются в первой строке в порядке возрастания, а во второй строке у нас указываются абсолютные частоты, то есть сколько раз соответствующее значение попало в нашу выборку. [МУЗЫКА] [МУЗЫКА]