[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] [МУЗЫКА] Итак,
как строить факторную модель, мы уже знаем.
Осталось выяснить, как оценить качество построенной модели.
Здесь у нас есть несколько способов оценить это качество.
И мы с вами помним в целом,
что у нас факторный анализ — штука субъективная в существенной части.
При этом главный компонент содержит какую-то статистическую основу.
Но кроме статистической основы у нас есть вещи, которые касаются здравого смысла
и каких-то эмпирических характеристик, которыми обладает наша построенная модель.
Давайте поговорим о них подробнее.
Формальные способы оценки качества — это та самая статистика.
Здесь мы поговорим о тесте КМО и тесте Бартлетта.
Эмпирически — это вот те самые цифровые характеристики построенной модели.
Здесь самое важное для нас — это доля объясненной дисперсии,
какую часть разброса объясняет вся модель в целом, и общности,
какая часть дисперсии признака исходного объяснилась полученной моделью.
Ну и содержательное — это то,
что касается интерпретируемости модели: имеет ли смысл для нас то,
что мы построили и понимаем ли мы, что с построенной классификацией делать дальше.
Давайте по порядку.
Начнем с формальных критериев.
Критерии КМО — это критерии адекватности выборки.
Та гипотеза, которая здесь проверяется, это гипотеза о том,
насколько выборка адекватна поставленным задачам.
То есть то, что там происходит, это фактически частные корреляции между парами
признаков проверяются на предмет того,
действительно ли это объясняется их взаимосвязью, а не чем-то третьим.
Каким образом это делается, я, честно говоря, не знаю, но делается.
То, что мы совершенно точно знаем, у нас есть эмпирические ориентиры для значения
вот этого вот критерия, когда наша модель хороша.
Вы видите вот эту табличку на экране сейчас и можете ей пользоваться.
То есть в том случае, если у вас КМО получается значения типа 0,7–0,8 и выше,
то вы в «надежных руках», как говорится.
Можно продолжать работать с этой моделью.
По крайней мере, взаимосвязь между этими признаками действительно имеет смысл,
а не есть что-то третье, что объясняет это за рамками модели, за рамками того,
что нам понятно.
Следующий тест — это тест Бартлетта.
Здесь немножечко понятней, что происходит,
и он проверяет вот эту базовую возможность построения факторной модели.
Мы помним, что факторная модель возможна тогда,
когда исходные признаки коррелированы между собой, потому что именно эта
взаимосвязанность позволяет нам строить обобщенные какие-то факторы.
Нулевая гипотеза в тесте Бартлетта — это диагональность корреляционной матрицы.
То есть что это означает?
По диагонали единицы — каждый признак связан сам с собой,
а все остальное заполнено нулями,
то есть каждый признак не связан ни с каким другим признаком, кроме себя самого.
Если у нас корреляционная матрица диагональная,
тогда факторная модель невозможна.
Здесь у нас рассчитываются эмпирическое значение теста и достигнутый уровень
значимости.
Как и при любой проверке статистических гипотез у нас уровень значимости,
критическое значение мы можем положить 0,05,
и если уровень значимости превышает 0,05, то нулевая гипотеза,
корреляционная матрица диагональная, прощаемся с идеей факторного анализа.
Если уровень значимости меньше, чем 0,05, значит,
корреляционная матрица не диагональна, и значит, какие-то из
признаков коррелированы между собой, и мы можем продолжать строить факторную модель.
То есть в том случае, если наша факторная модель не проходит вот эти два
первых буфера: тест КМО на адекватность выборки и тест
Бартлетта на диагональность корреляционной матрицы, тогда дальше можно не смотреть.
Тогда совершенно не важно, сколько дисперсий объяснила эта модель,
она просто права на существование не имеет со статистической точи зрения.
Но если мы прошли эти два буфера и начинаем дальше анализировать, что же мы,
собственно, получили, важный признак для нас — это доля объясненной дисперсии.
Мы с вами говорили об общности и специфичности, и модель хороша,
когда она объясняет много дисперсий, а теряет мало.
То есть если мы, переходя от 25 признаков к пяти, сохранили 80 % или 90 % дисперсии,
то тогда действительно 25 были не нужны.
Но если мы растеряли больше половины на этом пути, ну тогда,
соответственно, факторная модель, может быть, нас запутывает скорее,
чем что-то проясняет и раскрывает какие-то скрытые механизмы для нас.
Доля объясненной дисперсии выдается в табличке.
В практической части модуля мы увидим, как это задавать и как это анализировать.
У нас, как мы видим, с нашей моделью все хорошо.
У нас было шесть признаков.
Мы получили два фактора, и при этом больше 90 % дисперсии у нас сохранилось.
Вот здесь вы видите в последнем столбике эту цифру — суммарная дисперсия,
объясненная обоими факторами.
И если мы видим, что здесь у нас величина меньше 50 %,
то тогда нам нужно будет насторожиться.
Тогда почти наверняка у нас объясненное и необъясненное находятся в равной
пропорции, и необъясненного даже больше.
Тогда нужна ли эта факторная модель — большой вопрос.
Дальше — общности.
Если доля объясненной дисперсии характеризует модель в целом,
то общности характеризуют...
Ну вот эта табличка с мощностями, которую вы сейчас видите, она характеризует
пригодность каждого из признаков для использования факторной модели.
То есть, что мы здесь видим?
Здесь мы видим первый столбик — это, собственно, название исходных признаков.
Дальше идут исходные общности.
То есть каждый признак перешел в модель и принес ей единичную дисперсию.
Следующий столбик — это то, что объяснилось моделью.
То есть каждый принес 1, что-то по дороге потерял.
Последний столбик — это то, что объяснилось моделью.
Здесь мы видим, что у нас все хорошо,
у нас все признаки сохранили существенную часть дисперсии.
Но если мы видим, и так бывает на больших выборках и на большом количестве исходных
признаков, если мы строим факторную модель, например, на 50 переменных о
потреблении и на 5 000 человек в выборке, то тогда у нас почти наверняка все будет
хуже с объясненной дисперсией, с общностями все будет не так однозначно.
Здесь все хорошо.
Чем, соответственно, больше, тем лучше.
Единицы, наверное, не бывает.
Если бывает, то очень редко, но если мы видим значение вот этой модельной общности
последнего столбика для какого-то из признаков меньшее, чем 0,2,
ну что это означает?
Единицу принес — только 20 % от этой единицы объяснилось, 80 % потерялось.
Этот признак нам мешает сильнее, чем помогает.
Тогда хорошей рекомендацией было бы отбросить его и перестроить
факторную модель уже без использования этого признака.
Ну и, наконец, содержательная вещь, про которую мы уже отчасти поговорили, это то,
что построенная модель должна иметь для нас смысл.
На нашем вымышленном примере все просто.
То есть мы видим, что у нас физико-математические дисциплины
коррелированы между собой — это первый фактор.
Гуманитарные дисциплины коррелированы между собой — это второй фактор.
И мы действительно предполагали, что у нас среди наших школьников будут те,
кто пойдет в физмат класс, и те, кто пойдет в гуманитарный класс,
исходя из своих склонностей или исходя из успеваемости по разным предметам.
И мы в этой модели получили, собственно, что вот...
Интерпретируемую, понятную.
Мы, по крайней мере, знаем, что значит каждый из факторов,
и примерно представляем, что с ними делать.
Далеко не всегда все так однозначно.
В вымышленных примерах что хорошо?
Они показывают ярко то, что мы хотим понять, но на реальных данных,
как правило, все гораздо более запутано.
И чем больше у нас объем выборки и чем больше у нас признаков
включается в факторную модель, тем больше путаницы.
В следующей лекции мы разберем построение факторной модели на реальных данных,
на RLMS, и там мы увидим, как непросто все может быть,
но при этом посмотрим на какие-то типичные проблемы и как с ними можно справляться.