Оценка значимости уравнения регрессии и особенности применения коэффициента детерминации. Оценка значимости уравнения множественной регрессии

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров . Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации : Средняя ошибка аппроксимации не должна превышать 8–10%.

Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера , которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – «объясненную» и «необъясненную»: где – общая сумма квадратов отклонений; – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера: Фактическое значение F -критерия Фишера сравнивается с

табличным значением F табл(a; k 1; k 2) при уровне значимости a и степенях свободы k 1 = m и k 2= n -m -1.При этом, если фактическое значение F - критерия больше табличного, то признается статистическая значимость уравнения в целом.

Для парной линейной регрессии m =1, поэтому

Величина F -критерия связана с коэффициентом детерминации R2 ее можно рассчитать по следующей формуле:

В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров . С этой целью по каждому из параметров определяется его стандартная ошибка: m b и m a . Стандартная ошибка коэффициента регрессии определяется по формуле:, где

Величина стандартной ошибки совместно с t –распределением Стьюдента при n -2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала. Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t -критерия Стьюдента: которое затем сравнивается с табличным значением при определенном уровне значимости a и числе степеней свободы (n-2). Доверительный интервал для коэффициента регрессии определяется как b ± t табл ×mb . Поскольку знак коэффициента регрессии указывает на рост результативного признака y при увеличении признака-фактора x (b >0), уменьшение результативного признака при увеличении признака-фактора (b <0) или его независимость от независимой переменной (b =0), то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -1,5 £ b £ 0,8. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра a определяется по формуле: Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии. Вычисляется t -критерий: , его величина сравнивается с табличным значением при n - 2 степенях свободы.


Для коэффициентов регрессионного уравнения проверка их уровня значимости осуществляется по t -критерию Стьюдента и по критерию F Фишера. Ниже мы рассмотрим оценку достоверности показателей регрессии только для линейных уравнений (12.1) и (12.2).

Y=a 0 + a 1 X (12.1)

Х= b 0 + b 1 Y (12.2)

Для это типа уравнений оценивают по t -критерию Стьюдента только величины коэффициентов а b 1с использованием вычисления величины Тф по следующим формулам:

Где r yx коэффициент корреляции, а величину а 1можно вычислить по формулам 12.5 или 12.7.

Формула (12.27) используется для вычисления величины Тф, а 1уравнения регрессии Y по X.

Величину b 1можно вычислить по формулам (12.6) или (12.8).

Формула (12.29) используется для вычисления величины Тф, которая позволяет оценить уровень значимости коэффициента b 1уравнения регрессии X по Y

Пример. Оценим уровень значимости коэффициентов регрессии а b 1уравнений (12.17), и (12.18), полученных при решении задачи 12.1. Воспользуемся для этого формулами (12.27), (12.28), (12.29) и (12.30).

Напомним вид полученных уравнений регрессии:

Y х = 3 + 0,06 X (12.17)

X y = 9+ 1 Y (12.19)

Величина а 1в уравнении (12.17) равна 0,06. Поэтому для расчета по формуле (12.27) нужно подсчитать величину Sb y х. Согласно условию задачи величина п = 8. Коэффициент корреляции также уже был подсчитан нами по формуле 12.9: r xy = √ 0,06 0,997 = 0,244 .

Осталось вычислить величины Σ (у ι - y ) 2 и Σ (х ι –x ) 2 , которые у нас не подсчитаны. Лучше всего эти расчеты проделать в таблице 12.2:

Таблица 12.2

№ испыту­емых п/п х ι у i х ι –x (х ι –x ) 2 у ι - y (у ι - y ) 2
-4,75 22,56 - 1,75 3,06
-4,75 22,56 -0,75 0,56
-2,75 7,56 0,25 0,06
-2,75 7,56 1,25 15,62
1,25 1,56 1,25 15,62
3,25 10,56 0,25 0,06
5,25 27,56 -0,75 0,56
5,25 27,56 0,25 0,06
Суммы 127,48 35,6
Средние 12,75 3,75

Подставляем полученные значения в формулу (12.28), получаем:

Теперь рассчитаем величину Тф по формуле (12.27):

Величина Тф проверяется на уровень значимости по таблице 16 Приложения 1 для t- критерия Стьюдента. Число степеней свободы в этом случае будет равно 8-2 = 6, поэтому критические значения равны соответственно для Р ≤ 0,05 t кр = 2,45 и для Р≤ 0,01 t кр =3,71. В принятой форме записи это выглядит так:

Строим «ось значимости»:

Полученная величина Тф Н о о том, что величина коэффициента регрессии уравнения (12.17) неотличима от нуля. Иными словами, полученное уравнение регрессии неадекватно исходным экспериментальным данным.



Рассчитаем теперь уровень значимости коэффициента b 1. Для этого необходимо вычислить величину Sb xy по формуле (12.30), для которой уже расчитаны все необходимые величины:

Теперь рассчитаем величину Тф по формуле (12.27):

Мы можем сразу построить «ось значимости», поскольку все предварительные операции были проделаны выше:

Полученная величина Тф попала в зону незначимости, следовательно мы должны принять гипотезу H о о том, что величина коэффициента регрессии уравнения (12.19) неотличима от нуля. Иными словами, полученное уравнение регрессии неадекватно исходным экспериментальным данным.

Нелинейная регрессия

Полученный в предыдущем разделе результат несколько обескураживает: мы получили, что оба уравнения регрессии (12.15) и (12.17) неадекватны экспериментальным данным. Последнее произошло потому, что оба эти уравнения характеризуют линейную связь между признаками, а мы в разделе 11.9 показали, что между переменными X и Y имеется значимая криволинейная зависимость. Иными словами, между переменными Х и Y в этой задаче необходимо искать не линейные, а криволинейные связи. Проделаем это с использованием пакета «Стадия 6.0» (разработка А.П. Кулаичева, регистрационный номер 1205).

Задача 12.2 . Психолог хочет подобрать регрессионную модель, адекватную экспериментальным данным, полученным в задаче 11.9.

Решение. Эта задача решается простым перебором моделей криволинейной регрессии предлагаемых в статистическом пакете Стадия. Пакет организован таким образом, что в электронную таблицу, которая является исходной для дальнейшей работы, заносятся экспериментальные данные в виде первого столбца для переменной X и второго столбца для переменной Y. Затем в основном меню выбирается раздел Статистики, в нем подраздел - регрессионный анализ, в этом подразделе вновь подраздел - криволинейная регрессия. В последнем меню даны формулы (модели) различных видов криволинейной регрессии, согласно которым можно вычислять соответствующие регрессионные коэффициенты и сразу же проверять их на значимость. Ниже рассмотрим только несколько примеров работы с готовыми моделями (формулами) криволинейной регрессии.



1. Первая модель - экспонента . Ее формула такова:

При расчете с помощью статпакета получаем а 0 = 1 и а 1 = 0,022.

Расчет уровня значимости для а, дал величину Р = 0,535. Очевидно, что полученная величина незначима. Следовательно, данная регрессионная модель неадекватна экспериментальным данным.

2. Вторая модель - степенная . Ее формула такова:

При подсчете а о = - 5,29, а, = 7,02 и а 1 = 0,0987.

Уровень значимости для а 1 - Р = 7,02 и для а 2 - Р = 0,991. Очевидно, что ни один из коэффициентов не значим.

3. Третья модель - полином . Ее формула такова:

Y = а 0 + а 1 X + а 2 X 2 + а 3 X 3

При подсчете а 0 = - 29,8, а 1 = 7,28, а 2 = - 0,488 и а 3 = 0,0103. Уровень значимости для а, - Р = 0,143, для а 2 - Р = 0,2 и для а, - Р= 0,272

Вывод - данная модель неадекватна экспериментальным данным.

4. Четвертая модель - парабола .

Ее формула такова: Y= a o + a l -X 1 + а 2 Х 2

При подсчете а 0 = - 9,88, а, = 2,24 и а 1 = - 0,0839 Уровень значимости для а 1 - Р = 0,0186, для а 2 - Р = 0,0201. Оба регрессионных коэффициента оказались значимыми. Следовательно, задача решена - мы выявили форму криволинейной зависимости между успешностью решения третьего субтеста Векслера и уровнем знаний по алгебре - это зависимость параболического вида. Этот результат подтверждает вывод, полученный при решении задачи 11.9 о наличии криволинейной зависимости между переменными. Подчеркнем, что именно с помощью криволинейной регрессии был получен точный вид зависимости между изучаемыми переменными.


Глава 13 ФАКТОРНЫЙ АНАЛИЗ

Основные понятия факторного анализа

Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.

Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, «сырых», экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.

Необходимо подчеркнуть, что исходная таблица данных, из которой получается корреляционная матрица, не обязательно должна быть квадратной. Например, психолог измерил три показателя интеллекта (вербальный, невербальный и общий) и школьные отметки по трем учебным предметам (литература, математика, физика) у 100 испытуемых - учащихся девятых классов. Исходная матрица данных будет иметь размер 100 × 6, а матрица интеркорреляций размер 6 × 6, поскольку в ней имеется только 6 переменных. При таком количестве переменных матрица интеркорреляций будет включать 15 коэффициентов и проанализировать ее не составит труда.

Однако представим, что произойдет, если психолог получит не 6, а 100 показателей от каждого испытуемого. В этом случае он должен будет анализировать 4950 коэффициентов корреляции. Число коэффициентов в матрице вычисляется по формуле n (n+1)/2 и в нашем случае равно соответственно (100×99)/2= 4950.

Очевидно, что провести визуальный анализ такой матрицы - задача труднореализуемая. Вместо этого психолог может выполнить математическую процедуру факторного анализа корреляционной матрицы размером 100 × 100 (100 испытуемых и 100 переменных) и таким путем получить более простой материал для интерпретации экспериментальных результатов.

Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению.

Элементы факторной матрицы называются или весами»; и они представляют собой коэффициенты корреляции данного фактора со всеми показателями, использованными в исследовании. Факторная матрица очень важна, поскольку она показывает, как изучаемые показатели связаны с каждым выделенным фактором. При этом факторный вес демонстрирует меру, или тесноту, этой связи.

Поскольку каждый столбец факторной матрицы (фактор) является своего рода переменной величиной, то сами факторы также могут коррелировать между собой. Здесь возможны два случая: корреляция между факторами равна нулю, в таком случае факторы являются независимыми (ортогональными). Если корреляция между факторами больше нуля, то в таком случае факторы считаются зависимыми (облическими). Подчеркнем, что ортогональные факторы в отличие от облических дают более простые варианты взаимодействий внутри факторной матрицы.

В качестве иллюстрации ортогональных факторов часто приводят задачу Л. Терстоуна, который, взяв ряд коробок разных размеров и формы, измерил в каждой из них больше 20 различных показателей и вычислил корреляции между ними. Профакторизовав полученную матрицу интеркорреляций, он получил три фактора, корреляция между которыми была равна нулю. Этими факторами были «длина», «ширина» и «высота».

Для того чтобы лучше уловить сущность факторного анализа, разберем более подробно следующий пример.

Предположим, что психолог у случайной выборки студентов получает следующие данные:

V 1 - вес тела (в кг);

V 2 - количество посещений лекций и семинарских занятий по предмету;

V 3 - длина ноги (в см);

V 4 - количество прочитанных книг по предмету;

V 5 - длина руки (в см);

V 6 - экзаменационная оценка по предмету (V - от английского слова variable - переменная).

При анализе этих признаков не лишено оснований предположение о том, что переменные V 1 , К 3 и V 5 - будут связаны между собой, поскольку, чем больше человек, тем больше он весит и тем длиннее его конечности. Сказанное означает, что между этими переменными должны получиться статистически значимые коэффициенты корреляции, поскольку эти три переменные измеряют некоторое фундаментальное свойство индивидуумов в выборке, а именно: их размеры. Точно так же вероятно, что при вычислении корреляций между V 2 , V 4 и V 6 тоже будут получены достаточно высокие коэффициенты корреляции, поскольку посещение лекций и самостоятельные занятия будут способствовать получению более высоких оценок по изучаемому предмету.

Таким образом, из всего возможного массива коэффициентов, который получается путем перебора пар коррелируемых признаков V 1 и V 2 , V t и V 3 и т.д., предположительно выделятся два блока статистически значимых корреляций. Остальная часть корреляций - между признаками, входящими в разные блоки, вряд ли будет иметь статистически значимые коэффициенты, поскольку связи между такими признаками, как размер конечности и успеваемость по предмету, имеют, скорее всего, случайный характер. Итак, содержательный анализ 6 наших переменных показывает, что они, по сути дела, измеряют только две обобщенные характеристики, а именно: размеры тела и степень подготовленности по предмету.

К полученной матрице интеркорреляций, т.е. вычисленным попарно коэффициентам корреляций между всеми шестью переменными V 1 - V 6 , допустимо применить факторный анализ. Его можно проводить и вручную, с помощью калькулятора, однако процедура подобной статистической обработки очень трудоемка. По этой причине в настоящее время факторный анализ проводится на компьютерах, как правило, с помощью стандартных статистических пакетов. Во всех современных статистических пакетах есть программы для корреляционного и факторного анализов. Компьютерная программа по факторному анализу по существу пытается «объяснить» корреляции между переменными в терминах небольшого числа факторов (в нашем примере двух).

Предположим, что, используя компьютерную программу, мы получили матрицу интеркорреляций всех шести переменных и подвергли ее факторному анализу. В результате факторного анализа получилась таблица 13.1, которую называют «факторной матрицей», или «факторной структурной матрицей».

Таблица 13.1

Переменная Фактор 1 Фактор 2
V 1 0,91 0,01
V 2 0,20 0,96
V 3 0,94 -0,15
V 4 0,11 0,85
V 5 0,89 0,07
V 6 -0,13 0,93

По традиции факторы представляются в таблице в виде столбцов, а переменные в виде строк. Заголовки столбцов таблицы 13.1 соответствуют номерам выделенных факторов, но более точно было бы их называть «факторные нагрузки», или «веса», по фактору 1, то же самое по фактору 2. Как указывалось выше, факторные нагрузки, или веса, представляют собой корреляции между соответствующей переменной и данным фактором. Например, первое число 0,91 в первом факторе означает, что корреляция между первым фактором и переменной V 1 равна 0,91. Чем выше факторная нагрузка по абсолютной величине, тем больше ее связь с фактором.

Из таблицы 13.1 видно, что переменные V 1 V 3 и V 5 имеют большие корреляции с фактором 1 (фактически переменная 3 имеет корреляцию близкую к 1 с фактором 1). В то же время переменные V 2 , V 3 и У 5 имеют корреляции близкие к 0 с фактором 2. Подобно этому фактор 2 высоко коррелирует с переменными V 2 , V 4 и V 6 и фактически не коррелирует с переменными V 1 , V 3 и V 5

В данном примере, очевидно, что существуют две структуры корреляций, и, следовательно, вся информация таблицы 13.1 определяется двумя факторами. Теперь начинается заключительный этап работы - интерпретация полученных данных. Анализируя факторную матрицу, очень важно учитывать знаки факторных нагрузок в каждом факторе. Если в одном и том же факторе встречаются нагрузки с противоположными знаками, это означает, что между переменными, имеющими противоположные знаки, существует обратно пропорциональная зависимость.

Отметим, что при интерпретации фактора для удобства можно изменить знаки всех нагрузок по данному фактору на противоположные.

Факторная матрица показывает также, какие переменные образуют каждый фактор. Это связано, прежде всего, с уровнем значимости факторного веса. По традиции минимальный уровень значимости коэффициентов корреляции в факторном анализе берется равным 0,4 или даже 0,3 (по абсолютной величине), поскольку нет специальных таблиц, по которым можно было бы определить критические значения для уровня значимости в факторной матрице. Следовательно, самый простой способ увидеть какие переменные «принадлежат» фактору – это значит отметить те из них, которые имеют нагрузки выше, чем 0,4 (или меньше чем - 0,4). Укажем, что в компьютерных пакетах иногда уровень значимости факторного веса определяется самой программой и устанавливается на более высоком уровне, например 0,7.

Так, из таблицы 13.1, следует вывод, что фактор 1 - это сочетание переменных V 1 К 3 и V 5 (но не V 1 , K 4 и V 6 , поскольку их факторные нагрузки по модулю меньше чем 0,4). Подобно этому фактор 2 представляет собой сочетание переменных V 2 , V 4 и V 6 .

Выделенный в результате факторизации фактор представляет собой совокупность тех переменных из числа включенных в анализ, которые имеют значимые нагрузки. Нередко случается, однако, что в фактор входит только одна переменная со значимым факторным весом, а остальные имеют незначимую факторную нагрузку. В этом случае фактор будет определяться по названию единственной значимой переменной.

В сущности, фактор можно рассматривать как искусственную «единицу» группировки переменных (признаков) на основе имеющихся между ними связей. Эта единица является условной, потому что, изменив определенные условия процедуры факторизации матрицы интеркорреляций, можно получить иную факторную матрицу (структуру). В новой матрице может оказаться иным распределение переменных по факторам и их факторные нагрузки.

В связи с этим в факторном анализе существует понятие «простая структура». Простой называют структуру факторной матрицы, в которой каждая переменная имеет значимые нагрузки только по одному из факторов, а сами факторы ортогональны, т.е. не зависят друг от друга. В нашем примере два общих фактора независимы. Факторная матрица с простой структурой позволяет провести интерпретацию полученного результата и дать наименование каждому фактору. В нашем случае фактор первый - «размеры тела», фактор второй - «уровень подготовленности».

Сказанное выше не исчерпывает содержательных возможностей факторной матрицы. Из нее можно извлечь дополнительные характеристики, позволяющие более детально исследовать связи переменных и факторов. Эти характеристики называются «общность» и «собственное значение» фактора.

Однако, прежде чем представить их описание, укажем на одно принципиально важное свойство коэффициента корреляции, благодаря которому получают эти характеристики. Коэффициент корреляции, возведенный в квадрат (т.е. помноженный сам на себя), показывает, какая часть дисперсии (вариативности) признака является общей для двух переменных, или, говоря проще, насколько сильно эти переменные перекрываются. Так, например, две переменные с корреляцией 0,9 перекрываются со степенью 0,9 х 0,9 = 0,81. Это означает, что 81% дисперсии той и другой переменной являются общими, т.е. совпадают. Напомним, что факторные нагрузки в факторной матрице - это коэффициенты корреляции между факторами и переменными, поэтому, возведенная в квадрат факторная нагрузка характеризует степень общности (или перекрытия) дисперсий данной переменной и данного фактором.

Если полученные факторы не зависят друг от друга («ортогональное» решение), по весам факторной матрицы можно определить, какая часть дисперсии является общей для переменной и фактора. Вычислить, какая часть вариативности каждой переменной совпадает с вариативностью факторов, можно простым суммированием квадратов факторных нагрузок по всем факторам. Из таблицы 13.1, например, следует, что 0,91 × 0,91 + + 0,01 × 0,01 = 0,8282, т.е. около 82% вариативности первой переменной «объясняется» двумя первыми факторами. Полученная величина называется общностью переменной, в данном случае переменной V 1

Переменные могут иметь разную степень общности с факторами. Переменная с большей общностью имеет значительную степень перекрытия (большую долю дисперсии) с одним или несколькими факторами. Низкая общность подразумевает, что все корреляции между переменными и факторами невелики. Это означает, что ни один из факторов не имеет совпадающей доли вариативности с данной переменной. Низкая общность может свидетельствовать о том, что переменная измеряет нечто качественно отличающееся от других переменных, включенных в анализ. Например, одна переменная, связанная с оценкой мотивации среди заданий, оценивающих способности, будет иметь общность с факторами способностей близкую к нулю.

Малая общность может также означать, что определенное задание испытывает на себе сильное влияние ошибки измерения или крайне сложно для испытуемого. Возможно, напротив, также, что задание настолько просто, что каждый испытуемый дает на него правильный ответ, или задание настолько нечетко по содержанию, что испытуемый не понимает суть вопроса. Таким образом, низкая общность подразумевает, что данная переменная не совмещается с факторами по одной из причин: либо переменная измеряет другое понятие, либо переменная имеет большую ошибку измерения, либо существуют искажающие дисперсию признака различия между испытуемыми в вариантах ответа на это задание.

Наконец, с помощью такой характеристики, как собственное значение фактора, можно определить относительную значимость каждого из выделенных факторов. Для этого надо вычислить, какую часть дисперсии (вариативности) объясняет каждый фактор. Тот фактор, который объясняет 45% дисперсии (перекрытия) между переменными в исходной корреляционной матрице, очевидно, является более значимым, чем другой, который объясняет только 25% дисперсии. Эти рассуждения, однако, допустимы, если факторы ортогональны, иначе говоря, не зависят друг от друга.

Для того чтобы вычислить собственное значение фактора, нужно возвести в квадрат факторные нагрузки, и сложить их по столбцу. Используя данные таблицы 13.1 можно убедиться, что собственное значение фактора 1 составляет (0,91 × 0,91 + 0,20 × 0,20 + 0,94 × 0,94 + 0,11 × 0,11 + 0,84 × 0,84 + (- 0,13) ×

× (-0,13)) = 2,4863. Если собственное значение фактора разделить на число переменных (6 в нашем примере), то полученное число покажет, какая доля дисперсии объясняется данным фактором. В нашем случае получится 2,4863∙100%/6 = 41,4%. Иными словами, фактор 1 объясняет около 41% информации (дисперсии) в исходной корреляционной матрице. Аналогичный подсчет для второго фактора даст 41,5%. В сумме это будет составлять 82,9%.

Таким образом, два общих фактора, будучи объединены, объясняют только 82,9% дисперсии показателей исходной корреляционной матрицы. Что случилось с «оставшимися» 17,1%? Дело в том, что, рассматривая корреляции между 6 переменными, мы отмечали, что корреляции распадаются на два отдельных блока, и поэтому решили, что логично анализировать материал в понятиях двух факторов, а не 6, как и количество исходных переменных. Другими словами, число конструктов, необходимых, чтобы описать данные, уменьшилось с 6 (число переменных) до 2 (число общих факторов). В результате факторизации часть информации в исходной корреляционной матрице была принесена в жертву построению двухфакторной модели. Единственным условием, при котором информация не утрачивается, было бы рассмотрение шестифакторной модели.

Для проверки значимости анализируется отношение коэффициента регрессии и его среднеквадратичного отклонения. Это отношение является распределением Стьюдента, то есть для определения значимости используем t – критерий:

- СКО от остаточной дисперсии;

- сумма отклонений от среднего значения

Если t рас. >t таб. , то коэффициент b i является значимым.

Доверительный интервал определяется по формуле:

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

    Взять исходные данные согласно варианту работы (по номеру студента в журнале). Задан статический объект управления с двумя входами X 1 , X 2 и одним выходом Y . На объекте проведен пассивный эксперимент и получена выборка объемом 30 точек, содержащая значения Х 1 , Х 2 и Y для каждого эксперимента.

    Открыть новый файл в Excel 2007. Ввести исходную информацию в столбцы исходной таблицы - значения входных переменных X 1 , Х 2 и выходной переменной Y .

    Подготовить дополнительно два столбца для ввода расчетных значений Y и остатков.

    Вызвать программу «Регрессия»: Данные/ Анализ данных/ Регрессия.

Рис. 1. Диалоговое окно «Анализ данных».

    Ввести в диалоговое окно «Регрессия» адреса исходных данных:

    входной интервал Y, входной интервал X (2 столбца),

    установить уровень надежности 95%,

    в опции «Выходной интервал, указать левую верхнюю ячейку места вывода данных регрессионного анализа (первую ячейку на 2-странице рабочего листа),

    включить опции «Остатки» и «График остатков»,

    нажать кнопку ОК для запуска регрессионного анализа.

Рис. 2. Диалоговое окно «Регрессия».

    Excel выведет 4 таблицы и 2 графика зависимости остатков от переменных Х1 и Х2 .

    Отформатировать таблицу «Вывод итогов» - расширить столбец с наименованиями выходных данных, сделать во втором столбце 3 значащие цифры после запятой.

    Отформатировать таблицу «Дисперсионный анализ»- сделать удобным для чтения и понимания количество значащих цифр после запятых, сократить наименование переменных и настроить ширину столбцов.

    Отформатировать таблицу коэффициентов уравнения - сократить наименование переменных и скорректировать при необходимости ширину столбцов, сделать удобным для чтения и понимания количество значащих цифр, удалить 2 последних столбца (значения и разметку таблицы).

    Данные из таблицы «Вывод остатка» перенести в подготовленные столбцы исходной таблицы, затем таблицу «Вывод остатка» удалить (опция «специальная вставка»).

    Ввести полученные оценки коэффициентов в исходную таблицу.

    Подтянуть таблицы результатов по максимуму вверх страницы.

    Построить под таблицами диаграммы Y эксп , Y расч и ошибки прогноза (остатка).

    Отформатировать диаграммы остатков. По полученным графикам оценить правильность модели по входам Х1, Х2 .

    Распечатать результаты регрессионного анализа.

    Разобраться с результатами регрессионного анализа.

    Подготовить отчет по работе.

ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫ

Прием выполнения регрессионного анализа в пакете EXCEL представлен на рисунках 3-5.

Рис. 3. Пример регрессионного анализа в пакете EXCEL.


Рис.4 . Графики остатков переменных Х1, Х2

Рис. 5. Графики Y эксп ,Y расч и ошибки прогноза (остатка).

По данным регрессионного анализа можно сказать:

1. Уравнение регрессии полученное с помощью Excel, имеет вид:

    Коэффициент детерминации:

Вариация результата на 46,5% объясняется вариацией факторов.

    Общий F-критерий проверяет гипотезу о статистической значимости уравнения регрессии. Анализ выполняется при сравнении фактического и табличного значения F-критерия Фишера.

Так как фактическое значение превышает табличное
, то делаем вывод, что полученной уравнение регрессии статистически значимо.

    Коэффициент множественной корреляции:

    b 0 :

t таб. (29, 0.975)=2.05

b 0 :

Доверительный интервал:

    Определяем доверительный интервал для коэффициента b 1 :

Проверка значимости коэффициента b 1 :

t рас. >t таб. , коэффициент b 1 является значимым

Доверительный интервал:

    Определяем доверительный интервал для коэффициентаb 2 :

Проверка значимости для коэффициентаb 2 :

Определяем доверительный интервал:

ВАРИАНТЫ ЗАДАНИЙ

Таблица 2. Варианты заданий

№ варианта

Результативный признак Y i

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

№ фактора X i

№ фактора X i

Продолжение таблицы 1

№ варианта

Результативный признак Y i

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

№ фактора X i

№ фактора X i

Таблица 3. Исходные данные

Y 1

Y 2

Y 3

X 1

X 2

X 3

X 4

X 5

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

    Задачи регрессионного анализа.

    Предпосылки регрессионного анализа.

    Основное уравнение дисперсионного анализа.

    Что показывает F- отношение Фишера?

    Как определяется табличное значение критерия Фишера?

    Что показывает коэффициент детерминации?

    Как определить значимость коэффициентов регрессии?

    Как определить доверительный интервал коэффициентов регрессии?

    Как определить расчетные значение t-критерия?

    Как определить табличное значение t-критерия?

    Сформулируйте основную идею дисперсионного анализа, для решения каких задач он наиболее эффективен?

    Каковы основные теоретические предпосылки дисперсионный анализ?

    Произведите разложение общей суммы квадратов отклонений на составляющие в дисперсионном анализе.

    Как получить оценки дисперсий из сумм квадратов отклонений?

    Как получаются необходимые числа степеней свободы?

    Как определяется стандартная ошибка?

    Поясните схему двухфакторного дисперсионного анализа.

    Чем отличается перекрестная классификация от иерархической классификации?

    Чем отличаются сбалансированные данные?

Отчет оформляется в текстовом редакторе Word на бумаге формата А4 ГОСТ 6656-76 (210х297 мм) и содержит:

    Название лабораторной работы.

    Цель работы.

  1. Результаты вычисления.

ВРЕМЯ, ОТВЕДЕННОЕ НА ВЫПОЛНЕНИЕ

ЛАБОРАТОРНОЙ РАБОТЫ

Подготовка к работе – 0,5 акад. часа.

Выполнение работы – 0,5 акад. часа.

Расчеты на ЭВМ – 0,5 акад. часа.

Оформление работы – 0,5 акад. часа.

ЛитЕратура

    Идентификация объектов управления. / А. Д. Семенов, Д. В. Артамонов, А. В. Брюхачев. Учебное пособие. - Пенза: ПГУ, 2003. - 211 с.

    Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTIC и EXCEL. / Вуколов Э.А. Учебное пособие. - М.: ФОРУМ, 2008. - 464 с.

    Основы теории идентификации объектов управления. / А.А. Игнатьев, С.А. Игнатьев. Учебное пособие. - Саратов: СГТУ, 2008. - 44 с.

    Теория вероятности и математическая статистика в примерах и задачах с применением EXCEL. / Г.В. Горелова, И.А. Кацко. - Ростов н/Д: Феникс, 2006.- 475 с.

    Цель работы 2

    Основные понятия 2

    Порядок выполнения работы 6

    Пример выполнения работы 9

    Вопросы для самоконтроля 13

    Время, отведенное на выполнение работы 14

    После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

    Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включённых в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

    Проверка значимости производится на основе дисперсионного анализа.

    Согласно идее дисперсионного анализа, общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части - объясненную и необъясненную:

    или, соответственно:

    Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

    В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и уравнение должно иметь вид.

    Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

    Однако на практике в правой части присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

    Число степеней свободы (df-degrees of freedom) - это число независимо варьируемых значений признака.

    Для общей СКО требуется (n-1) независимых отклонений,

    Факторная СКО имеет одну степень свободы, и

    Таким образом, можем записать:

    Из этого баланса определяем, что = n-2.

    Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы: - общая дисперсия, - факторная, - остаточная.

    Анализ статистической значимости коэффициентов линейной регрессии

    Хотя теоретические значения коэффициентов уравнения линейной зависимости предполагаются постоянными величинами, оценки а и b этих коэффициентов, получаемые в ходе построения уравнения по данным случайной выборки, являются случайными величинами. Если ошибки регрессии имеют нормальное распределение, то оценки коэффициентов также распределены нормально и могут характеризоваться своими средними значениями и дисперсией. Поэтому анализ коэффициентов начинается с расчёта этих характеристик.

    Дисперсии коэффициентов рассчитываются по формулам:

    Дисперсия коэффициента регрессии:

    где - остаточная дисперсия на одну степень свободы.

    Дисперсия параметра:

    Отсюда стандартная ошибка коэффициента регрессии определяется по формуле:

    Стандартная ошибка параметра определяется по формуле:

    Они служат для проверки нулевых гипотез о том, что истинное значение коэффициента регрессии b или свободного члена a равно нулю: .

    Альтернативная гипотеза имеет вид: .

    t - статистики имеют t - распределение Стьюдента с степенями свободы. По таблицам распределения Стьюдента при определённом уровне значимости б и степенях свободы находят критическое значение.

    Если, то нулевая гипотеза должна быть отклонена, коэффициенты считаются статистически значимыми.

    Если, то нулевая гипотеза не может быть отклонена. (В случае, если коэффициент b статистически незначим, уравнение должно иметь вид, и это означает, что связь между признаками отсутствует. В случае, если коэффициент а статистически незначим, рекомендуется оценить новое уравнение в виде).

    Интервальные оценки коэффициентов линейного уравнения регрессии:

    Доверительный интервал для а: .

    Доверительный интервал для b:

    Это означает, что с заданной надёжностью (где - уровень значимости) истинные значения а, b находятся в указанных интервалах.

    Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Они не должны включать нуль.

    Анализ статистической значимости уравнения в целом.

    Распределение Фишера в регрессионном анализе

    Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что все коэффициенты регрессии, за исключением свободного члена а, равны нулю и, следовательно, фактор х не оказывает влияния на результат y (или).

    Величина F - критерия связана с коэффициентом детерминации. В случае множественной регрессии:

    где m - число независимых переменных.

    В случае парной регрессии формула F - статистики принимает вид:

    При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы: - в случае множественной регрессии, - для парной регрессии.

    Если, то отклоняется и делается вывод о существенности статистической связи между y и x.

    Если, то вероятность уравнение регрессии считается статистически незначимым, не отклоняется.

    Замечание. В парной линейной регрессии. Кроме того, поэтому. Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

    Распределение Фишера может быть использовано не только для проверки гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии, но и гипотезы о равенстве нулю части этих коэффициентов. Это важно при развитии линейной регрессионной модели, так как позволяет оценить обоснованность исключения отдельных переменных или их групп из числа объясняющих переменных, или же, наоборот, включения их в это число.

    Пусть, например, вначале была оценена множественная линейная регрессия по п наблюдениям с т объясняющими переменными, и коэффициент детерминации равен, затем последние k переменных исключены из числа объясняющих, и по тем же данным оценено уравнение, для которого коэффициент детерминации равен (, т.к. каждая дополнительная переменная объясняет часть, пусть небольшую, вариации зависимой переменной).

    Для того, чтобы проверить гипотезу об одновременном равенстве нулю всех коэффициентов при исключённых переменных, рассчитывается величина

    имеющая распределение Фишера с степенями свободы.

    По таблицам распределения Фишера, при заданном уровне значимости, находят. И если, то нулевая гипотеза отвергается. В таком случае исключать все k переменных из уравнения некорректно.

    Аналогичные рассуждения могут быть проведены и по поводу обоснованности включения в уравнение регрессии одной или нескольких k новых объясняющих переменных.

    В этом случае рассчитывается F - статистика

    имеющая распределение. И если она превышает критический уровень, то включение новых переменных объясняет существенную часть необъяснённой ранее дисперсии зависимой переменной (т.е. включение новых объясняющих переменных оправдано).

    Замечания. 1. Включать новые переменные целесообразно по одной.

    2. Для расчёта F - статистики при рассмотрении вопроса о включении объясняющих переменных в уравнение желательно рассматривать коэффициент детерминации с поправкой на число степеней свободы.

    F - статистика Фишера используется также для проверки гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений.

    Пусть имеются 2 выборки, содержащие, соответственно, наблюдений. Для каждой из этих выборок оценено уравнение регрессии вида. Пусть СКО от линии регрессии (т.е.) равны для них, соответственно, .

    Проверяется нулевая гипотеза: о том, что все соответствующие коэффициенты этих уравнений равны друг другу, т.е. уравнение регрессии для этих выборок одно и то же.

    Пусть оценено уравнение регрессии того же вида сразу для всех наблюдений, и СКО.

    Тогда рассчитывается F - статистика по формуле:

    Она имеет распределение Фишера с степенями свободы. F - статистика будет близкой к нулю, если уравнение для обеих выборок одинаково, т.к. в этом случае. Т.е. если, то нулевая гипотеза принимается.

    Если же, то нулевая гипотеза отвергается, и единое уравнение регрессии построить нельзя.

    После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов, т.е. всего уравнения в целом. Такой анализ осуществляется на основе проверки гипотезы об общей значимости гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

    H 0: b 1 = b 2 = ... = b m = 0.

    Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных Х 1 , Х 2 , ..., Х m модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения регрессии – невысоким.

    Проверка данной гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсии.

    Н 0: (объясненная дисперсия) = (остаточная дисперсия),

    H 1: (объясненная дисперсия) > (остаточная дисперсия).

    Строится F-статистика:

    где – объясненная регрессией дисперсия;

    – остаточная дисперсия (сумма квадратов отклонений, поделённая на число степеней свободы n-m-1). При выполнении предпосылок МНК построенная F-статистика имеет распределение Фишера с числами степеней свободы n1 = m, n2 = n–m–1. Поэтому, если при требуемом уровне значимости a F набл > F a ; m ; n - m -1 = F a (где F a ; m ; n - m -1 - критическая точка распределения Фишера), то Н 0 отклоняется в пользу Н 1 . Это означает, что объяснённая регрессией дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y. Если F набл < F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

    Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R 2:



    Н 0: R 2 > 0.

    Для проверки данной гипотезы используется следующая F-статистика:

    . (8.20)

    Величина F при выполнении предпосылок МНК и при справедливости H 0 имеет распределение Фишера, аналогичное распределению F-статистики (8.19). Действительно, разделив числитель и знаменатель дроби в (8.19) на общую сумму квадратов отклонений и зная, что она распадается на сумму квадратов отклонений, объяснённую регрессией, и остаточную сумму квадратов отклонений (это является следствием, как будет показано позже, системы нормальных уравнений)

    ,

    мы получим формулу (8.20):

    Из (8.20) очевидно, что показатели F и R 2 равны или не равны нулю одновременно. Если F = 0, то R 2 = 0, и линия регрессии Y = является наилучшей по МНК, и, следовательно, величина Y линейно не зависит от Х 1 , Х 2 , ..., Х m . Для проверки нулевой гипотезы Н 0: F = 0 при заданном уровне значимости a по таблицам критических точек распределения Фишера находится критическое значение F кр = F a ; m ; n - m -1 . Нулевая гипотеза отклоняется, если F > F кр. Это равносильно тому, что R 2 > 0, т.е. R 2 статистически значим.

    Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R 2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.

    Пусть, например, при оценке регрессии с двумя объясняющими переменными X 1 i , X 2 i по 30 наблюдениям R 2 = 0,65. Тогда

    F набл = =25,07.

    По таблицам критических точек распределения Фишера найдем F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Поскольку F набл = 25,07 > F кр как при 5%–м, так и при 1%–м уровне значимости, то нулевая гипотеза в обоих случаях отклоняется.

    Если в той же ситуации R 2 = 0,4, то

    F набл = = 9.

    Предположение о незначимости связи отвергается и здесь.

    Отметим, что в случае парной регрессии проверка нулевой гипотезы для F-статистики равносильна проверке нулевой гипотезы для t-статистики

    коэффициента корреляции. В этом случае F-статистика равна квадрату t-статистики. Самостоятельную значимость коэффициент R 2 приобретает в случае множественной линейной регрессии.

    8.6. Дисперсионный анализ для разложения общей суммы квадратов отклонений. Степени свободы для соответствующих сумм квадратов отклонений

    Применим изложенную выше теорию для парной линейной регрессии.

    После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

    Оценка значимости уравнения регрессии в целом даётся с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е. b = 0, и, следовательно, фактор х не оказывает влияния на результат у.

    Непосредственному расчёту F-критерия предшествует анализ дисперсии. Центральное место в нём занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части – “объяснённую” и “необъяснённую”:

    Уравнение (8.21) является следствием системы нормальных уравнений, выведенных в одной предыдущих тем.

    Доказательство выражения (8.21).

    Осталось доказать, что последнее слагаемое равно нулю.

    Если сложить от 1 до n все уравнения

    y i = a+b×x i +e i , (8.22)

    то получим åy i = a×å1+b×åx i +åe i . Так как åe i =0 и å1 =n, то получим

    Тогда .

    Если же вычесть из выражения (8.22) уравнение (8.23), то получим

    В результате получим

    Последние суммы равны нулю в силу системы двух нормальных уравнений.

    Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения вызвана влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор на оказывает никакого влияния на результат, то линия регрессии параллельна оси OX и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связана с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объяснённая регрессией, совпадает с общей суммой квадратов.

    Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъяснённая вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объяснённую вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на признак у. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

    Любая сумма квадратов связана с числом степеней свободы (df – degrees of freedom), с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется (n-1) независимых отклонений, ибо по совокупности из n единиц после расчёта среднего свободно варьируют лишь (n-1) число отклонений. Например, мы имеем ряд значений у: 1,2,3,4,5. Среднее из них равно 3, и тогда n отклонений от среднего составят: -2, -1, 0, 1, 2. Так как , то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.

    При расчёте объяснённой или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака

    Тогда сумма квадратов отклонений, обусловленных линейной регрессии, равна

    Поскольку при заданном объёме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от константы регрессии b, то данная сумма квадратов имеет только одну степень свободы.

    Существует равенство между числом степеней свободы общей, факторной и остаточной суммой квадратов отклонений. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы общей суммы квадратов определяется числом единиц варьируемых признаков, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. df общ. = n–1.

    Итак, имеем два равенства:

    Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

    ;

    ;

    .

    Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим величину F-критерия Фишера

    где F-критерий для проверки нулевой гипотезы H 0: D факт = D ост.

    Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для H 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при различных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признаётся достоверным, если оно больше табличного. Если F факт > F табл, то нулевая гипотеза H 0: D факт = D ост об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.

    Если F факт < F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. Гипотеза H 0 не отклоняется.

    В рассматриваемом примере из главы 3:

    = 131200 -7*144002 = 30400 – общая сумма квадратов;

    1057,878*(135,43-7*(3,92571) 2) = 28979,8 – факторная сумма квадратов;

    =30400-28979,8 = 1420,197 – остаточная сумма квадратов;

    D факт = 28979,8;

    D ост = 1420,197/(n-2) = 284,0394;

    F факт =28979,8/284,0394 = 102,0274;

    F a =0,05; 2; 5 =6,61; F a =0,01; 2; 5 = 16,26.

    Поскольку F факт > F табл как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

    Величина F-критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить как

    ,

    а остаточную сумму квадратов – как

    .

    Тогда значение F-критерия можно выразить как

    .

    Оценка значимости регрессии обычно даётся в виде таблицы дисперсионного анализа

    , его величина сравнивается с табличным значением при определённом уровне значимости α и числе степеней свободы (n-2).
    Источники вариации Число степеней свободы Сумма квадратов отклонений Дисперсия на одну степень свободы F-отношение
    фактическое Табличное при a=0,05
    Общая
    Объяснённая 28979,8 28979,8 102,0274 6,61
    Остаточная 1420,197 284,0394