Основы регрессионного анализа. Парная линейная регрессия
Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.
Рубрика | Экономико-математическое моделирование |
Вид | лабораторная работа |
Язык | русский |
Дата добавления | 26.12.2010 |
Размер файла | 67,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
12
Министерство образования и науки Российской Федерации
Лабораторная работа по эконометрике
на тему "Основы регрессионного анализа. Парная линейная регрессия"
Новосибирск 2010
Ситуация №1. "Робинзон на охоте". Каждый раз, идя на охоту на уток, Робинзон берет с собой связку бумерангов и флягу с пивом собственного приготовления, поскольку в жарких условиях субтропиков ему необходимо утолять жажду. При этом он отмечает, какая была средняя температура в день охоты (в градусах Цельсия, Х3), какое количество уток он убил (в штуках, Х2) и сколько при этом выпил пива (в процентах от объема фляги, Х1).
Задание. Основы регрессионного анализа. Парная линейная регрессия.
Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии.
По результатам корреляционного анализа выбираем показатель Х1-колличество выпитого пива и показатель Х3-температура в день охоты, потому что они связаны между собой наиболее тесно, так как . Обозначим X3 как Х, а X1 как Y.
X |
30 |
31 |
27 |
29 |
36 |
31 |
31 |
27 |
37 |
28 |
36 |
31 |
|
Y |
31 |
43 |
0 |
4 |
78 |
45 |
41 |
20 |
70 |
33 |
96 |
38 |
|
35 |
37 |
32 |
36 |
29 |
29 |
36 |
34 |
34 |
30 |
33 |
34 |
33 |
|
94 |
73 |
41 |
69 |
38 |
24 |
89 |
70 |
84 |
20 |
65 |
62 |
48 |
Задание 1: Вычислить оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Дать содержательную интерпретацию результатов и выбрать для дальнейшего анализа одно из уравнений.
Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии:
Где xi - средняя температура в день охоты,
yi - количество выпитого пива,
i - случайная компонента,
0, 1 - неизвестные параметры.
С помощью МНК получаем следующую систему нормальных уравнений:
Найдем МНК-оценку параметра 1 по формуле:
:
1=7,452
Рассчитаем МНК-оценку параметра 0, используя формулу:
:
0= - 198,88
Дадим интерпретацию полученным результатам: 1=7,452
Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1°С, количество выпитого Робинзоном пива возрастает в среднем на 1=7,452% от объема фляги.
0= - 198,88
Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива.
Задание 2: Проверить значимость всех параметров модели по критерию Стьюдента. Для значимых коэффициентов построить доверительные интервалы. Сформулировать выводы.
Проверим значимость всех параметров модели по критерию Стьюдента.
1) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
; tкр (0,05; 23) =2,069
Оценка дисперсии оценки вычисляется по формуле
;
S2 = = 146,078
= 25,239
= - 7,88
|t|<tкр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым.
2) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
tкр (0,05; 23) =2,069
;
S2 = = 146,078
= 0,779
= 9,947
|t|<tкр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым.
Построим для данных параметров 95% -ные доверительные интервалы.
Для параметра 0 доверительный интервал будет выглядеть следующим образом:
[-198,88-2,069*25,239; - 198,88+2,069*25,239]
[-251,099; - 146,661]
Для параметра 1 доверительный интервал будет выглядеть следующим образом:
[7,452-2,069*0,779; 7,452+2,069*0,779]
[5,84; 9,06]
Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам.
Задание 3: Проверить значимость модели (уравнение регрессии) в целом с помощью критерия Фишера. Сформулировать выводы.
Для начала найдём коэффициент детерминации:
,
Где TSS = - полная сумма квадратов,
-общая сумма квадратов;
RSS = - сумма квадратов, обусловленная регрессией,
-объясненная сумма квадратов (сумма квадратов регрессии).
ESS = - остаточная сумма квадратов.
-остаточная сумма квадратов (сумма квадратов остатков)
= 15504,60+3457,033=18862,64
Так как RSS>>ESS, то остатки регрессии невелики.
Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные.
Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82%.
В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости.
Проверим значимость модели в целом по F - критерию:
Чтобы проверить значимость модели, необходимо проверить гипотезу:
Найдем F-статистику по формуле:
Из таблицы находим значение:
Если , то гипотеза отвергается с вероятностью 0,95.
В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%.
Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением:
Y= - 193,558+7,495x
Задание. Построить таблицу дисперсионного анализа.
Источник дисперсии |
Число степеней свободы |
Сумма квадратов |
F-факт. |
F-табл. |
Значимость |
Средняя сумма квадратов |
|
Объясненная дисперсия |
1 |
15405,60 |
102,495 |
4,279344 |
Да |
15405,60 |
|
Остаточная дисперсия |
23 |
3457,033 |
- |
- |
- |
150,305 |
|
Общая дисперсия |
24 |
18862,64 |
- |
- |
- |
785,94 |
Задание 5: Выбрать прогнозную точку Xп в стороне от основного массива исходных данных. Используя уравнение регрессии, выполнить точечный и интервальный прогнозы величины Y в точке Xп. Проанализировать полученные результаты.
Выберем в качестве прогнозной точки значение xп=42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно:
yп = - 193,558+7,495 *42= 121,23.
Это значит, что при температуре 420С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз.
Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле:
= 7,462; tкр (0,05; 23) =2,069
Границы доверительного интервала найдем по формуле:
Получим [121,23-2,069*7,462; 121,23+2,069*7,462].
доверительный интервал для Y: [105,79; 136,67]
То есть при температуре 420С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%.
Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%.
Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных.
i |
xi |
|||||
1 |
25 |
-6,182905484 |
6,056203037 |
-18,71318957 |
6,3473786 |
|
2 |
28 |
16,30221704 |
4,12461405 |
7,768390566 |
24,83604351 |
|
3 |
28 |
16,30221704 |
4,12461405 |
7,768390566 |
24,83604351 |
|
4 |
29 |
23,79725788 |
3,55664372 |
16,43856202 |
31,15595373 |
|
5 |
29 |
23,79725788 |
3,55664372 |
16,43856202 |
31,15595373 |
|
6 |
30 |
31,29229872 |
3,063192858 |
24,95455269 |
37,63004474 |
|
7 |
30 |
31,29229872 |
3,063192858 |
24,95455269 |
37,63004474 |
|
8 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
9 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
10 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
11 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
12 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
13 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
14 |
33 |
53,77742124 |
2,48202194 |
48,64211784 |
58,91272463 |
|
15 |
33 |
53,77742124 |
2,48202194 |
48,64211784 |
58,91272463 |
|
16 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
17 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
18 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
19 |
35 |
68,76750292 |
3,081033386 |
62,39284484 |
75,14216099 |
|
20 |
35 |
68,76750292 |
3,081033386 |
62,39284484 |
75,14216099 |
|
21 |
36 |
76,26254376 |
3,578152777 |
68,85934566 |
83,66574185 |
|
22 |
37 |
83,7575846 |
4,148463607 |
75,17441339 |
92,3407558 |
|
23 |
37 |
83,7575846 |
4,148463607 |
75,17441339 |
92,3407558 |
|
24 |
38 |
91,25262544 |
4,765761822 |
81,39226423 |
101,1129866 |
|
25 |
38 |
91,25262544 |
4,765761822 |
81,39226423 |
101,1129866 |
Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал.
12
Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов.
По результатам корреляционного анализа мы выбрали наиболее тесно связанные показатели Y (количество выпитого пива) и Х (температура).
Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = - 193,558+7,495x.
С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495 % от объема фляги).
Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и0 и и1) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования.
Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов.
Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.
Подобные документы
Понятие регрессии. Оценка параметров модели. Показатели качества регрессии. Проверка статистической значимости в парной линейной регрессии. Реализация регрессионного анализа в программе MS Excel. Условия Гаусса-Маркова. Свойства коэффициента детерминации.
курсовая работа [233,1 K], добавлен 21.03.2015Определение количественной зависимости массы пушного зверька от его возраста. Построение уравнения парной регрессии, расчет его параметров и проверка адекватности. Оценка статистической значимости параметров регрессии, расчет их доверительного интервала.
лабораторная работа [100,5 K], добавлен 02.06.2014Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.
контрольная работа [108,5 K], добавлен 28.03.2018Особенности расчета параметров уравнений линейной, степенной, полулогарифмической, обратной, гиперболической парной и экспоненциальной регрессии. Методика определения значимости уравнений регрессии. Идентификация и оценка параметров системы уравнений.
контрольная работа [200,1 K], добавлен 21.08.2010Построение уравнения множественной регрессии в линейной форме с полным набором факторов, отбор информативных факторов. Проверка значимости уравнения регрессии по критерию Фишера и статистической значимости параметров регрессии по критерию Стьюдента.
лабораторная работа [217,9 K], добавлен 17.10.2009Параметры уравнения линейной регрессии. Вычисление остаточной суммы квадратов, оценка дисперсии остатков. Осуществление проверки значимости параметров уравнения регрессии с помощью критерия Стьюдента. Расчет коэффициентов детерминации и эластичности.
контрольная работа [248,4 K], добавлен 26.12.2010Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.
контрольная работа [1,6 M], добавлен 14.05.2008Определение параметров уравнения линейной регрессии. Экономическая интерпретация коэффициента регрессии. Вычисление остатков, расчет остаточной суммы квадратов. Оценка дисперсии остатков и построение графика остатков. Проверка выполнения предпосылок МНК.
контрольная работа [1,4 M], добавлен 25.06.2010Расчет параметров уравнения линейной регрессии, экономическая интерпретация ее коэффициента. Проверка равенства математического ожидания уровней ряда остатков нулю. Построение степенной модели парной регрессии. Вариация объема выпуска продукции.
контрольная работа [771,6 K], добавлен 28.04.2016Понятие модели множественной регрессии. Сущность метода наименьших квадратов, который используется для определения параметров уравнения множественной линейной регрессии. Оценка качества подгонки регрессионного уравнения к данным. Коэффициент детерминации.
курсовая работа [449,1 K], добавлен 22.01.2015