Построение уравнения множественной регрессии

Факторы, формирующие цену квартир в строящихся домах в Санкт-Петербурге. Составление матрицы парных коэффициентов корреляции исходных переменных. Тестирование ошибок уравнения множественной регрессии на гетероскедастичность. Тест Гельфельда-Квандта.

Рубрика Экономико-математическое моделирование
Вид контрольная работа
Язык русский
Дата добавления 14.05.2015
Размер файла 1,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

Национальный минерально-сырьевой университет «Горный»

Кафедра информатики и компьютерных технологий
Расчетно-графическое задание
Вариант 7
По дисциплине: Эконометрика

Тема: «построение уравнения множественной регрессии»

Выполнил: студент гр. ЭГ-13-2 _________ /Чакир А.Ю./

Проверил: доцент ____________ / Беляев В.В./

Санкт-Петербург

2015

ЦЕЛЬ РАБОТЫ: закрепить и углубить знания, полученные при изучении курса, в области построения моделей множественной регрессии.

ЗАДАНИЕ: изучить влияние факторов, определяющих цену строящегося жилья в Санкт-Петербурге.

ИСХОДНЫЕ ДАННЫЕ

Общая площадь квартиры, кв.м

Жилая площадь квартиры, кв.м

Площадь кухни, кв.м

Наличие балкона

Срок до окончания строительства, мес

Цена квартиры, тыс.долл.

x1

x2

x3

x4

x5

y1

34,53

16

10,7

1

12

13,60

37,46

17,8

8,3

1

3

15,57

38,55

20

8,5

1

12

15,84

36,83

17,8

8,3

1

1

16,06

39,20

20

8,2

1

0

16,12

39,76

20

8,3

0

12

16,16

68,33

35,5

17

1

3

36,92

75,46

41,4

12,1

1

0

37,98

79,80

45,6

11

1

9

38,65

91,26

55,2

9,4

1

2

41,09

76,76

44,7

8

1

0

41,22

91,62

53,8

16

0

2

41,64

84,01

48,5

12,1

1

3

41,81

82,18

49,7

13,8

1

0

42,94

76,74

44,7

8

1

0

43,31

85,74

48,7

14

1

2

44,32

93,11

49,5

14

1

12

46,59

98,06

65,8

13

1

3

50,64

88,63

52,3

11,5

1

0

51,15

138,11

67,2

14,6

1

20

52,08

97,91

52,3

15,3

1

3

52,22

98,14

56

22

0

0

54,66

117,32

55,2

25

1

0

57,93

131,99

69,6

11

1

2

75,76

Рис. 1 Фрагмент таблицы исходных данных

ТРЕБУЕТСЯ

1. Определить факторы, формирующие цену квартир в строящихся домах в Санкт-Петербурге.

2. Построить уравнение регрессии, характеризующее зависимость цены от всех факторов в линейной форме. Оценить адекватность полученной модели. Составить матрицу парных коэффициентов корреляции исходных переменных и проанализировать ее.

3. Построить модельв линейной форме методом включения. Определить, какие факторы значимо воздействуют на формирование цены квартиры в этой модели.

4. Построить графики остатков, выполнить визуальный анализ. Провести тестирование ошибок (остатков) уравнения множественной регрессии на гетероскедастичность, применив тест Гельфельда-Квандта.

5. Оценить автокорреляцию остатков с помощью статистики Дарбина-Уотсона.

6. Написать уравнение множественной регрессии в стандартизованном масштабе, пояснить экономический смысл его параметров.

7. Вычислить средние частные коэффициенты эластичности для факторов, вошедших в модель. Пояснить их экономический смысл.

8. Пользуясь уравнением регрессии вычислить прогнозные значения стоимости объекта недвижимости, если значения значимых факторов равны , где и максимальное и минимальное значения факторов в таблице исходных данных. Вычислить точечный и интервальный прогноз.

ХОД РАБОТЫ

матрица корреляция уравнение регрессия

Пункт 1

Предположим, что на стоимость строящего в Санкт-Петербурге жилья влияют все перечисленные в таблице факторы, т.е. общая и жилая площадь квартиры, площадь кухни, наличие балкона и число месяцев до окончания срока строительства. Наличие балкона - качественная характеристика, поэтому влияние этой характеристики на стоимость жилья учтем с помощью фиктивной переменной, которая будет принимать значение 0, если балкона нет и 1 - если балкон есть.

Введем следующие переменные:

y - цена квартиры, тыс.долл.

x1 - общая площадь квартиры (кв.м)

x2 - жилая площадь квартиры (кв.м)

x3 - площадь кухни (кв.м)

x4 - наличие балкона (1- есть, 0 - нет)

x5 - число месяцев до окончания срока строительства.

Пункт 2

Пользуясь надстройкой «Анализ данных - Регрессия» построим уравнение регрессии.

Рис. 2 Регрессионная статистика

Получили уравнение

y=1,062+0,513 x1-0,04 x2+0,08 x3+0,514 x4-0,426 x5

Очевидно, что полученное уравнение противоречит практике, коэффициент при x2 отрицательный, то есть увеличение жилой площади уменьшает общую стоимость квартиры.

Проанализируем межфакторную корреляцию. Для получения матрицы парных линейных коэффициентов корреляции воспользуемся надстройкой «Анализ данных - Корреляция».

Рис. 3 Корреляционный анализ

Значения коэффициентов линейной парной корреляции высоки ; , что говорит о взаимозависимости этих факторов, то есть о мультиколлинеарности.

Полученное уравнение множественной регрессии, включающее весь имеющийся набор факторов, не адекватно. Возможная причина - мультиколлинеарность факторов, квлюченных в модель.

Пункт 3

Построение модели методом включения - это пошаговый отбор переменных.

На 1-м шаге (k=1) по наибольшему значению коэффициента корреляции с y найдем наиболее информативную переменную - это x1.

Так как при k=1 величина R2 совпадает с квадратом обычного (парного) коэффициента корреляции R2 = r2(y,x), из матрицы корреляций находим наибольший коэффициент детерминации для набора однофакторных регрессионных моделей:

Аналогичный результат можно получить последовательно строя уравнения регрессии для зависимостей y-xj с помощью табличной функции ЛИНЕЙН.

Рис. 4 Нахождение информативное переменной с помощью функции ЛИНЕЙН

Таким образом, в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x1 - общая площадь квартиры. Включим эту переменную в выстраиваемую методом включения модель.

Вычислим скорректированный коэффициент детерминации:

=0.8701,

где k-количество факторов.

2-й шаг (k=2). Среди всевозможных пар (х1 , хj ), j = 2, 3, 4, 5, выбирается наиболее информативная пара:

Последовательно применяем табличную функцию ЛИНЕЙН к различным парам:

(х1 , х2) = 0.8684, (х1 , х3) = 0.8709,

(х1 , х4 ) = 0.8681, (х1 , х5) = 0.9147.

Очевидно, что наиболее информативной парой является (х1, х5 ), которая дает

С включением параметра х5 коэффициент детерминации вырос, следовательно, это правильное решение. Линейное уравнение с учетом факторов х1 и х5 имеет вид :

y (х1, х5) = 1,9787 + 0.4971 х1 - 0,4286 х5

Используя надстройку «Регрессия», проведем анализ значимости найденных коэффициентов.

Рис. 5 Фрагмент отчета регрессии по двум переменным

Столбец t-статистика содержит наблюдаемые значения t-критерия Стьюдента . Столбец «P-значение» используется для проверки гипотезы (о незначимости i-го коэффициента регрессии) с помощью критерия Стьюдента. Столбец содержит вероятности того, что в силу случайных причин принимает это или большее значение, хотя коэффициент регрессии bi =0. «P-значение» сравнивается с выбранным уровнем значимости б, если «P-значение» больше или равно б, то гипотеза подтверждается и коэффициент незначим, в противоположном случае коэффициент существенно отличен от 0, т.е. значим. Рассмотрев столбец «P-значение», приходим к выводу: два коэффициента при независимых переменных (х1 , х5) отличаются от нуля при уровне значимости = 0.05. Коэффициент «Y-пересечение» (1,9787) не значим, и его следует исключить из уравнения. Таким образом, уравнение фактически имеет вид:

y (х1, х5) = 0.4971 х1 - 0,4286 х5

3-й шаг (k = 3). Попытаемся добавить третью переменную в наше уравнение регрессии. Среди всевозможных троек (х1 , х5 , хj), j = 2, 3, 4, выбираем аналогично наиболее информативную: (х1, х5, х2), которая дает (3) = 0.9139, что меньше, чем (2) = 0.9147.

Рис. 6 Применение функции ЛИНЕЙН для нахождения третьего фактора

Следовательно, третью переменную в модель включать нецелесообразно, т.к. она понижает значение. Этот же результат получим, применив надстройку «Регрессия» Отметим, что коэффициент при x2 не значим при уровне значимости 0,05.

Рис. 7 Фрагмент отчета регрессии по трем переменным

Уравнение

y (х1, х5) = 0.4971 х1 - 0,4286 х5

адекватно описывает зависимость стоимости квартиры от влияющих на нее факторов, и может быть использовано для анализа и прогноза. Все коэффициенты при неизвестных в нем значимы.

Пункт 4

Для применения метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичнной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.

Рассмотрим графики остатков для переменных x1 и x5, полученные при построении уравнения регрессии с помощью надстройки «Анализ данных - Регрессия» (рис.8).

Визуальный анализ остатков (ошибок аппроксимации) по графикам не может однозначно исключить наличие гетероскедастичности.

Рис. 8 Графики остатков

Нарушение гомоскедастичности может быть выявлено с помощью метода (теста) Гельфельда-Квандта. Предварительно все наблюдения упорядочим по одному из факторов, например, по х1.

Для применения теста Гельфельда-Квандта необходимо определить число исключаемых центральных наблюдений С. Из экспериментальных расчетов, проведенных авторами метода, рекомендовано при n=30 принимать C=8, а при n=60, - соответственно, С=16.

В задании при n= 69 было исключено 17 наблюдений (С=17). Тогда в каждой группе будет по 26 наблюдений

Рис. 9 Организация данных при использовании теста Гельфельда-Квандта (часть строк скрыта). Строки с 27 по 43 (#nn) исключены из рассмотрения

Для первой группы наблюдений строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S1) для первой группы (рис.10)

S1=119.3297

Рис. 10 Результат работы функции ЛИНЕЙН для первой группы

Для второй группы наблюдений также строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S2) для этой группы (рис.11)

S2=350,8491

Рис. 11 Результат работы функции ЛИНЕЙН для второй группы

F=S2/S1=2,94;

Fкрит=FРАСПОБР(0.05;23;23)=2.01. Fнабл > Fкрит, следовательно, гипотеза о гомоскедастичности остатков отвергается. Значит, имеет место гетероскедастичность.

Для решения данной проблемы введем новую величину z равную стоимости квадратного метра общей площади квартиры.

Для первой группы наблюдений строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S1) для первой группы (рис.12)

S1=0.0698

Рис. 12 Результат работы функции ЛИНЕЙН для первой группы

Для второй группы наблюдений также строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S2) для этой группы (рис.13)

S2=0.0374

Рис. 13 Результат работы функции ЛИНЕЙН для второй группы

F=S1/S2=1.87;

Fкрит=FРАСПОБР(0.05;23;23)=2.01. Fнабл < Fкрит, следовательно, гипотеза о гомоскедастичности остатков подтверждается.

Так как ошибки аппроксимации гомоскедастичны, применение МНК по данному условию корректно.

Пункт 5

Для применения МНК требуется, чтобы значения остатков были распределены независимо друг от друга. Если это не так, то говорят, что остатки автокоррелированы.

Тестом на простейшую автокорреляцию ошибок (первого порядка) является тест Дарбина-Уотсона (Durbin-Watson).

Рис. 14 Организация данных для вычисления статистики Дарбина-Уотсона в Excel (часть строк скрыта)

Вычислим значение статистики d по формуле:

По таблице для n = 26 и p=3 находим критические значения DU=1.67 и DL=1.55. Поскольку , остатки не коррелированы.

Так как значения остатков были распределены независимо друг от друга, применение МНК по данному условию корректно.

Рис. 15 Распределение остатков

Пункт 6

Выведем уравнение множественной регрессии в стандартизованном масштабе. Определим стандартизованные переменные:

Рис. 16 Отчет "Описательная статистика"

Для определения коэффициентов стандартизованного уравнения множественной регрессии можно использовать МНК или воспользоваться связью стандартизованных коэффициентов с полученными ранее коэффициентами множественной регрессии

Таким образом, уравнение множественной регрессии в стандартизованном масштабе имеет вид:

В силу того, что стандартизованные переменные центрированные и нормированы, стандартизованные коэффициенты можно сравнивать между собой, т.е. сравнивать факторы по силе воздействия. В нашем случае влияние первого фактора на результат более чем в четыре раза (0.95/0.21> 4) превышает влияние пятого фактора.

Пункт 7

Рассчитаем средние частные коэффициенты эластичности, воспользовавшись результатами работы надстройки «Описательная статистика».

При изменении фактора х1 на один процент результат возрастет на 1.02%, при неизменных прочих параметрах. Аналогично, при изменении фактора х5 на один процент значение результирующего фактора уменьшится на 0.08%, при неизменных прочих параметрах.

Пункт 8

По формуле найдем точки, в которых необходимо построить прогноз.

Вычислим точечный прогноз путем подстановки найденных значений в уравнение:

y (х1, х5) = 0.4971*117,39 - 0,4286 *19,2=50,129

Для получения интервальной оценки необходимо воспользоваться формулой:

где-стандартная ошибка групповой средней

- вектор значений факторов, определяющий точку, в которой строим прогноз;

- матрица, по которой было построено уравнение.

- стандартное отклонение остаточной дисперсии или стандартная ошибка уравнения регрессии.

Рис. 17 Результаты прогнозирования

Интервальной оценкой является доверительный интервал с надежностью 95% [47,38 ; 52,87] тыс.долл.

Выводы

· Уравнение y (х1, х5) = 0.4971 х1 - 0,4286 х5 адекватно описывает зависимость стоимости квартиры от влияющих на нее факторов и может быть использовано для анализа и прогноза. Все коэффициенты в нем значимы.

· Увеличение общей площади квартиры на 1 м2 приводит к увеличению стоимости квартиры на величину в среднем на 497$, отдаление срока сдачи на 1 месяц снижает стоимость квартиры на 428,6$. Влияние прочих факторов несущественно

· Влияние общей площади квартиры на ее стоимость более чем в четыре раза превышает влияние срока сдачи объекта на стоимость

· При изменении цены общей площади квартиры на 1% стоимость квартиры возрастет на 1.02%, при неизменных прочих параметрах. Аналогично, при изменении срока сдачи квартиры на один процент стоимость квартиры упадет на 0.08%, при неизменных прочих параметрах.

· Проверка корректности применения МНК показала, что ошибки аппроксимации (значения остатков) гомоскедастичны и распределены независимо друг от друга.

· Стоимость квартиры площадью 117,39 кв.м со сроком сдачи через 19.2 мес с вероятностью 95 % будет лежать в пределах [47,38; 52,87] тыс.долл.

Размещено на Allbest.ru


Подобные документы

  • Построение обобщенной линейной модели множественной регрессии, ее суть; теорема Айткена. Понятие гетероскедастичности, ее обнаружение и методы смягчения проблемы: тест ранговой корреляции Спирмена, метод Голдфелда-Квандта, тесты Глейзера, Парка, Уайта.

    контрольная работа [431,2 K], добавлен 28.07.2013

  • Описание классической линейной модели множественной регрессии. Анализ матрицы парных коэффициентов корреляции на наличие мультиколлинеарности. Оценка модели парной регрессии с наиболее значимым фактором. Графическое построение интервала прогноза.

    курсовая работа [243,1 K], добавлен 17.01.2016

  • Построение линейной модели и уравнения регрессии зависимости цены на квартиры на вторичном рынке жилья в Москве в 2006 г. от влияющих факторов. Методика составления матрицы парных коэффициентов корреляции. Экономическая интерпретация модели регрессии.

    лабораторная работа [1,8 M], добавлен 25.05.2009

  • Основы построения и тестирования адекватности экономических моделей множественной регрессии, проблема их спецификации и последствия ошибок. Методическое и информационное обеспечение множественной регрессии. Числовой пример модели множественной регрессии.

    курсовая работа [3,4 M], добавлен 10.02.2014

  • Расчет параметров A и B уравнения линейной регрессии. Оценка полученной точности аппроксимации. Построение однофакторной регрессии. Дисперсия математического ожидания прогнозируемой величины. Тестирование ошибок уравнения множественной регрессии.

    контрольная работа [63,3 K], добавлен 19.04.2013

  • Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа [994,1 K], добавлен 29.06.2013

  • Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.

    контрольная работа [110,4 K], добавлен 28.07.2012

  • Построение модели множественной линейной регрессии по заданным параметрам. Оценка качества модели по коэффициентам детерминации и множественной корреляции. Определение значимости уравнения регрессии на основе F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа [914,4 K], добавлен 01.12.2013

  • Анализ метода наименьших квадратов для парной регрессии, как метода оценивания параметров линейной регрессии. Рассмотрение линейного уравнения парной регрессии. Исследование множественной линейной регрессии. Изучение ошибок коэффициентов регрессии.

    контрольная работа [108,5 K], добавлен 28.03.2018

  • Расчет матрицы парных коэффициентов корреляции и статистической значимости коэффициентов регрессии. Оценка статистической значимости параметров регрессионной модели с помощью t-критерия. Уравнение множественной регрессии со статистически факторами.

    лабораторная работа [30,9 K], добавлен 05.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.