Построение и анализ качества регрессионной модели

Построение качественной и адекватной эконометрической модели по методу наименьших квадратов и ее анализ на наличие автокорреляции, мультиколлинеарности, гетероскедастичности с применением статистики Дарвина-Уотсона, тестов Парка и Голдфелда-Квандта.

Рубрика Экономико-математическое моделирование
Вид курсовая работа
Язык русский
Дата добавления 04.12.2013
Размер файла 434,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Экономический факультет

Кафедра экономической информатики и математической экономики

Курсовой проект

По дисциплине «ЭКОНОМЕТРИКА»

На тему: Построение и анализ качества регрессионной модели

Минск, 2013 г.

Введение

В курсовой работе на предложенной совокупности данных была построена эконометрическая модель и проведен ее анализ. Модель была проверена на адекватность (соответствие предпосылкам МНК) с помощью ряда тестов.

Для исследования предлагалась совокупность временных данных по экономике Литвы (квартальные данные 2003-2011 гг), а именно значения валового внутреннего продукта, млн.евро, количества трудоустроенных, тыс. чел, индекса потребительских цен, %.

Выбор вышеперечисленных переменных экономически обоснован: между изменением ВВП и изменением количества трудоустроенных существует прямая зависимость: при росте количества занятых людей наблюдается рост ВВП. Также есть зависимость между ВВП и ИПЦ.

Таким образом, можно сказать, что между выбранными переменными существует взаимосвязь.

Цель курсовой работы - построение качественной и адекватной эконометрической модели и проведение ее анализа на наличие автокорреляции остатков, мультиколлинеарности, гетероскедастичности.

В рамках поставленной цели определены следующие задачи:

ь Построение эконометрической модели по методу наименьших квадратов;

ь анализ качества модели;

ь проверка модели на соответствие предпосылкам МНК.

В ходе исследования использовалось приложение Пакет анализа в Excel.

автокорреляция мультиколлинеарность гетероскедастичность статистика

1. Анализ и методы

Построим эконометрическую модель и проведем ее анализ согласно предложенному плану:

1. Оценим каждую переменную в отдельности. Для этого приведем графики и описательную статистику каждой переменной:

А) ВВП

Таблица 1. ВВП

Столбец1

Среднее

23229,6

Стандартная ошибка

426,4114971

Медиана

22855,35

Мода

#Н/Д

Стандартное отклонение

2558,468982

Дисперсия выборки

6545763,534

Эксцесс

-0,651988342

Асимметричность

-0,206193402

Интервал

9649,8

Минимум

18428,6

Максимум

28078,4

Сумма

836265,6

Счет

36

R-коварияции

0,110138314

По графику видно, что с увеличением количества наблюдений (времени), значение переменной увеличивается незначительно. На графике также не наблюдается заметных отклонений, выбросов и т.д., лишь плавное изменение. Это подтверждает и коэффициент вариации, значение которого <30%.

Б) Количество трудоустроенных

Таблица 2. Количество трудоустроенных

Столбец1

Среднее

4121,166667

Стандартная ошибка

16,55998476

Медиана

4115,3

Мода

#Н/Д

Стандартное отклонение

99,35990856

Дисперсия выборки

9872,391429

Эксцесс

0,022046393

Асимметричность

-0,454022256

Интервал

426

Минимум

3889,4

Максимум

4315,4

Сумма

148362

Счет

36

R-коварияции

0,024109655

Ситуация для второй переменной аналогична, и график подтверждает это. Только прогиб кривой более заметен и более выпуклый, чем в случае с ВВП.

Зависимость ВВП и количества трудоустроенных объясняет график корреляционного поля:

В) ИПЦ

Таблица 3. ИПЦ

Столбец1

Среднее

0,486111111

Стандартная ошибка

0,630773684

Медиана

-0,1

Мода

-1,4

Стандартное отклонение

3,784642106

Дисперсия выборки

14,32351587

Эксцесс

0,285378312

Асимметричность

-0,287046349

Интервал

16,4

Минимум

-9,2

Максимум

7,2

Сумма

17,5

Счет

36

R-коварияции

7,785549476

Коэффициент вариации, в отличие от предыдущих случаев, указывает на значительную изменчивость ряда. График переменной подтверждает данное утверждение.

Отрицательная зависимость ИПЦ и ВВП прослеживается по графику корреляционного поля:

По результатам описательной статистики переменных, для двух рядов (ВВП, количество трудоустроенных) характерна невысокая изменчивость, т.е. они стабильны. В то же время, ряд ИПЦ является изменчивым.

Исследуем наличие зависимости между переменными путем построения корреляционной матрицы:

Таблица 4

Столбец 1

Столбец 2

Столбец 3

Столбец 1

1

Столбец 2

0,217591742

1

Столбец 3

0,202802894

0,186712072

1

По результатам корреляционной матрицы видно, что существует зависимость между ВВП и количеством трудоустроенных (высокие коэффициенты корреляции), а также между ВВП и ИПЦ. А зависимости между ИПЦ и количеством трудоустроенных нет.

2. По методу наименьших квадратов построим эконометрическую модель

ВВП= 2109,374648+ 2,88Колтруд- 17,41ИПЦ

R-квадрат = 0,021

Коэффициент b1 =2,88 показывает, что при увеличении количества трудоустроенных на 1 тыс. чел ВВП увеличивается в среднем на 2,88 млн. евро, а b2=17,41 означает, что увеличение ИПЦ в равнении с предыдущим периодом на 1% приводит к уменьшению ВВП в среднем на 17,41млн. евро.

3. Проанализируем качество модели:

· t-статистика коэффициента b1и b2 указывает на взаимосвязь ВВП с количеством трудоустроенных, ВВП и ИПЦ.

· P-значения подтверждают деланные выводы: оба коэффициентаb1 и b2значимы на любом уровне значимости (a>P?0);

· R- квадрат модели имеет низкое значение.

4. Протестируем регрессию на наличие автокорреляции. Так как в данной работе исследуются временные ряды, то вероятность наличия этой проблемы очень высокая. Для получения точного результата используем 3 метода, результаты которых затем сравним:

а) статистика Дарвина-Уотсона

DW=?(e-e(-1))^2/?e^2= 7648017,272 / 63285523,1= 0,120849396

Остатки модели по “грубому” правилу авто коррелированны (т.к. 0,120849396<1,5).

б) Метод рядов. Определим количество положительных и отрицательных отклонений модели.

Предположим, что n-объем выборки; n1-количество положительных отклонений; n2-количество отрицательных отклонений;k-количество интервалов. По таблице критических значений для нахождения АК по методу рядов, определим нижние и верхние границы k.

Для построенной модели:

Таблица 5

n1

n2

n

k

16

20

36

16

Т.к. k1<k<k2, то в данной модели отсутствует автокорреляция остатков.

в) Графический метод.

Построим график зависимости e от e(-1)):

Найдем, в каких четвертях сосредоточены точки на графике:

Таблица 6

I

19

III

14

II

1

IV

0

Преобладание точек в I и III четвертях указывает на наличие положительной зависимости между отклонениями в текущий и предыдущий моменты времени. Метод рядов плохо реагирует на слабую автокорреляцию, возможно поэтому произошла ошибка в его результатах

5. Проверим построенную модель на гетероскедастичность остатков. Для этого проведем тест Парка и тест Голдфелда-Квандта.

а) тест Парка. Сущность теста Парка в том, что если в модели присутствует гетероскедастичность, то вероятно существует линейная зависимость между объясняющими переменными и оценкой дисперсии отклонений.

Таблица 7. Количество трудоустроенных

Регрессионная статистика

Множественный R

0,127301

R-квадрат

0,016205

Нормированный R-квадрат

-0,01273

Стандартная ошибка

1367,344

Наблюдения

36

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

1047107

1047107

0,560061

0,459381

Остаток

34

63567366

1869628

Итого

35

64614473

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

-22083,7

37901,7

-0,58266

0,563969

-99109,2

54941,84

-99109,2

54941,8403

lnX 1

3900,156

5211,517

0,748372

0,459381

-6690,92

14491,23

-6690,92

14491,2323

Коэффициент b1 имеет t-статистику=0,75<tкр=2,042, следовательно, принимается нулевая гипотеза об отсутствии гетероскедастичности. Значит, между остатками и переменной количества трудоустроенных нет связи, т.е. оcтатки гомоскедастичны.

Таблица 8. ИПЦ

Регрессионная статистика

Множественный R

0,42867727

R-квадрат

0,1837642

Нормированный R-квадрат

0,15975727

Стандартная ошибка

1245,46998

Наблюдения

36

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

11873827,1

11873827

7,65463

0,009092

Остаток

34

52740645,7

1551195

Итого

35

64614472,8

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

5807,63055

268,863391

21,60067

1,96E-21

5261,234

6354,027

5261,234

6354,027

ln X 2

805,302684

291,069734

2,7667

0,009092

213,7778

1396,828

213,7778

1396,828

Коэффициент b1 в данном случае взаимосвязан с ВВП. Коэффициент статистически значим: t-статистика=2,7667>tкр=2,042, а следовательно гетероскедастичность выявлена. Таким образом, между остатками и переменными есть взаимосвязи.

б) тест Голдфелда-Квандта

k=16, n-2k=4

Таблица 9.

s1

Регрессионная статистика

Множественный R

0,825082

R-квадрат

0,68076

Нормированный R-квадрат

0,631646

Стандартная ошибка

467,1644

Наблюдения

16

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

6050056

3025028

13,86085

0,000598

Остаток

13

2837153

218242,6

Итого

15

8887210

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-19821,8

5072,736

-3,90752

0,0018

-30780,8

-8862,84

Переменная X1

17,05148

3,503645

4,866783

0,000308

9,482314

24,62064

Переменная X2

93,79999

68,29566

1,37344

0,192839

-53,7438

241,3438

s3

Регрессионная статистика

Множественный R

0,606699

R-квадрат

0,368084

Нормированный R-квадрат

0,270866

Стандартная ошибка

603,8351

Наблюдения

16

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

2761004

1380502

3,786171

0,050616

Остаток

13

4740019

364616,9

Итого

15

7501023

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-967,941

3087,629

-0,31349

0,758882

-7638,36

5702,476

Переменная X1

5,876372

2,184717

2,689763

0,018552

1,156578

10,59617

Переменная X2

27,12752

46,83154

0,579257

0,572317

-74,0459

128,3009

Таким образом, S1=?е2= 2837153; S3= 4740019 , тогда Fn=S3/S1= 1,670695;

Fкр=5,53, значит, нет гетероскедастичности.

В модели присутствует гомоскедастичность, так как Fнабл<Fкр

6. Проверим модель на отсутствие мультиколлинеарности.

низкий, но при этом t-стат. высокие, и также парный коэффициент по модулю низкий, то можно сказать, что в модели не присутствует мультиколлинеарность. Коэффициенты парной корреляции низкие.

Выводы

Цель работы (построение качественной эконометрической модели и проведение ее детального анализа) была достигнута во время написания данной работы. Построенная модель имеет высокий коэффициент вариации, t-статистики высокие. Графический метод, метод рядов и статистика Дарвина-Уотсона подтвердили наличие положительной автокорреляции. Тест Парка и тест Голдфелда-Кванта показали наличие гомоскедастичности. В модели не присутствует мультиколлениарность. При исследовании модели на предпосылки МНК, использовались различные тесты и методы.

Список использованных источников

1. С.А Бородич. Эконометрика: Учеб. Пособие

2. Статистические данные по Литве

Приложение 1

Исходные данные

Lithuania

ВВП

Количество трудоустроенных, тыс. чел.

ИПЦ, %

2003Q1

4 099,2

1 376,9

1,1

2003Q2

4 070,0

1 466,2

-2,2

2003Q3

4 149,1

1 446,7

-0,7

2003Q4

4 263,6

1 413,1

1,0

2004Q1

4 351,1

1 401,5

0,5

2004Q2

4 469,6

1 433,7

0,9

2004Q3

4 601,3

1 438,5

2,1

2004Q4

4 789,8

1 427,8

1,5

2005Q1

4 913,9

1 430,3

0,6

2005Q2

5 149,7

1 462,5

3,0

2005Q3

5 373,4

1 480,1

1,6

2005Q4

5 542,7

1 470,1

1,0

2006Q1

5 632,4

1 472,0

0,5

2006Q2

5 882,9

1 489,5

2,3

2006Q3

6 285,6

1 500,0

5,0

2006Q4

6 320,5

1 488,1

-2,2

2007Q1

6 725,7

1 499,3

4,0

2007Q2

7 035,8

1 536,0

2,1

2007Q3

7 386,2

1 553,4

2,2

2007Q4

7 606,6

1 526,6

1,3

2008Q1

7 974,1

1 509,5

5,7

2008Q2

8 294,1

1 524,6

2,5

2008Q3

8 218,3

1 535,9

0,5

2008Q4

7 898,9

1 505,1

-3,1

2009Q1

7 020,6

1 432,3

1,8

2009Q2

6 827,2

1 421,8

-1,4

2009Q3

6 460,4

1 423,0

-5,7

2009Q4

6 337,1

1 383,2

-0,6

2010Q1

6 185,4

1 327,3

2,2

2010Q2

7 030,6

1 326,8

3,0

2010Q3

7 229,2

1 350,3

-3,8

2010Q4

7 162,3

1 366,3

2,3

2011Q1

6 869,6

1 339,3

3,8

2011Q2

7 890,2

1 383,6

4,0

2011Q3

8 144,4

1 377,8

-4,3

2011Q4

7 902,7

1 378,2

1,0

Приложение 2

Исходная регрессионная модель

Регрессионная статистика

Множественный R

0,143413

R-квадрат

0,020567

Нормированный R-квадрат

-0,03879

Стандартная ошибка

1384,826

Наблюдения

36

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

1328950

664474,8

0,346488

0,709709

Остаток

33

63285523

1917743

Итого

35

64614473

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

2109,375

5345,304

0,394622

0,695661

-8765,73

12984,48

-8765,73

12984,48

Пер X 1

2,882103

3,712345

0,776356

0,443068

-4,67072

10,43493

-4,67072

10,43493

Пер X 2

17,41377

92,32863

0,188606

0,851556

-170,43

205,2578

-170,43

205,2578

Приложение 3

Статистика Дарбина-Уотсона

Остатки

e^2

e(-1)

(e-e(-1))^2

1997,697079

3990793,6

3990793,62

2226,803429

4958653,5

1997,697079

52489,7192

2117,623073

4484327,5

2226,803429

11920,3499

1935,887823

3747661,7

2117,623073

33027,7014

1806,248548

3262533,8

1935,887823

16806,3416

1787,517763

3195219,8

1806,248548

350,842301

1690,548375

2857953,8

1787,517763

9403,06217

1460,761616

2133824,5

1690,548375

52801,9546

1328,194484

1764100,6

1460,761616

17574,0446

1226,991231

1505507,5

1328,194484

10242,0985

1029,636967

1060152,3

1226,991231

38948,7054

821,0676799

674152,13

1029,636967

43501,1475

728,1367922

530183,19

821,0676799

8636,14988

-559,418369

312948,91

728,1367922

28465,9063

233,9976156

54754,884

-559,418369

105898,667

39,42147896

1554,053

233,9976156

37859,873

225,5336221

50865,415

39,42147896

70201,2056

462,9466059

214319,56

225,5336221

56364,9249

761,4566413

579816,22

462,9466059

89108,2412

1074,769384

1155129,2

761,4566413

98164,875

1414,932772

2002034,7

1074,769384

115711,13

1747,137071

3052487,9

1414,932772

110359,696

1673,596841

2800926,4

1747,137071

5408,16536

1505,655163

2266997,5

1673,596841

28204,4072

751,8447917

565270,59

1505,655163

568230,076

644,4309213

415291,21

751,8447917

11537,7396

349,051591

121837,01

644,4309213

87248,9488

251,6490752

63327,257

349,051591

9487,25009

212,3000751

45071,322

251,6490752

1548,3438

1045,010114

1092046,1

212,3000751

693406,009

1294,294307

1675197,8

1045,010114

62142,6087

1075,056691

1155746,9

1294,294307

48065,1321

834,0528167

695644,1

1075,056691

58082,8674

1723,492911

2970427,8

834,0528167

791103,682

2138,943364

4575078,7

1723,492911

172599,078

1803,797564

3253685,7

2138,943364

112322,707

Приложение 4

Метод рядов

Остатки

знак

1997,697079

-

2226,803429

-

2117,623073

-

1935,887823

-

1806,248548

-

1787,517763

-

1690,548375

-

1460,761616

-

1328,194484

-

226,991231

-

1029,636967

-

821,0676799

-

728,1367922

-

-559,418369

-

233,9976156

-

39,42147896

-

225,5336221

-

462,9466059

-

761,4566413

-

1074,769384

-

1414,932772

+

1747,137071

+

1673,596841

+

1505,655163

+

751,8447917

+

644,4309213

+

349,051591

+

251,6490752

+

212,3000751

+

1045,010114

+

1294,294307

+

1075,056691

+

834,0528167

+

1723,492911

+

2138,943364

+

1803,797564

+

Приложение 5

Тест Парка

lne^2

lnx1

lnx2

15,1995

7,22759

0,09531018

15,41664

7,290429

0,78845736

15,3161

7,27704

-0,3566749

15,13664

7,253541

0

14,99801

7,245298

-0,6931472

14,97717

7,268014

-0,1053605

14,86562

7,271356

0,74193734

14,57343

7,26389

0,40546511

14,38315

7,265639

-0,5108256

14,22464

7,287903

1,09861229

13,87392

7,299865

0,47000363

13,42121

7,293086

0

13,18098

7,294377

-0,6931472

12,6538

7,306196

0,83290912

10,91062

7,31322

1,60943791

7,348622

7,305255

0,78845736

10,83694

7,312754

1,38629436

12,27522

7,336937

0,74193734

13,27047

7,348201

0,78845736

13,95972

7,330798

0,26236426

14,50967

7,319534

1,74046617

14,93147

7,329487

0,91629073

14,84546

7,336872

-0,6931472

14,63397

7,316615

1,13140211

13,24506

7,267037

0,58778666

12,93674

7,259679

0,33647224

11,71044

7,260523

1,74046617

11,05607

7,232155

-0,5108256

10,716

7,190902

0,78845736

13,90356

7,190525

1,09861229

14,33144

7,208082

1,33500107

13,96026

7,219862

0,83290912

13,45259

7,199902

1,33500107

14,90422

7,232444

1,38629436

15,33613

7,228243

1,45861502

14,9953

7,228534

0

Приложение 6

Тест Голдфелда-Квандта

Наблюдение

Предсказанное Y

Остатки

e2

1

3759,539

339,661

115369,6

2

4972,696

-902,696

814860,3

3

4780,892

-631,792

399161,5

4

4367,423

-103,823

10779,13

5

4122,725

228,3746

52154,95

6

4709,303

-239,703

57457,55

7

4903,71

-302,41

91451,89

8

4664,979

124,8207

15580,2

9

4623,188

290,712

84513,46

10

5397,366

-247,666

61338,26

11

5566,152

-192,752

37153,21

12

5339,357

203,3431

41348,42

13

5324,855

307,5453

94584,11

14

5792,096

90,80444

8245,446

15

6224,396

61,20393

3745,921

16

5346,124

974,3765

949409,5

S1

2837153

Наблюдение

Предсказанное Y

Остатки

e2

1

8057,069

-82,9685

6883,778

2

8058,994

235,1063

55274,98

3

8071,142

147,1584

21655,58

4

7792,49

106,4097

11323,02

5

7497,615

-477,015

227543,6

6

7349,105

-521,905

272385,2

7

7239,509

-779,109

607010,3

8

7143,979

-806,879

651054,4

9

6891,447

-706,047

498502,8

10

6910,211

120,3888

14493,47

11

6863,839

365,3613

133488,8

12

7123,339

38,96143

1517,993

13

7005,368

-135,768

18432,9

14

7271,117

619,0834

383264,3

15

7011,875

1132,525

1282612

16

7158,002

744,6984

554575,7

S3

4740019

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.