Ковариация и корреляция
Ковариация и коэффициент корреляции, пары случайных переменных. Вычисление их выборочных значений и оценка статистической значимости в Excel. Математическая мера корреляции двух случайных величин. Построение моделей парной и множественной регрессии.
Рубрика | Экономико-математическое моделирование |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 24.12.2014 |
Размер файла | 2,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Федеральное государственное образовательное бюджетное учреждение
высшего профессионального образования
«Финансовый университет при Правительстве Российской Федерации»
(Финуниверситет)
Смоленский филиал Финуниверситета
Кафедра Математики и информатики
КОНТРОЛЬНАЯ РАБОТА №1
по дисциплине «Эконометрика»
Смоленск 2014
1. Теоретическая часть
Ковариация (корреляционный момент, ковариационный момент) в теории вероятности в математической статистике мера линейной зависимости двух случайных величин.
Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад. В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором -- также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях -- это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин.
Коэффициентом ковариации называется выражение:
cov(X,Y)=M[(X-MX)(Y-MY)]=M[XY-XMY-YMX+MX*MY]=MXY-2MX*MY+MX*MY=MXY-MX*MY
Если случайные величины XY независимы, то их коэффициент ковариации равен нулю, обратное в общем случае неверно.
Математической мерой корреляции двух случайных величин служит корреляционное отношение либо коэффициент корреляции R. В случае если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической. Впервые в научный оборот термин корреляция ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.
Коэффициентом корреляции случайных величин X и Y называется число:
X*=(X-MX)/?x Y*=(Y-MY)/?y
D(X±Y)=M[X±Y-M(X±Y)]2=M[X±Y-MX?MY]2=M[(X-MX)±(Y-MY)]2=M[(M-MX)2±2(X-MX)(Y-MY)+(Y-MY)2]=M(X_MX)2±2M(X-MX)(Y-MY)+M(Y-MY)2=DX±cov(XY)+DY
Следствие:
Если X и Y независимы, то коэффициент ковариации равен 0 и следовательно
D(X±Y)=DX±DY
Если имеются две выборки x=(x1,…, xI) и y=(y1,…, yI ), то можно рассчитать выборочные значения ковариации и корреляции. Ковариация c рассчитывается по формуле
,
а коэффициент корреляции r по формуле
.
В более общем случае, когда имеется матрица данных X, размерностью I наблюдений на J переменных, то выборочная матрица ковариаций CI между наблюдениями рассчитывается так -
CI=XXt .
Выборочная матрица ковариаций CJ между переменными так -
CJ=XtX .
Для вычисления парных ковариаций в Excel используют следующие стандартные функции: COVAR (КОВАР), CORREL (КОРРЕЛ).
Синтаксис COVAR(x, y)
Возвращает выборочную ковариацию между выборками x и y. CORREL(x, y)
Возвращает выборочный коэффициент корреляции между выборками x и y.
ковариация корреляция регрессия
2. Практическая часть
2.1 Задача 1. Построение модели парной регрессии
1. Рассчитайте матрицу парных коэффициентов корреляции; оцените статистическую значимость коэффициентов корреляции.
2. Постройте поле корреляции результативного признака и наиболее тесно связанного с ним фактора.
3. Рассчитайте параметры линейной парной регрессии от ведущего фактора.
4. Оцените качество уравнения парной регрессии через коэффициент детерминации, среднюю ошибку аппроксимации и F-критерий Фишера.
5. Осуществите прогнозирование среднего значения показателя при уровне значимости , если прогнозное значения фактора составит 80% от его максимального значения. Представьте графически: фактические и модельные значения, точки прогноза.
Вариант 4. В таблице представлены данные о цене технического средства (ТС), доходе, возрасте, стаже работы и т.д. 24 сотрудников некоторого предприятия.
Таблица 1
№ п.п. |
Y Цена ТС |
X1 Доход |
X2 Возраст |
X3 Уровень образ. |
X4 Стаж |
X5 Пол |
|
1 |
36.20 |
72.00 |
55.00 |
0.00 |
23.00 |
0.00 |
|
2 |
76.90 |
153.00 |
56.00 |
0.00 |
35.00 |
1.00 |
|
3 |
13.70 |
28.00 |
28.00 |
1.00 |
4.00 |
0.00 |
|
4 |
12.50 |
26.00 |
24.00 |
1.00 |
0.00 |
1.00 |
|
5 |
11.30 |
23.00 |
25.00 |
0.00 |
5.00 |
1.00 |
|
6 |
37.20 |
76.00 |
45.00 |
0.00 |
13.00 |
1.00 |
|
7 |
19.80 |
40.00 |
42.00 |
1.00 |
10.00 |
1.00 |
|
8 |
28.20 |
57.00 |
35.00 |
0.00 |
1.00 |
0.00 |
|
9 |
12.20 |
24.00 |
46.00 |
0.00 |
11.00 |
0.00 |
|
10 |
46.10 |
89.00 |
34.00 |
1.00 |
12.00 |
1.00 |
|
11 |
35.50 |
72.00 |
55.00 |
1.00 |
2.00 |
0.00 |
|
12 |
11.80 |
24.00 |
28.00 |
1.00 |
4.00 |
1.00 |
|
13 |
21.30 |
40.00 |
31.00 |
1.00 |
0.00 |
0.00 |
|
14 |
68.90 |
137.00 |
42.00 |
1.00 |
3.00 |
0.00 |
|
15 |
34.10 |
70.00 |
35.00 |
1.00 |
9.00 |
1.00 |
|
16 |
78.90 |
159.00 |
52.00 |
1.00 |
16.00 |
1.00 |
|
17 |
18.60 |
37.00 |
21.00 |
1.00 |
0.00 |
1.00 |
|
18 |
13.70 |
28.00 |
32.00 |
0.00 |
2.00 |
0.00 |
|
19 |
54.70 |
109.00 |
42.00 |
1.00 |
20.00 |
0.00 |
|
20 |
58.30 |
117.00 |
40.00 |
0.00 |
19.00 |
0.00 |
|
21 |
11.80 |
23.00 |
30.00 |
0.00 |
3.00 |
1.00 |
|
22 |
9.50 |
21.00 |
48.00 |
1.00 |
2.00 |
1.00 |
|
23 |
8.50 |
17.00 |
39.00 |
1.00 |
2.00 |
1.00 |
|
24 |
16.60 |
34.00 |
42.00 |
0.00 |
13.00 |
0.00 |
Обозначения:
в графе Уровень образования: 1 - высшее и неоконченное высшее, 0 - среднее, среднее специальное, ТС - транспортное средство, в графе Пол: 1 - мужской, 0 - женский.
Решение:
Работаем в программе Microsoft Office Excel. Вносим данные в Excel.
Рис. 1
Матрицу парных коэффициентов корреляции можно рассчитать, используя инструмент Анализа данных Корреляция. Для этого:
1. В главном меню выбираем Сервис ->Анализ данных ->Корреляция
2. Заполняем диалоговое окно ввода параметров, в качестве входного интервала указываем весь диапазон представленных данных.
Рис. 2
Коэффициент парной корреляции между ценой ТС и доходом работника имеет положительную величину, следовательно, между этими признаками прямая связь, т.е. при увеличении дохода, цена ТС тоже увеличивается. Значение коэффициента велико по абсолютной величине, следовательно, между ценой ТС и доходом работника сильная связь.
Коэффициент парной корреляции между ценой ТС и возрастом работника также имеет положительную величину, следовательно, между этими признаками прямая связь. То есть, чем выше возраст работника, тем больше цена приобретаемого ТС.
Коэффициент парной корреляции между ценой приобретаемого ТС и уровнем образования также имеет положительную величину, следовательно, между этими признаками прямая связь. То есть, чем выше уровень образования работника, тем больше цена приобретаемого ТС.
Коэффициент парной корреляции между ценой приобретаемого ТС и стажем работникатакже имеет положительную величину, следовательно, между этими признаками прямая связь. То есть, чем больше стаж работника, тем больше цена приобретаемого ТС.
Коэффициент парной корреляции между ценой приобретаемого ТС и полом работника имеет отрицательную величину, следовательно, между этими признаками обратная связь.
Итак, по результатам анализа матрицы парных коэффициентов корреляции в качестве ведущего фактора для построения однофакторной регрессии должен быть выбран фактор X1 (доход).
С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности.
1. Для построения модели парной регрессии в главном меню выберем Сервис>Анализ данных->Регрессия
2. Заполним диалоговое окно ввода данных и параметров вывода
Входной интервал Y - диапазон, содержащий данные результативного признака.
Входной интервал X - диапазон, содержащий данные факторов независимого признака (так как модель однофакторная, то построим её на основе фактора X1)
Рис. 3
Рис. 4
На основании этого можно записать уравнение линейной парной регрессии:
y=0.426386+1.990719x1
Оценим качество уравнения парной регрессии через коэффициент детерминации и F-критерий Фишера.
R2=0.99, следовательно 99% вариации цены ТС зависит от дохода работника. Значение коэффициента детерминации близко к 1, следовательно, качество модели высокое.
Найдем F табличное.
Рис. 5
29963,9073951677 ? 4,300949502
F расчётное ? F табличного, следовательно, уравнение регрессии статистически значимое и оно может быть использовано для анализа и прогнозирования.
Определим x прогнозное:
xпрогн=0.8*x1max
y=0.426386+1.990719x1
Определим y прогнозное:
yпрогн=0,426386+1,990719*0,8*159=253,645843
2.2 Задача 2. Построение модели множественной регрессии
1. Осуществите анализ матрицы парных корреляций на предмет мультиколлинеарности.
2. Используя пошаговую множественную регрессию (метод исключения или метод включения), постройте модель множественной регрессии. Дайте экономическую интерпретацию коэффициентов модели регрессии.
3. Осуществите проверку выполнения предпосылок МНК.
4. Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, - и - коэффициентов.
5. Постройте (по лучшей модели) прогноз результативного признака, если предположить, что значения факторных признаков увеличатся относительно средних значений на 10 %.
Вариант 4. В таблице представлены данные о цене технического средства (ТС), доходе, возрасте, стаже работы и т.д. 24 сотрудников некоторого предприятия.
Таблица 2
№ п.п. |
Y Цена ТС |
X1 Доход |
X2 Возраст |
X3 Уровень образ. |
X4 Стаж |
X5 Пол |
|
1 |
36.20 |
72.00 |
55.00 |
0.00 |
23.00 |
0.00 |
|
2 |
76.90 |
153.00 |
56.00 |
0.00 |
35.00 |
1.00 |
|
3 |
13.70 |
28.00 |
28.00 |
1.00 |
4.00 |
0.00 |
|
4 |
12.50 |
26.00 |
24.00 |
1.00 |
0.00 |
1.00 |
|
5 |
11.30 |
23.00 |
25.00 |
0.00 |
5.00 |
1.00 |
|
6 |
37.20 |
76.00 |
45.00 |
0.00 |
13.00 |
1.00 |
|
7 |
19.80 |
40.00 |
42.00 |
1.00 |
10.00 |
1.00 |
|
8 |
28.20 |
57.00 |
35.00 |
0.00 |
1.00 |
0.00 |
|
9 |
12.20 |
24.00 |
46.00 |
0.00 |
11.00 |
0.00 |
|
10 |
46.10 |
89.00 |
34.00 |
1.00 |
12.00 |
1.00 |
|
11 |
35.50 |
72.00 |
55.00 |
1.00 |
2.00 |
0.00 |
|
12 |
11.80 |
24.00 |
28.00 |
1.00 |
4.00 |
1.00 |
|
13 |
21.30 |
40.00 |
31.00 |
1.00 |
0.00 |
0.00 |
|
14 |
68.90 |
137.00 |
42.00 |
1.00 |
3.00 |
0.00 |
|
15 |
34.10 |
70.00 |
35.00 |
1.00 |
9.00 |
1.00 |
|
16 |
78.90 |
159.00 |
52.00 |
1.00 |
16.00 |
1.00 |
|
17 |
18.60 |
37.00 |
21.00 |
1.00 |
0.00 |
1.00 |
|
18 |
13.70 |
28.00 |
32.00 |
0.00 |
2.00 |
0.00 |
|
19 |
54.70 |
109.00 |
42.00 |
1.00 |
20.00 |
0.00 |
|
20 |
58.30 |
117.00 |
40.00 |
0.00 |
19.00 |
0.00 |
|
21 |
11.80 |
23.00 |
30.00 |
0.00 |
3.00 |
1.00 |
|
22 |
9.50 |
21.00 |
48.00 |
1.00 |
2.00 |
1.00 |
|
23 |
8.50 |
17.00 |
39.00 |
1.00 |
2.00 |
1.00 |
|
24 |
16.60 |
34.00 |
42.00 |
0.00 |
13.00 |
0.00 |
Обозначения:
в графе Уровень образования: 1 - высшее и неоконченное высшее, 0 - среднее, среднее специальное, ТС - транспортное средство, в графе Пол: 1 - мужской, 0 - женский.
Решение:
Работаем в программе Microsoft Office Excel. Вносим данные в Excel.
Рис. 6
Матрицу парных коэффициентов корреляции можно рассчитать, используя инструмент Анализа данных Корреляция. Для этого:
1. В главном меню выбираем Сервис ->Анализ данных ->Корреляция
2. Заполняем диалоговое окно ввода параметров, в качестве входного интервала указываем весь диапазон представленных данных.
Рис. 7
Для выявления мультиколлинеарности анализируем часть матрицы, за исключением первого столбца. В анализируемой области нет значения по модулю большего 0,8. Следовательно, мультиколлинеарность отсутствует.
Поэтому мы можем использовать все факторные признаки в модели регрессии. Построим модель множественной регрессии
Рис. 8
y= 0,501x1-0,028x2+ 0,227x3+ 0,027x4- 0,322x5
Дадим экономическую интерпретацию коэффициентов модели регрессии.
Если доход работника увеличится на 1 условную единицу, то цена приобретаемого ТС увеличится на 0,501 условную единицу.
Если рассматривать в целом, то чем ниже возраст на 1 условную единицу, тем выше цена приобретаемого ТС примерно на 0,028 условных единиц.
Если уровень образования увеличится на 1 условную единицу, то цена приобретаемого ТС увеличится на 0,227 условных единиц.
Если стаж увеличится на 1 условную единицу, то цена приобретаемого ТС увеличится на 0,027 условных единиц.
В зависимости от пола работника, цена приобретаемого ТС уменьшится (увеличится) на 0,322 условных единиц.
Оценим качество уравнения парной регрессии через коэффициент детерминации и F-критерий Фишера.
R2=0.99, следовательно 99% вариации цены ТС зависит от дохода работника. Значение коэффициента детерминации близко к 1, следовательно, качество модели высокое.
Найдем F табличное.
Рис. 9
5838,597 ? 2,772853
F расчётное ? F табличного, следовательно, уравнение регрессии статистически значимое и оно может быть использовано для анализа и прогнозирования.
Рис. 10
Нашли t табличное, для сравнения с t расчетным. Проанализировав значения, можно заметить, что всего лишь одно значение t расчетного больше t табличного. Значит, нам важен только показатель дохода.
Лучшей признается множественная модель регрессии, так как коэффициент детерминации в ней больше.
0,999691849275448 ? 0,999633093699319
Рассчитаем прогнозные значения факторных признаков:
xпрогн = xn*1,1
xпрогн1 = 61,5*1,1=67,65
xпрогн2 =38,625*1,1=42,4875
xпрогн3 =0,583*1,1=0,6413
xпрогн4 =8,708*1,1=9,5788
xпрогн5 =0,547*1,1=0,6017
Литература
1. Гармаш А.Н., Орлова И.В. Математические методы в управлении. Учеб. пособие. - М.: Вузовский учебник: ИНФРА-М, 2012. - 272 с.
2. Дайитбегов Д.М. Компьютерные технологии анализа данных в эконометрике. - М.: ИНФРА-М - Вузовский учебник, 2008. -578 с.
3. Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: Учеб. пособие. - 3-е изд., перераб. и доп. - М.: Вузовский учебник: ИНФРА-М, 2011. - 389 с.
4. Орлова И.В. Экономико-математическое моделирование: Практическое пособие по решению задач. - 2-е изд., испр. и доп. - М.: Вузовский учебник: ИНФРА-М, 2012. - 140 с.
5. Практикум по эконометрике: Учеб. пособие /Под ред. И.И.Елисеевой - М.: Финансы и статистика, 2012.
6. Экономико-математические методы и прикладные модели: учебник для бакалавров / В.В. Федосеев, А.Н. Гармаш, И.В. Орлова; под ред. В.В. Федосеева. - З-е изд., перераб. и под. - М.: Издательство Юрайт, 2012. - 328 с. - Серия: Бакалавр. Базовый курс.
7. Эконометрика: Учебник/Под ред. И.И. Елисеевой - М.: Финансы и статистика, 2012.
Размещено на Allbest.ru
Подобные документы
Выборочная ковариация как мера взаимосвязи между двумя переменными. Основные правила расчета ковариации исходя из данных выборок. Математическое ожидание, дисперсия и теоретическая ковариация по ряду наблюдений. Коэффициент корреляции как её показатель.
контрольная работа [30,1 K], добавлен 15.12.2009Определение параметров линейной регрессии и корреляции с использованием формул и табличного процессора MS Excel. Методика расчета показателей парной нелинейной регрессии и корреляции. Вычисление значений линейных коэффициентов множественной детерминации.
контрольная работа [110,4 K], добавлен 28.07.2012Понятие взаимосвязи между случайными величинами. Ковариация и коэффициент корреляции. Модель парной линейной регрессии. Метод наименьших квадратов, теорема Гаусса-Маркова. Сравнение регрессионных моделей. Коррекция гетероскедастичности, логарифмирование.
курс лекций [485,1 K], добавлен 02.06.2011Расчет параметров парной линейной регрессии. Оценка статистической значимости уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. Построение матрицы парных коэффициентов корреляции. Статистический анализ с помощью ППП MS EXCEL.
контрольная работа [1,6 M], добавлен 14.05.2008Оценка уравнений парной и множественной регрессии. Ковариация, корреляция, дисперсия. Определение доверительных интервалов для параметров. Статистические уравнения зависимостей. Расчет нормативных микроэкономических показателей хозяйственной деятельности.
дипломная работа [1,9 M], добавлен 20.10.2014Методика расчета линейной регрессии и корреляции, оценка их значимости. Порядок построения нелинейных регрессионных моделей в MS Exсel. Оценка надежности результатов множественной регрессии и корреляции с помощью F-критерия Фишера и t-критерия Стьюдента.
контрольная работа [3,6 M], добавлен 29.05.2010Расчет линейного коэффициента парной и частной корреляции. Статистическая значимость параметров регрессии и корреляции. Анализ корреляционного поля данных. Точность прогноза, расчет ошибки и доверительный интервал. Коэффициент множественной детерминации.
контрольная работа [155,8 K], добавлен 11.12.2010Коэффициент парной линейной корреляции, формула его расчета. Вычисление коэффициента в MS Excel. Оценка достоверности выборочного коэффициента корреляции в качестве нулевой гипотезы. Выборочный критерий Стьюдента. Построение графика зависимости.
научная работа [622,6 K], добавлен 09.11.2014Поля корреляции, характеризующие зависимость ВРП на душу населения от размера инвестиций в основной капитал. Оценка параметров уравнения парной линейной регрессии. Коэффициент множественной корреляции. Способы оценки параметров структурной модели.
контрольная работа [215,1 K], добавлен 22.11.2010Описание классической линейной модели множественной регрессии. Анализ матрицы парных коэффициентов корреляции на наличие мультиколлинеарности. Оценка модели парной регрессии с наиболее значимым фактором. Графическое построение интервала прогноза.
курсовая работа [243,1 K], добавлен 17.01.2016