Анализ данных в линейной регрессионной модели
Построение диаграммы рассеивания (корреляционного поля). Группировка данных и построение корреляционной таблицы. Оценка числовых характеристик для негруппированных и группированных данных. Выборочное значение статистики. Параметры линейной регрессии.
Рубрика | Экономика и экономическая теория |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 14.12.2010 |
Размер файла | 150,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Государственное образовательное учреждение высшего профессионального образования
«Московский государственный институт электронной технки
(технический универститет)»
Курсовая работа
по дисциплине
«Теория вероятности и математическая статистика»
Тема работы
«Анализ данных в линейной регрессионной модели»
Выполнил:
Студент группы ЭКТ-21
Рыжов С.А.
Проверил:
Преподаватель
Бардушкина И. В.
Москва - 2010
Вариант 20.
Задание 1
Выполнить предварительную обработку результатов наблюдений, включающую:
1 построение диаграммы рассеивания (корреляционного поля);
2 группировку данных и построение корреляционной таблицы;
3 оценку числовых характеристик для негруппированных и группированных данных.
Оценка числовых характеристик для негруппированных данных:
X |
Y |
X |
Y |
|
4,19 |
9,19 |
4,44 |
9,13 |
|
3,04 |
11,94 |
11,31 |
4,58 |
|
4,6 |
8,09 |
7,57 |
3,14 |
|
9,83 |
10,33 |
1,62 |
14,61 |
|
8,66 |
7,15 |
5,71 |
6,48 |
|
1,3 |
12,34 |
11,06 |
6,78 |
|
4,22 |
16,35 |
10,35 |
2,15 |
|
5,11 |
7,7 |
2,46 |
9,66 |
|
9,85 |
5,64 |
1,02 |
11,19 |
|
8,8 |
4,52 |
5,77 |
7,77 |
|
12,17 |
4,52 |
8,63 |
4,05 |
|
11,25 |
2,06 |
6,91 |
4,76 |
|
5,73 |
7,41 |
3,56 |
8,54 |
|
4,05 |
10,51 |
9,47 |
2,22 |
|
5,41 |
9,97 |
6,16 |
3,72 |
|
1,28 |
14,68 |
8,26 |
3,57 |
|
1,67 |
9,67 |
6,7 |
14,32 |
|
11,99 |
3,31 |
4,95 |
10,64 |
|
7,66 |
5,93 |
3,37 |
10,73 |
|
5,17 |
9,87 |
1,53 |
10,13 |
|
3,26 |
11,52 |
9,54 |
4,95 |
|
12,58 |
2,88 |
3,11 |
5,38 |
|
8,34 |
3,57 |
5,09 |
5,79 |
|
5,79 |
4,39 |
11,08 |
3,87 |
|
3,42 |
9,71 |
8,74 |
-2,23 |
|
Сумма X |
317.78 |
|||
Сумма Y |
369,18 |
|||
MX |
6,3556 |
|||
MY |
7,3836 |
|||
s2X |
11,02005 |
|||
s2Y |
15,31479 |
|||
KXY |
-9,1594 |
|||
сXY |
-0,7194 |
Числовые характеристики для негруппированной выборки находятся по следующим формулам:
, ;
;
;
;
;
Построение корреляционного поля:
Построение корреляционной таблицы:
Таблица 1.1
Y X |
-1.5 |
1.5 |
4.5 |
7.5 |
10.5 |
13.5 |
16.5 |
ni. |
|
2.5 |
0 |
0 |
1 |
1 |
8 |
3 |
0 |
13 |
|
5.5 |
0 |
0 |
4 |
5 |
6 |
1 |
1 |
17 |
|
8.5 |
1 |
1 |
8 |
1 |
1 |
0 |
0 |
12 |
|
11.5 |
0 |
3 |
4 |
1 |
0 |
0 |
0 |
8 |
|
nj. |
1 |
4 |
17 |
8 |
15 |
4 |
1 |
50 |
Оценка числовых характеристик для группированных данных:
, ;
, ;
;
;
, ;
;
;
= - 0.87
Задание 2
Для негруппированных данных проверить гипотезу об отсуствии линейной статистической связи между компонентами X и Y при альтернативной гипотезе ( уровень значимости б = 0,05);
Выборочное значение статистики равно
,
Используя средства Matlab, найдем
Так как выборочное значение статистики больше квантили распределения Стьюдента, гипотеза H0 отклоняется в сторону гипотезы H1. Корреляция значима.
Задание 3
Для негруппированых данных получить интервальную оценку для истинного значения коэффициента корреляции сX,Y, при уровне значимости б = 0,05.
Используя средства Matlab, найдем
,
,
Задание 4
Для негруппированных и группированных данных составить уравнения регрессии Y на x и X на Y.
Рассмотрим вначале случай негруппированных данных.
Этот интервал не содержит нуля, т.е. с доверительной вероятностью 1 - ЫВА = 0,95 существует корреляция между X и Y и имеет смысл построение уравнений регрессии.
,
y(x) = 12,77 - 0,848*x;
x(y) = 10,86 - 0,6*y;
Проверка.
, .
, ;
,
, ;
Случай группированных данных.
Подставим найденные значения в уравнеиня линейной регрессии Y на x и X на y. Получим:
y(x) = 17,14 - 1,4*x;
x(y) = 10,83 - 0,54*y;
Проверка:
Задание 5
Для негруппированных данных нанести графики выборочных регрессионных прямых на диаграмму рассеивания.
Задание 6
Для негруппированных данных по найденным оценкам параметров линейной регрессии Y на x получить оценку s2 для дисперсии ошибок наблюдений у2, найти коэффициент детерминации R2, построить доверительные интервалы для параметров регрессии a и b, дисперсии ошибок наблюдений у2 и среднего значения Y при x = x0 .
Для негруппированных данных были получены следующие оценки числовых характеристик и коэффициентов регрессии: , , , , , , , .
Используя соотношение , вычислим остаточную сумму
;
;
;
.
;
Тогда оценка дисперсии ошибок наблюдений равна
.
Коэффициент детерминации равен
.
Поскольку (знак ), то сделаем проверку правильности расчетов:
(верно).
Полученный результат для коэффициента детерминации означает, что уравнение регрессии на 49,7% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой .
Построим доверительные интервалы для параметров линейной регрессии и дисперсии ошибок наблюдений.
С помощью Matlab найдем квантили распределений Стьюдента и :
, , ;
- доверительный интервал для параметра :
;
;
- доверительный интервал для параметра :
;
;
- доверительный интервал для дисперсии ошибок наблюдений :
;
.
-Найдем границы доверительных интервалов для среднего значения при :
;
.
Задание 7. Для негруппированных данных проверить значимость линейной регрессии Y на x (уровень значимости б = 0,05).
Гипотеза : отклоняется на уровне значимости , так как доверительный интервал не накрывает нуль с доверительной вероятностью 0,95.
Этот же результат можно получить, используя для проверки гипотезу : и статистику .
С помощью Matlab найдем квантили распределения Фишера:
, .
Выборочное значение статистики равно:
.
Поскольку , то гипотеза : отклоняется на уровне значимости . Таким образом, линейная регрессия на статистически значима.
Задание №8
Для данных, сгруппированных только по , проверить адекватность линейной регрессии на (уровень значимости ).
Для проверки адекватности воспользуемся корреляционной таблицей. Будем считать, что середины интервалов группировки , , являются значениями компоненты . Тогда число повторных наблюдений равно 4. Запишем результаты этих наблюдений в виде таблицы
Таблица 1.2
2,5 |
5,5 |
8,5 |
11,5 |
||
11,94 12,34 14,68 9,87 11,52 9,71 14,61 9,66 11,19 8,54 10,73 10,13 5,38 |
9,19 8,09 16,35 7,70 7,41 10,51 9,97 9,87 4,39 6,48 7,77 4,76 3,72 14,32 10,64 5,79 9,13 |
10,33 7,15 5,64 4,52 4,52 3,57 3,14 4,05 2,22 3,57 4,95 -2,23 |
4,52 2,06 3,11 2,88 4,58 6,78 2,15 3,87 |
||
13 |
17 |
12 |
8 |
||
10,79 |
8,59 |
9,65 |
3,74 |
Для удобства расчетов в последней строке таблицы приведены средние значения , .
.
Получим уравнение выборочной линейной регрессии на для данных, сгруппированных по :
;
, , , , ;
y(x) = 8,29 - 0,9x.
;
.
Выборочное значение статистики равно
.
Так как квантиль распределения Фишера, вычисленный с помощью Matlab, равен
3,19,
то , а значит, линейная регрессия на для данных, сгруппированных по , адекватна результатам наблюдений.
Задание 9. Для негруппированных данных проверить гипотезу : при альтернативной гипотезе : (уровень значимости )
Имеются следующие величины: , , , , .
Сначала проверяется гипотеза :, альтернативная гипотеза :.
Статистика равна
= 1,931
С помощью средств Matlab, найдем:
F0,975 (n-1; n-1)=F0,975 (49,49) = 1.7622
z > F0,975 (n-1; n-1),
следовательно отклоняется, а значит что
Теперь можно проверить гипотезу, :, при альтернативной гипотезе :.
Т.к. , статистика имеет вид
= 1,418
Найдем количество степеней свободы
?3,625
С помощью средств Matlab, найдем:
z < , значит нет оснований отклонять гипотезу :.
Приложение
A = [ 4.19 3.04 4.60 9.83 8.66 1.30 4.22 5.11 9.85 8.80 12.17 11.25 5.73 4.05 5.41 1.28 1.67 11.99 7.66 5.17 3.26 12.58 8.34 5.79 3.42 4.44 11.31 7.57 1.62 5.71 11.06 10.35 2.46 1.02 5.77 8.63 6.91 3.56 9.47 6.16 8.26 6.70 4.95 3.37 1.53 9.54 3.11 5.09 11.08 8.74;
9.19 11.94 8.09 10.33 7.15 12.34 16.35 7.70 5.64 4.52 4.52 2.06 7.41 10.51 9.97 14.68 9.67 3.31 5.93 9.87 11.52 2.88 3.57 4.39 9.71 9.13 4.58 3.14 14.61 6.48 6.78 2.15 9.66 11.19 7.77 4.05 4.76 8.54 2.22 3.72 3.57 14.32 10.64 10.73 10.13 4.95 5.38 5.79 3.87 -2.23]
x = A(1,:);
y = A(2,:);
Mx = mean(x)
Dx = var(x,1)
My = mean(y)
Dy = var(y,1)
plot(x,y,'g*')
grid on
hold on
axis([1 13 -3 18]);
gca1 = gca;
set(gca1,'xtick',[1 4 7 10 13],'ytick',[-3 0 3 6 9 12 15 18]);
xlabel('X');
ylabel('Y');
z = 12.77 - 0.848*x; %построение регрессии Y на x
Zplot = plot(z,x);
set(Zplot,'Color','Red','LineWidth',[2])
hold on
text(12, -1,'x(y)');
text(11.8, 2,'y(x)');
t = 10.86 - 0.6*y; %построение регрессии X на y
Tplot = plot(t,y);
set(Tplot,'Color','Red','LineWidth',[2])
hp = line([1 6.36],[7.38 7.38]); %эти прямые показывают положение
set(hp,'Color','blue','LineWidth',[1.5]) %среднего выборочного
hp = line([6.36 6.36],[-3 7.38]);
set(hp,'Color','blue','LineWidth',[1.5])
K = cov(x,y) %находим ковариацию
DEtK = det(K)
M = corrcoef(x,y) %коэффициент корреляции
detM = det(M)
Подобные документы
Эконометрика как наука, которая на базе статистических данных дает количественную характеристику взаимозависимым экономическим явлениям и процессам. Содержание и значение соответствующих исследований. Группировка данных и методы линейной регрессии.
курсовая работа [492,9 K], добавлен 17.12.2014Диаграмма рассеивания и подтверждение гипотезы о линейной зависимости, криволинейной связи по заданным статистическим данным с помощью пакета "Excel". Построение корреляционного поля, матрицы, определение параметров линейной связи. Модель Кобба-Дугласа.
контрольная работа [153,8 K], добавлен 26.06.2009Основные категории статистики. Группировка - основа научной обработки данных статистики. Содержание сводки и статистическая совокупность. Построение вариационного, ранжированного и дискретного рядов распределения. Группировка предприятий по числу рабочих.
контрольная работа [23,3 K], добавлен 17.03.2015Расчет корреляции между экономическими показателями. Построение линейной и не линейной множественной регрессии. Проверка на гетероскедастичность моделей с использованием теста Бреуша-Пагана. Корреляция между наблюдаемыми экономическими показателями.
курсовая работа [82,2 K], добавлен 23.03.2011Виды корреляции и регрессии, применяемые в статистическом анализе социально-экономических явлений и процессов. Построение корреляционной модели (уравнения регрессии). Построение корреляционной таблицы, выполнение интервальной группировки по признакам.
курсовая работа [131,7 K], добавлен 03.10.2014Эконометрическое моделирование динамики экспорта и импорта РФ: построение регрессии, дисперсионный анализ для линейной регрессии, эластичность показательной регрессии, изучение качества линейной регрессии, колеблемость признака. Доверительные интервалы.
курсовая работа [367,5 K], добавлен 21.08.2008Выявление определенной зависимости между выбранными экономическими показателями на основе построения эконометрической регрессионной модели. Построение адекватной модели линейной регрессии.. Способы выявления мультиколлинеарности и её коррекции.
курсовая работа [912,1 K], добавлен 22.03.2016Сущность и применение метода наименьших квадратов для однофакторной линейной регрессии. Нахождение коэффициента эластичности для указанной модели в заданной точке X и его экономический анализ. Прогноз убыточности на основании линейной регрессии.
контрольная работа [47,3 K], добавлен 15.06.2009Автоматический анализ тренда на базе диаграммы экспериментальных данных Х и У с помощью программы MSExcel. Прогноз заработной платы при заданном значении среднедушевого прожиточного минимума с помощью пакета анализа. Уравнение линейной парной регрессии.
контрольная работа [363,4 K], добавлен 22.01.2015Метод статистики, анализ данных, поиск закономерностей. Сводка и группировка данных статистического наблюдения за жилищным фондом. Вариационный анализ показателя площади жилищ, приходящихся в среднем на одного жителя. Выборочное наблюдение субъектов.
курсовая работа [117,9 K], добавлен 04.10.2008