Статистика и анализ данных
Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.
Рубрика | Экономика и экономическая теория |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 11.05.2022 |
Размер файла | 498,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
Введение
1. Кластерный анализ
2. Регрессионный анализ со статистической значимостью
3. Дисперсионный анализ
4. Коэффициент регрессии: статистическое значение
Список использованных источников
Введение
Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).
Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнением и отражающую функциональную зависимость между экспериментальными количественными переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По полученным результатам можно оценить природу и степень зависимости переменных и предсказать новые значения зависимой переменной.
Корреляционный анализ - это группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками.
Кластерный анализ осуществляет разбиение объектов на заданное число удаленных друг от друга классов, а также строит дерево классификаций объектов посредством иерархического объединения их в группы (кластеры).
Цель работы - на конкретных примерах рассмотреть процесс проведения дисперсионного, кластерного, регрессионного анализов.
1. Кластерный анализ
статистический регрессионный кластерный дисперсионный
Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.
В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах.
Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.
Задачи кластерного анализа можно объединить в следующие группы:
1. Разработка типологии или классификации.
2. Исследование полезных концептуальных схем группирования объектов.
3. Представление гипотез на основе исследования данных.
4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Задача:
Провести классификацию объектов, каждый из которых характеризуется двумя признаками. В качестве расстояния между объектами принять, расстояние между кластерами исчислить по принципу “ближайшего соседа”.
Исходные данные
№ п/п |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
x1 |
2 |
3 |
8 |
4 |
3 |
5 |
3 |
9 |
3 |
2 |
|
x2 |
1 |
8 |
9 |
3 |
6 |
7 |
7 |
3 |
7 |
3 |
1. Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:
где l - признаки;
k - количество признаков
2. Полученные данные помещаем в таблицу (матрицу расстояний).
№ п/п |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
1 |
0 |
7.071 |
10 |
2.828 |
5.099 |
6.708 |
6.083 |
7.28 |
6.083 |
2 |
|
2 |
7.071 |
0 |
5.099 |
5.099 |
2 |
2.236 |
1 |
7.81 |
1 |
5.099 |
|
3 |
10 |
5.099 |
0 |
7.211 |
5.831 |
3.606 |
5.385 |
6.083 |
5.385 |
8.485 |
|
4 |
2.828 |
5.099 |
7.211 |
0 |
3.162 |
4.123 |
4.123 |
5 |
4.123 |
2 |
|
5 |
5.099 |
2 |
5.831 |
3.162 |
0 |
2.236 |
1 |
6.708 |
1 |
3.162 |
|
6 |
6.708 |
2.236 |
3.606 |
4.123 |
2.236 |
0 |
2 |
5.657 |
2 |
5 |
|
7 |
6.083 |
1 |
5.385 |
4.123 |
1 |
2 |
0 |
7.211 |
0 |
4.123 |
|
8 |
7.28 |
7.81 |
6.083 |
5 |
6.708 |
5.657 |
7.211 |
0 |
7.211 |
7 |
|
9 |
6.083 |
1 |
5.385 |
4.123 |
1 |
2 |
0 |
7.211 |
0 |
4.123 |
|
10 |
2 |
5.099 |
8.485 |
2 |
3.162 |
5 |
4.123 |
7 |
4.123 |
0 |
3. Поиск наименьшего расстояния.
Из матрицы расстояний следует, что объекты 7 и 9 наиболее близки P7;9 = 0 и поэтому объединяются в один кластер.
№ п/п |
1 |
2 |
3 |
4 |
5 |
6 |
[7] |
8 |
[9] |
10 |
|
1 |
0 |
7.071 |
10 |
2.828 |
5.099 |
6.708 |
6.083 |
7.28 |
6.083 |
2 |
|
2 |
7.071 |
0 |
5.099 |
5.099 |
2 |
2.236 |
1 |
7.81 |
1 |
5.099 |
|
3 |
10 |
5.099 |
0 |
7.211 |
5.831 |
3.606 |
5.385 |
6.083 |
5.385 |
8.485 |
|
4 |
2.828 |
5.099 |
7.211 |
0 |
3.162 |
4.123 |
4.123 |
5 |
4.123 |
2 |
|
5 |
5.099 |
2 |
5.831 |
3.162 |
0 |
2.236 |
1 |
6.708 |
1 |
3.162 |
|
6 |
6.708 |
2.236 |
3.606 |
4.123 |
2.236 |
0 |
2 |
5.657 |
2 |
5 |
|
[7] |
6.083 |
1 |
5.385 |
4.123 |
1 |
2 |
0 |
7.211 |
0 |
4.123 |
|
8 |
7.28 |
7.81 |
6.083 |
5 |
6.708 |
5.657 |
7.211 |
0 |
7.211 |
7 |
|
[9] |
6.083 |
1 |
5.385 |
4.123 |
1 |
2 |
0 |
7.211 |
0 |
4.123 |
|
10 |
2 |
5.099 |
8.485 |
2 |
3.162 |
5 |
4.123 |
7 |
4.123 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №7 и №9.
В результате имеем 9 кластера: S(1), S(2), S(3), S(4), S(5), S(6), S(7,9), S(8), S(10)
Из матрицы расстояний следует, что объекты 2 и 7,9 наиболее близки P2;7,9 = 1 и поэтому объединяются в один кластер.
№ п/п |
1 |
[2] |
3 |
4 |
5 |
6 |
[7,9] |
8 |
10 |
|
1 |
0 |
7.071 |
10 |
2.828 |
5.099 |
6.708 |
6.083 |
7.28 |
2 |
|
[2] |
7.071 |
0 |
5.099 |
5.099 |
2 |
2.236 |
1 |
7.81 |
5.099 |
|
3 |
10 |
5.099 |
0 |
7.211 |
5.831 |
3.606 |
5.385 |
6.083 |
8.485 |
|
4 |
2.828 |
5.099 |
7.211 |
0 |
3.162 |
4.123 |
4.123 |
5 |
2 |
|
5 |
5.099 |
2 |
5.831 |
3.162 |
0 |
2.236 |
1 |
6.708 |
3.162 |
|
6 |
6.708 |
2.236 |
3.606 |
4.123 |
2.236 |
0 |
2 |
5.657 |
5 |
|
[7,9] |
6.083 |
1 |
5.385 |
4.123 |
1 |
2 |
0 |
7.211 |
4.123 |
|
8 |
7.28 |
7.81 |
6.083 |
5 |
6.708 |
5.657 |
7.211 |
0 |
7 |
|
10 |
2 |
5.099 |
8.485 |
2 |
3.162 |
5 |
4.123 |
7 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №2 и №7,9.
В результате имеем 8 кластера: S(1), S(2,7,9), S(3), S(4), S(5), S(6), S(8), S(10)
Из матрицы расстояний следует, что объекты 2,7,9 и 5 наиболее близки P2,7,9;5 = 1 и поэтому объединяются в один кластер.
№ п/п |
1 |
[2,7,9] |
3 |
4 |
[5] |
6 |
8 |
10 |
|
1 |
0 |
6.083 |
10 |
2.828 |
5.099 |
6.708 |
7.28 |
2 |
|
[2,7,9] |
6.083 |
0 |
5.099 |
4.123 |
1 |
2 |
7.211 |
4.123 |
|
3 |
10 |
5.099 |
0 |
7.211 |
5.831 |
3.606 |
6.083 |
8.485 |
|
4 |
2.828 |
4.123 |
7.211 |
0 |
3.162 |
4.123 |
5 |
2 |
|
[5] |
5.099 |
1 |
5.831 |
3.162 |
0 |
2.236 |
6.708 |
3.162 |
|
6 |
6.708 |
2 |
3.606 |
4.123 |
2.236 |
0 |
5.657 |
5 |
|
8 |
7.28 |
7.211 |
6.083 |
5 |
6.708 |
5.657 |
0 |
7 |
|
10 |
2 |
4.123 |
8.485 |
2 |
3.162 |
5 |
7 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №2,7,9 и №5.
В результате имеем 7 кластера: S(1), S(2,7,9,5), S(3), S(4), S(6), S(8), S(10)
Из матрицы расстояний следует, что объекты 1 и 10 наиболее близки P1;10 = 2 и поэтому объединяются в один кластер.
№ п/п |
[1] |
2,7,9,5 |
3 |
4 |
6 |
8 |
[10] |
|
[1] |
0 |
5.099 |
10 |
2.828 |
6.708 |
7.28 |
2 |
|
2,7,9,5 |
5.099 |
0 |
5.099 |
3.162 |
2 |
6.708 |
3.162 |
|
3 |
10 |
5.099 |
0 |
7.211 |
3.606 |
6.083 |
8.485 |
|
4 |
2.828 |
3.162 |
7.211 |
0 |
4.123 |
5 |
2 |
|
6 |
6.708 |
2 |
3.606 |
4.123 |
0 |
5.657 |
5 |
|
8 |
7.28 |
6.708 |
6.083 |
5 |
5.657 |
0 |
7 |
|
[10] |
2 |
3.162 |
8.485 |
2 |
5 |
7 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1 и №10.
В результате имеем 6 кластера: S(1,10), S(2,7,9,5), S(3), S(4), S(6), S(8)
Из матрицы расстояний следует, что объекты 1,10 и 4 наиболее близки P1,10;4 = 2 и поэтому объединяются в один кластер.
№ п/п |
[1,10] |
2,7,9,5 |
3 |
[4] |
6 |
8 |
|
[1,10] |
0 |
3.162 |
8.485 |
2 |
5 |
7 |
|
2,7,9,5 |
3.162 |
0 |
5.099 |
3.162 |
2 |
6.708 |
|
3 |
8.485 |
5.099 |
0 |
7.211 |
3.606 |
6.083 |
|
[4] |
2 |
3.162 |
7.211 |
0 |
4.123 |
5 |
|
6 |
5 |
2 |
3.606 |
4.123 |
0 |
5.657 |
|
8 |
7 |
6.708 |
6.083 |
5 |
5.657 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,10 и №4.
В результате имеем 5 кластера: S(1,10,4), S(2,7,9,5), S(3), S(6), S(8)
Из матрицы расстояний следует, что объекты 2,7,9,5 и 6 наиболее близки P2,7,9,5;6 = 2 и поэтому объединяются в один кластер.
№ п/п |
1,10,4 |
[2,7,9,5] |
3 |
[6] |
8 |
|
1,10,4 |
0 |
3.162 |
7.211 |
4.123 |
5 |
|
[2,7,9,5] |
3.162 |
0 |
5.099 |
2 |
6.708 |
|
3 |
7.211 |
5.099 |
0 |
3.606 |
6.083 |
|
[6] |
4.123 |
2 |
3.606 |
0 |
5.657 |
|
8 |
5 |
6.708 |
6.083 |
5.657 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №2,7,9,5 и №6.
В результате имеем 4 кластера: S(1,10,4), S(2,7,9,5,6), S(3), S(8)
Из матрицы расстояний следует, что объекты 1,10,4 и 2,7,9,5,6 наиболее близки P1,10,4;2,7,9,5,6 = 3.16 и поэтому объединяются в один кластер.
№ п/п |
[1,10,4] |
[2,7,9,5,6] |
3 |
8 |
|
[1,10,4] |
0 |
3.162 |
7.211 |
5 |
|
[2,7,9,5,6] |
3.162 |
0 |
3.606 |
5.657 |
|
3 |
7.211 |
3.606 |
0 |
6.083 |
|
8 |
5 |
5.657 |
6.083 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,10,4 и №2,7,9,5,6.
В результате имеем 3 кластера: S(1,10,4,2,7,9,5,6), S(3), S(8) Из матрицы расстояний следует, что объекты 1,10,4,2,7,9,5,6 и 3 наиболее близки P1,10,4,2,7,9,5,6;3 = 3.61 и поэтому объединяются в один кластер.
№ п/п |
[1,10,4,2,7,9,5,6] |
[3] |
8 |
|
[1,10,4,2,7,9,5,6] |
0 |
3.606 |
5 |
|
[3] |
3.606 |
0 |
6.083 |
|
8 |
5 |
6.083 |
0 |
При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,10,4,2,7,9,5,6 и №3.
В результате имеем 2 кластера: S(1,10,4,2,7,9,5,6,3), S(8)
№ п/п |
1,10,4,2,7,9,5,6,3 |
8 |
|
1,10,4,2,7,9,5,6,3 |
0 |
5 |
|
8 |
5 |
0 |
Вывод: при проведении кластерного анализа по принципу “ближнего соседа” получили два кластера, расстояние между которыми равно P=5.
2. Регрессионный анализ со статистической значимостью
В практических исследованиях возникает необходимость аппроксимировать (описать приблизительно) диаграмму рассеяния математическим уравнением. То есть зависимость между переменными величинами Y и Х можно выразить аналитически с помощью формул и уравнений и графически в виде геометрического места точек в системе прямоугольных координат. График корреляционной зависимости строится по уравнениям функции и, которые называются регрессией (термин “регрессия” происходит от лат. regressio -- движение назад). Здесь и -- средние арифметические из числовых значений зависимых переменных Y и X.
Для выражения регрессии служат эмпирические и теоретические ряды, их графики -- линии регрессии, а также корреляционные уравнения (уравнения регрессии) и коэффициент линейной регрессии.
Показатели регрессии выражают корреляционную связь двусторонне, учитывая изменение средней величины признака Y при изменении значений xi признака X, и, наоборот, показывают изменение средней величины признака Х по измененным значениям yi признака Y. Исключение составляют временные ряды, или ряды динамики, показывающие изменение признаков во времени. Регрессия таких рядов является односторонней.
Ряды регрессии, особенно их графики, дают наглядное представление о форме и тесноте корреляционной связи между признаками, в чем и заключается их ценность. Форма связи между показателями, влияющими на уровень спортивного результата и общей физической подготовки занимающихся физической культурой и спортом, может быть разнообразной.
И поэтому задача состоит в том, чтобы любую форму корреляционной связи выразить уравнением определенной функции (линейной, параболической и т.д.), что позволяет получать нужную информацию о корреляции между переменными величинами Y и X, предвидеть возможные изменения признака Y на основе известных изменений X, связанного с Y корреляционно.
Первая строка - цена реализации , а вторая строка - соответствующий объем реализации.
4.64 5.63 3.65 3.35 3.77 4.90 5.49 6.14 4.19 4.03
7.33 6.46 8.63 8.64 8.19 7.21 6.39 6.04 8.26 8.76
Для удобства обозначим цену реализации переменной Х, объем реализации переменной У
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + е, где ei - наблюдаемые значения (оценки) ошибок еi, а и b соответственно оценки параметров б и в регрессионной модели, которые следует найти.
Здесь е - случайная ошибка (отклонение, возмущение). Точечный график:
Из рисунка видно, что между переменными существует линейная обратная зависимость.
Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (е) и независимой переменной (x).
Формально критерий МНК можно записать так:
S = ?(yi - y*i)2 > min
Система нормальных уравнений.
a*n + b?x = ?y
a?x + b?x2 = ?y*x
Для расчета параметров регрессии построим расчетную таблицу.
x |
y |
x2 |
y2 |
x * y |
|
4.64 |
7.33 |
21.53 |
53.729 |
34.011 |
|
5.63 |
6.46 |
31.697 |
41.732 |
36.37 |
|
3.65 |
8.63 |
13.323 |
74.477 |
31.5 |
|
3.35 |
8.64 |
11.223 |
74.65 |
28.944 |
|
3.77 |
8.19 |
14.213 |
67.076 |
30.876 |
|
4.9 |
7.21 |
24.01 |
51.984 |
35.329 |
|
5.49 |
6.39 |
30.14 |
40.832 |
35.081 |
|
6.14 |
6.04 |
37.7 |
36.482 |
37.086 |
|
4.19 |
8.26 |
17.556 |
68.228 |
34.609 |
|
4.03 |
8.76 |
16.241 |
76.738 |
35.303 |
|
45.79 |
75.91 |
217.631 |
585.926 |
339.109 |
Для наших данных система уравнений имеет вид
10a + 45.79 b = 75.91
45.79 a + 217.63 b = 339.11
Домножим уравнение (1) системы на (-4.58), получим систему, которую решим методом алгебраического сложения.
-45.79a -209.72 b = -347.67
45.79 a + 217.63 b = 339.11
Получаем:
7.91 b = -8.56
Откуда b = -1.0659
Теперь найдем коэффициент «a» из уравнения (1):
10a + 45.79 b = 75.91
10a + 45.79 * (-1.0659) = 75.91
10a = 124.72
a = 12.4718
Получаем эмпирические коэффициенты регрессии: b = -1.0659, a = 12.4718
Уравнение регрессии (эмпирическое уравнение регрессии):
y = -1.0659 x + 12.4718
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов вi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
Коэффициент корреляции
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от -1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X весьма высокая и обратная.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
Интервальная оценка для коэффициента корреляции (доверительный интервал).
Доверительный интервал для коэффициента корреляции.
r(-1;-0.755)
Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = -1.07 x + 12.47
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент регрессии b = -1.07 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -1.07.
Коэффициент a = 12.47 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 - прямая связь, иначе - обратная). В нашем примере связь обратная.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
В среднем, расчетные значения отклоняются от фактических на 2.54%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Для линейной регрессии индекс корреляции равен коэффициенту корреляции rxy = -0.966.
Полученная величина свидетельствует о том, что фактор x существенно влияет на y
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.
В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= -0.9662 = 0.9328
т.е. в 93.28% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 6.72% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки качества параметров регрессии построим расчетную таблицу.
x |
y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
(xi-xcp)2 |
|y - yx|:y |
|
4.64 |
7.33 |
7.526 |
0.0681 |
0.0384 |
0.00372 |
0.0267 |
|
5.63 |
6.46 |
6.471 |
1.279 |
0.000115 |
1.105 |
0.00166 |
|
3.65 |
8.63 |
8.581 |
1.08 |
0.00238 |
0.863 |
0.00565 |
|
3.35 |
8.64 |
8.901 |
1.1 |
0.0681 |
1.51 |
0.0302 |
|
3.77 |
8.19 |
8.453 |
0.359 |
0.0693 |
0.654 |
0.0322 |
|
4.9 |
7.21 |
7.249 |
0.145 |
0.00151 |
0.103 |
0.00539 |
|
5.49 |
6.39 |
6.62 |
1.442 |
0.0529 |
0.83 |
0.036 |
|
6.14 |
6.04 |
5.927 |
2.406 |
0.0127 |
2.437 |
0.0187 |
|
4.19 |
8.26 |
8.006 |
0.448 |
0.0647 |
0.151 |
0.0308 |
|
4.03 |
8.76 |
8.176 |
1.367 |
0.341 |
0.301 |
0.0666 |
|
45.79 |
75.91 |
75.91 |
9.693 |
0.651 |
7.959 |
0.254 |
Оценка параметров уравнения регрессии.
Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2 = 0.0814 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S = 0.29 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения. Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± е)
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 5.35
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
y(5.35) = -1.066*5.35 + 12.472 = 6.769
Вычислим ошибку прогноза для уравнения y = bx + a
Или
6.769 ± 0.275
(6.49;7.04)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Вычислим ошибку прогноза для уравнения y = bx + a + е
(6.06;7.48)
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± е)
Где
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
xi |
y = 12.47 -1.07xi |
еi |
ymin = y - еi |
ymax = y + еi |
|
4.64 |
7.526 |
0.69 |
6.836 |
8.216 |
|
5.63 |
6.471 |
0.732 |
5.739 |
7.203 |
|
3.65 |
8.581 |
0.723 |
7.858 |
9.304 |
|
3.35 |
8.901 |
0.747 |
8.154 |
9.648 |
|
3.77 |
8.453 |
0.715 |
7.738 |
9.169 |
|
4.9 |
7.249 |
0.694 |
6.555 |
7.943 |
|
5.49 |
6.62 |
0.722 |
5.898 |
7.342 |
|
6.14 |
5.927 |
0.78 |
5.147 |
6.707 |
|
4.19 |
8.006 |
0.696 |
7.31 |
8.702 |
|
4.03 |
8.176 |
0.702 |
7.474 |
8.878 |
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
t-статистика. Критерий Стьюдента.
С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.
Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.
В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости б=0.05.
H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;
H1: b ? 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.
В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).
Табличное значение определяется в зависимости от уровня значимости (б) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.
Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-б) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.
Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости б.
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
Поскольку 10.54 > 2.306, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 26.44 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(-1.07 - 2.306 * 0.1; -1.07 + 2.306 * 0.1)
(-1.299;-0.833)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - tкрит Sa; a + tкрит Sa)
(12.472 - 2.306 * 0.47; 12.472 + 2.306 * 0.47)
(11.384;13.56)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
Коэффициент детерминации R2 используется для проверки существенности уравнения линейной регрессии в целом.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m - число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости б.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости б. Уровень значимости б - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно б принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-б) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
3. Дисперсионный анализ
Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).
Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов.
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F -- критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.
В качестве примера проведем дисперсионный анализ для определения влияния средней высоты (Н) на видовое число (f). Исходные данные для расчета показаны в таблице.
Исходные данные для дисперсионного анализа влияния средней высоты на видовое число
Hi, м |
Видовые числа, fij *1000 |
fij |
ni |
i |
|
1 |
2 |
3 |
4 |
5 |
|
22 |
455, 436, 466, 467, 446, 483 |
2753 |
6 |
458, 8 |
|
24 |
467, 446, 502, 448, 429 |
2292 |
5 |
458, 4 |
|
26 |
465, 466, 417, 510, 480 |
2238 |
5 |
467, 6 |
|
28 |
502, 489, 442, 530, 467, 501 |
2931 |
6 |
488, 5 |
|
30 |
452, 467, 456, 433, 467, 456 |
2731 |
6 |
455, 2 |
|
32 |
503, 483, 458, 451, 469 |
2364 |
5 |
472, 8 |
|
34 |
446, 427, 430 |
1303 |
3 |
434, 3 |
|
36 |
468, 434, 407, 370 |
1679 |
4 |
419, 8 |
|
У18391 |
У40 |
=460 |
Здесь изучается влияние средней высоты древостоя на величину среднего видового числа условно одновозрастных спелых ельников. При расчетах на компьютерах суммы , и удобнее вычислять по формулам
=
=
= ,
а вместо исходных данных использовать их отклонения от некоторого начального значения, например, от общего среднего , что упрощает расчеты. Групповые средние приведены в колонке 5. Число групп k=8, общее число наблюдений n = 40. Общее среднее =460. Перейдем к отклонениям от среднего (таблица 6) и вычислим показатели, необходимые для применения формул.
Из таблицы 18.5 = 36195, = 14587, = 36195 - 14587 = 21608. Результаты вычислений запишем в таблицу 6, учитывая, что число степеней свободы для групповой дисперсии paвно k-1=8-1=7, для общей N -1=40-1=39, а для внутригрупповой N -k =40-8=32.
Вычисление сумм квадратов в однофакторном дисперсионном анализе
Hi, м |
fij - =xij |
xij |
mi |
i |
|||
22 |
-5, -24, +6, +7, -14, +23 |
7 |
6 |
-1, 2 |
1411 |
8, 6 |
|
24 |
+7, -14, +42, -12, -31 |
-8 |
5 |
-1, 6 |
3114 |
12, 8 |
|
26 |
+5, +6, -43, +50, +20 |
+38 |
5 |
+7, 6 |
4810 |
288, 8 |
|
28 |
+42, +29, -18, +70, +7, +41 |
+171 |
6 |
+28, 5 |
9559 |
4873, 5 |
|
30 |
-8, +7, -4, -4, -27, +7 |
-29 |
6 |
-4, 8 |
923 |
138, 2 |
|
32 |
+43, +23, -2, -9, +9 |
+64 |
5 |
+12, 8 |
2544 |
819, 2 |
|
34 |
-14, -33, -30, |
-77 |
3 |
-25, 7 |
2185 |
1981, 5 |
|
36 |
+8, -26, -53, -90 |
-161 |
4 |
-40, 2 |
11649 |
6464, 2 |
|
-9 |
40 |
-0, 23 |
36195 |
14587 |
Итоги однофакторного дисперсионного анализа
Тип дисперсии |
Сумма квадратов |
Число степеней свободы |
Оценка дисперсии |
|
Межгрупповая |
14587 |
7 |
2084 |
|
Внутригрупповая Общая |
21608 36195 |
32 39 |
675 928 |
Статистическая характеристика (Fвыч), полученная из, равна Fвыч = 2084/675 =3, 09. При а=0, 05 табличное значение F, взятое из приложения Ж, при н=7 и N -k=32 будет равно 2, 3. Так как Fвыч > Fтабл., то гипотезу об отсутствии влияния высоты на среднее видовое число древостоя отклоняют: средние в генеральной совокупности не все равны между собой, а зависят от значения средней высоты.
Для расчета методом множественного сравнения предположим, что необходимо выяснить, для каких значений высот можно составить единые таблицы, использующие средние видовые числа. Испытаем, например, возможность объединения высот 22, 24, 26 в одну группу, остальных -- во вторую. Функция сравнения по
= (458, 8+458, 4+467, 6) -(488, 5+455, 2+472, 8+434, 3+419, 8) = 7, 5
а оценка дисперсии по
=
Постоянную s находим из
s=[(8-1) F0, 05 (7, 32)]1/2 = (72, 3)1/2 4, т. е. для вероятности 0, 95 имеем доверительный интервал 7, 5 - 4 * 3, 85 7, 5+4 * 3, 85 или --7, 9 22, 9.
Так как доверительный интервал содержит ноль, нет оснований объединять материал в указанные группы в зависимости от значении высоты.
В данном примере изменена постановка задачи: вместо однофакторного применен двухфакторный анализ (включен дополнительно средний диаметр), после чего удалось удовлетворительным образом сгруппировать материал. Далее используем корреляционное отношение и расчет мощности критерия. Проверим Н0 несколько иначе. Вычислим корреляционное отношение 2, равное отношению межгрупповой дисперсии к сумме квадратов (таблица 7): = 14587 / 36195 = 0, 403. Гипотеза Н0: 2 = 0 равносильна Н0: 1 = 2... = k. Проверим Н0: 2 = 0 при альтернативной На: 2 > 0. Из приложения Т находим критические значения 2 =0, 387 при k1 =7, k2 =32, т.е. гипотезу об отсутствии влияния высоты на видовое число при а =0, 05 отклоняем.
4. Коэффициент регрессии. Статистическое значение
Коэффициент регрессии показывает, насколько в среднем величина одного признака y изменяется при изменении на единицу меры другого, корреляционно связанного с Y признака X. Этот показатель определяют по формуле
или .
Здесь значения s умножают на размеры классовых интервалов л, если их находили по вариационным рядам или корреляционным таблицам.
Коэффициент регрессии можно вычислить минуя расчет средних квадратичных отклонений sy и sx по формуле
или
Если же коэффициент корреляции неизвестен, коэффициент регрессии определяют следующим образом:
или .
Для расчета коэффициента регрессии возьмем данные задачи пункта 2.
Из табличных данных и промежуточных расчетов, проведенных в пункте 2, следует, что
Выборочные дисперсии:
Следовательно, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
Значимость коэффициента корреляции.
Выдвигаем гипотезы:
H0: rxy = 0, нет линейной взаимосвязи между переменными;
H1: rxy ? 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости б проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ? 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости б и числу степеней свободы k = n - 2 найти критическую точку tкритдвусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит -- нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости б=0.05 и степенями свободы k=8 находим tкрит:
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
где m = 1 - количество объясняющих переменных.
Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Принятие H0 |
Отклонение H0, принятие H1 |
|
95% |
5% |
|
2.306 |
10.54 |
Список использованных источников
1. Гашев С. Н. Математические методы в биологии: анализ биологических данных в системе Statistica. М.: Юрайт. 2020. 208 с.
2. Козлов А.Ю. Статистический анализ данных в MS Excel: Учебное пособие / А.Ю. Козлов, В.С. Мхитарян, В.Ф. Шишов. М.: Инфра-М, 2018. 80 c.
3. Кравченко А. И. Анализ и обработка социологических данных. Учебник. М.: КноРус. 2020. 498 с.
4. Кулаичев А.П. Методы и средства комплексного анализа данных: Учебное пособие / А.П. Кулаичев. М.: Форум, 2018. 160 c.
5. Миркин Б. Г. Введение в анализ данных. М.: Юрайт. 2020. 175 с.
6. Мхитарян В. С. Теория планирования эксперимента и анализ статистических данных. М.: Юрайт. 2020. 491 с.
7. Нархид Н. Apache Kafka. Потоковая обработка и анализ данных / Н. Нархид. СПб.: Питер, 2019. 320 c.
8. Ниворожкина Л.И. Статистические методы анализа данных: Учебник / Л.И. Ниворожкина, С.В. Арженовский, А.А. Рудяга. М.: Риор, 2018. 320 c.
9. Панкратова Е.В. Анализ данных в программе SPSS для начинающих социологов / Е.В. Панкратова, И.Н. Смирнова, Н.Н. Мартынова. М.: Ленанд, 2018. 200 c.
10. Рафалович В. Data mining, или интеллектуальный анализ данных для занятых. Практический курс / В. Рафалович. М.: SmartBook, 2018. 352 c.
11. Салин В. Н., Чурилова Э. Ю. Статистический анализ данных цифровой экономики в системе "Statistica". Учебно-практическое пособие. М.: КноРус. 2019. 240 с.
12. Сидняев Н. И. Теория планирования эксперимента и анализ статистических данных. М.: Юрайт. 2020. 496 с.
13. Симчера В.М. Методы многомерного анализа статистических данных / В.М. Симчера. М.: Финансы и статистика, 2018. 400 c.
14. Тюрин Ю.Н. Анализ данных на компьютере: Учебное пособие / Ю.Н. Тюрин, А.А. Макаров; Науч. ред. В.Э. Фигурнов. М.: ИД ФОРУМ, 2017. 368 c.
Размещено на Allbest.ru
Подобные документы
Статистический метод исследования влияния нескольких независимых переменных на зависимую переменную, определение их вклада в ее вариацию. Связь между несколькими независимыми переменными. Цели регрессионного анализа. Уравнение многомерной регрессии.
презентация [122,6 K], добавлен 17.12.2012Основные положения факторного анализа. Принципы и модели дисперсионного анализа, его роль и место в статистических исследованиях. Особенности применения дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.
курсовая работа [762,4 K], добавлен 01.07.2014Понятие и основные этапы реализации дисперсионного анализа как статистического метода, позволяющего анализировать влияние различных факторов на исследуемую переменную. История его разработки и использование. Статистика Фишера и принципы F-распределения.
презентация [2,1 M], добавлен 23.02.2017- Использование корреляционно-регрессионного анализа для обработки экономических статистических данных
Роль корреляцонно-регрессионного анализа в обработке экономических данных. Корреляционно-регрессионный анализ и его возможности. Предпосылки корреляционного и регрессионного анализа. Пакет анализа Microsoft Excel.
курсовая работа [68,4 K], добавлен 11.06.2002 Динамика денежной выручки за реализованный подсолнечник и анализ ее изменения, выявление тенденций в изменении цен. Методы статистической группировки и дисперсионного, корреляционно-регрессионного анализа. Построение графиков зависимости по данным.
курсовая работа [2,3 M], добавлен 10.12.2014Метод двухфакторного дисперсионного анализа. Оценка степени влияния изучаемых факторов на результирующий экономический показатель. Расчет в системе minitab. Первоначальная оценка модели взаимодействия и без взаимодействия факторов, сравнение результов.
контрольная работа [23,1 K], добавлен 17.11.2010Сущность и основные функции группировки статистических показателей. Понятие и виды дисперсионного анализа. Показатели экономической активности, занятости и безработицы населения. Качественные показатели работы порта. Индивидуальный индекс себестоимости.
контрольная работа [107,3 K], добавлен 14.10.2010Проверка гипотез о равенстве систематических погрешностей. Минимизация издержек исследований. Определение максимального значения выходной величины исследуемого процесса. Определение наиболее оптимального выбора стратегии проведения исследований.
курсовая работа [736,3 K], добавлен 31.01.2015Расчет матрицы выборочных парных коэффициентов корреляции при помощи пакета анализа программы Excel. Однофакторный и двухфакторный дисперсионный анализ. Построение регрессионной модели. Модальный интервал по значению числа видов производимой продукции.
контрольная работа [281,7 K], добавлен 29.03.2010Обработка данных лесной промышленности: получение распределения случайной величины, проверка гипотезы, проведение дисперсионного, корреляционного и регрессивного анализа. Сущность и содержание, особенности применения теории принятия решений, ее принципы.
контрольная работа [314,2 K], добавлен 12.02.2013