Изучение характера связи между признаками двух случайных величин
Диаграмма рассеивания как точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y, порядок ее построения и назначение. Нахождение коэффициентов и построение графика линейного приближения, графика квадратичного приближения.
Рубрика | Математика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 03.05.2011 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Курсовая работа
на тему:
"Изучение характера зависимости между признаками двух случайных величин"
Постановка задачи
Даны 100 пар чисел: , i=1…N, N=100.
Значения Х показывают, насколько экологическая обстановка в некоторых регионах благоприятна для постоянного проживания там людей. (Предполагается, что каждое значение - некоторый коэффициент, полученный при анализе данных экологической обстановки).
Величина Х отражает интенсивность миграции населения некоторых регионов: объём оттока населения из них.
Задачей данной курсовой работы является изучение характера зависимости от . Для этого необходимо:
1. В виде точечной диаграммы (в программе Excel) изобразить на плоскости точки .
2. С помощью метода наименьших квадратов определить числа a, b такие, что прямая наименее отклоняется от точек в среднем квадратичном.
3. Методом наименьших квадратов определить значения p, q, r такие, что парабола Y=pXІ + qX + r наименее отклоняется от точек в среднем квадратичном.
4. Сравнить результаты, полученные в пунктах 2 и 3.
5. При помощи сравнения статистик
, , ,
где , N - объём выборки,
Ответить на следующие вопросы:
1) Подтвердилась ли гипотеза о том, что зависимость между и близка к линейной?
2) Подтвердилась ли гипотеза о том, что зависимость между и близка к квадратичной?
3) Какая из двух кривых - прямая или парабола - меньше отклоняется от точек выборки?
Построение диаграммы рассеивания
Диаграмма рассеивания - это точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y. Дана выборка i=1…100.
X |
Y |
X |
Y |
X |
Y |
X |
Y |
|
87,308 |
214,714 |
93,664 |
219,296 |
66,085 |
245,922 |
71,267 |
238,541 |
|
55,861 |
249,938 |
50,755 |
250,667 |
72,935 |
226,812 |
54,46 |
239,428 |
|
79,724 |
235,462 |
69,653 |
240,745 |
52,28 |
230,868 |
60,271 |
251,586 |
|
65,084 |
268,649 |
70,174 |
247,605 |
71,364 |
239,148 |
80,536 |
221,786 |
|
66,354 |
244,699 |
82,958 |
236,012 |
86,156 |
198,226 |
52,285 |
265,597 |
|
78,156 |
235,029 |
84,218 |
219,783 |
59,303 |
250,319 |
83,583 |
231,816 |
|
68,521 |
219,405 |
64,936 |
256,197 |
61,438 |
258,219 |
99,62 |
204,694 |
|
86,856 |
220,46 |
68,881 |
253,868 |
62,737 |
220,327 |
83,541 |
221,682 |
|
78,778 |
244,139 |
74,841 |
239,003 |
79,079 |
249,419 |
75,672 |
244,184 |
|
65,656 |
239,856 |
61,796 |
240,113 |
57,464 |
244,057 |
75,866 |
244,728 |
|
57,046 |
239,339 |
85,365 |
226,336 |
87,739 |
232,597 |
75,324 |
231,957 |
|
74,529 |
228,691 |
80,538 |
229,377 |
56,03 |
253,703 |
81,578 |
238,906 |
|
87,452 |
222,019 |
53,787 |
238,315 |
73,897 |
257,941 |
99,948 |
214,454 |
|
98,764 |
201,342 |
63,673 |
256,137 |
86,835 |
216,257 |
57,721 |
255,17 |
|
99,022 |
192,852 |
73,369 |
234,791 |
79,34 |
222,482 |
98,89 |
191,078 |
|
93,88 |
202,638 |
56,711 |
247,006 |
95,336 |
195,444 |
73,809 |
250,012 |
|
92,188 |
223,564 |
82,378 |
238,909 |
75,849 |
235,017 |
60,436 |
229,246 |
|
61,017 |
233,448 |
59,134 |
242,45 |
86,343 |
230,156 |
84,78 |
231,591 |
|
55,648 |
250,085 |
86,193 |
219,392 |
97,716 |
208,284 |
90,164 |
208,865 |
|
85,429 |
214,42 |
88,102 |
214,766 |
51,609 |
242,306 |
76,519 |
226,327 |
|
52,177 |
262,115 |
63,116 |
244,499 |
51,657 |
254,059 |
77,641 |
231,861 |
|
84,003 |
252,601 |
96,407 |
206,273 |
69,235 |
236,439 |
89,475 |
228,704 |
|
81,373 |
228,098 |
76,614 |
241,409 |
50,317 |
247,928 |
82,73 |
216,52 |
|
53,469 |
254,71 |
91,662 |
211,786 |
73,496 |
235,474 |
99,642 |
212,535 |
|
97,208 |
212,94 |
96,449 |
214,481 |
82,442 |
229,419 |
81,985 |
237,391 |
Чтобы построить диаграмму рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для нахождения соответствующего масштаба найдём
50,317, 99,948
191,078, 268,649
Размах выборки по X и Y определяется
|max X - min X | = 49,631
|max Y - min Y| = 77,412
Построим диаграмму рассеивания X и Y.
Диаграмма рассеивания наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей среды того или иного региона, тем меньше отток населения из него.
Теперь вычислим выборочные параметры: выборочные средние , выборочные дисперсии средние квадратические отклонения и найдём выборочный коэффициент корреляции по формуле
Выборочные средние значения:
Выборочные дисперсии:
Средние квадратические отклонения:
Рассчитываем коэффициент корреляции:
Так как ближе к 1, чем к 0, можно сделать вывод о том, что зависимость между X и Y достаточно тесная.
Нахождение коэффициентов и построение графика линейного приближения
Величины X и Y могут быть функционально зависимы, но по результатам измерений значений этих величин сложно установить вид фактической зависимости. Метод наименьших квадратов - один из важнейших способов оценки неизвестных величин по результатам измерений, содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в том, что условием оценки является минимизация суммы квадратов отклонений выборочных данных от определяемой оценки.
Вычислим сумму квадратов отклонений точек прямой от выборочных значений Y:
Необходимо взять такие A и B, чтобы F (A, B) достигала своего минимума как функция переменных А и В.
Минимум функции двух переменных должен удовлетворять необходимому и достаточному условию существования минимума. Необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных первого порядка. Получаем систему уравнений:
Раскроем скобки и получим следующее:
Введём замену:
, , , = d, N=100. Получим:
Из этой линейной системы уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А = -0,9337; В = 303,2533. Получим стационарную точку (-0,9337; 303,2533) для F (A; B).
Следующий шаг - проверка того, что в найденной точке выполняется достаточное условие минимума: второй дифференциал функции F (A; B) в точке (-0,9337; 303,2533) должен представлять собой строго положительную квадратичную форму. Для этого достаточно, чтобы существовали вторые частные производные функции F (A; B) по всем переменным, и величины в точке (-0,9337; 303,2533).
Найдём вторые частные производные функции F (A; B) и .
.
Так как то в точке (-0,9337; 303,2533) минимум функции F (A; B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.
Построим график линейной регрессии.
Теперь определим коэффициент линейной регрессии . .
Можно применить это для вычисления коэффициента корреляции r:
плоскость координата график квадратичный
Как видно, это значение практически совпадает с тем, что мы вычислили ранее.
Нахождение коэффициентов и построение графика квадратичного приближения
Для нахождения формулы y = pxІ + qx + r построим функцию среднеквадратичного отклонения F (p, q, r) = .
Найдём точку минимума функции трёх переменных F (p, q, r), которая находится среди стационарных точек этой функции (по необходимому условию минимума). Система для нахождения стационарных точек:
Произведём замену:
Перейдём к системе вида:
Эта система линейна относительно неизвестных p, q, r. Решив её методом Гаусса, найдём стационарную точку функции ().
Теперь, используя достаточное условие, покажем, что функция F (p, q, r) имеет в этой точке минимум. Для этого выписываем второй дифференциал функции F (p, q, r).
++
Найдём значения вторых частных производных в точке ():
Теперь необходимо доказать, что полученная квадратичная форма положительно определена:
++
Воспользуемся для этого критерием Сильвестра. Его суть заключается в том, что для того, чтобы квадратичная форма была положительно определённой, необходимо и достаточно, чтобы все главные миноры матрицы этой формы были положительны.
Так как
++
>0.
Следовательно, уравнение квадратичной регрессии имеет вид
Y=
Построим график квадратичной регрессии
Графическое сопоставление линейной и квадратичной зависимостей
Построим на одном графике заданные точки, графики линейного и квадратичного приближений.
Нахождение статистик и их анализ
Используя следующие формулы, вычисляем статистики :
, , ,
Где , N - объём выборки,
.
Сравним статистики:
Показатели (1) и (2) характеризуют процент уменьшения статистик и относительно статистики , которую можно назвать базовой, а показатель (3) - процент уменьшения статистики относительно .
Можно сделать следующие выводы:
1) Гипотеза о том, что зависимость между и близка к линейной, подтвердилась, так как .
2) Гипотеза о том, что зависимость между и близка к квадратичной, также подтвердилась, так как .
3) Однако, сравнив статистики, получаем, что . Отсюда следует, что параболическое приближение - наиболее точное.
4) Коэффициент корреляции, равный -0,783, показывает, что связь между величинами Х и Y довольно тесная, как это и было видно на диаграмме рассеивания: за исключением отдельных точек, при улучшении состояния окружающей среды (увеличении Х) наблюдается тенденция уменьшения оттока населения из некоторых регионов в другие (уменьшение Y). Те самые отдельные точки - регионы, в которых объём эмиграционных потоков не столь явно связан с экологией.
Размещено на Allbest.ru
Подобные документы
Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.
презентация [92,4 K], добавлен 01.11.2013Двумерная функция распределения вероятностей случайных величин. Понятие условной функции распределения и плотности распределения вероятностей. Корреляция двух случайных величин. Система произвольного числа величин, условная плотность распределения.
реферат [325,3 K], добавлен 23.01.2011Поиск участков возрастания и убывания функций, классификация экстремума. Умножение матриц АВ–1С. Теория вероятности события и случайных величин. Построение интервальной группировки данных. Решение задачи линейного программирования, построение графика.
контрольная работа [127,1 K], добавлен 11.11.2012Понятие комплекса случайных величин, закона их распределения и вероятностной зависимости. Числовые характеристики случайных величин: математическое ожидание, момент, дисперсия и корреляционный момент. Показатель интенсивности связи между переменными.
курсовая работа [2,4 M], добавлен 07.02.2011Фактор как одна из случайных величин, зависимость между которыми анализируется. Дисперсия как характеристика общей изменчивости значений У. Математическое ожидание как центр группирования значений У при Х=а. Нахождение коэффициента детерминации.
презентация [115,4 K], добавлен 01.11.2013Вычисление среднего одномерных случайных величин. Определение доверительного интервала для математического ожидания и для дисперсии. Построение эмпирической и приближенной линий регрессии Y по X. Дисперсионный анализ греко-латынского куба второго порядка.
курсовая работа [698,0 K], добавлен 08.05.2012Вероятность совместного выполнения двух неравенств в системе двух случайных величин. Свойства функции распределения. Определение плотности вероятности системы через производную от соответствующей функции распределения. Условия закона распределения.
презентация [57,9 K], добавлен 01.11.2013Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.
курсовая работа [988,5 K], добавлен 19.01.2011Дискретные системы двух случайных величин. Композиция законов распределения, входящих в систему. Определение вероятности попадания случайной величины в интервал; числовые характеристики функции; математическое ожидание и дисперсия случайной величины.
контрольная работа [705,1 K], добавлен 22.11.2013Область определения функции, которая содержит множество возможных значений. Нахождение закона распределения и характеристик функции случайной величины, если известен закон распределения ее аргумента. Примеры определения дискретных случайных величин.
презентация [68,7 K], добавлен 01.11.2013