Изучение характера связи между признаками двух случайных величин

Диаграмма рассеивания как точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y, порядок ее построения и назначение. Нахождение коэффициентов и построение графика линейного приближения, графика квадратичного приближения.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 03.05.2011
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Курсовая работа

на тему:

"Изучение характера зависимости между признаками двух случайных величин"

Постановка задачи

Даны 100 пар чисел: , i=1…N, N=100.

Значения Х показывают, насколько экологическая обстановка в некоторых регионах благоприятна для постоянного проживания там людей. (Предполагается, что каждое значение - некоторый коэффициент, полученный при анализе данных экологической обстановки).

Величина Х отражает интенсивность миграции населения некоторых регионов: объём оттока населения из них.

Задачей данной курсовой работы является изучение характера зависимости от . Для этого необходимо:

1. В виде точечной диаграммы (в программе Excel) изобразить на плоскости точки .

2. С помощью метода наименьших квадратов определить числа a, b такие, что прямая наименее отклоняется от точек в среднем квадратичном.

3. Методом наименьших квадратов определить значения p, q, r такие, что парабола Y=pXІ + qX + r наименее отклоняется от точек в среднем квадратичном.

4. Сравнить результаты, полученные в пунктах 2 и 3.

5. При помощи сравнения статистик

, , ,

где , N - объём выборки,

Ответить на следующие вопросы:

1) Подтвердилась ли гипотеза о том, что зависимость между и близка к линейной?

2) Подтвердилась ли гипотеза о том, что зависимость между и близка к квадратичной?

3) Какая из двух кривых - прямая или парабола - меньше отклоняется от точек выборки?

Построение диаграммы рассеивания

Диаграмма рассеивания - это точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y. Дана выборка i=1…100.

X

Y

X

Y

X

Y

X

Y

87,308

214,714

93,664

219,296

66,085

245,922

71,267

238,541

55,861

249,938

50,755

250,667

72,935

226,812

54,46

239,428

79,724

235,462

69,653

240,745

52,28

230,868

60,271

251,586

65,084

268,649

70,174

247,605

71,364

239,148

80,536

221,786

66,354

244,699

82,958

236,012

86,156

198,226

52,285

265,597

78,156

235,029

84,218

219,783

59,303

250,319

83,583

231,816

68,521

219,405

64,936

256,197

61,438

258,219

99,62

204,694

86,856

220,46

68,881

253,868

62,737

220,327

83,541

221,682

78,778

244,139

74,841

239,003

79,079

249,419

75,672

244,184

65,656

239,856

61,796

240,113

57,464

244,057

75,866

244,728

57,046

239,339

85,365

226,336

87,739

232,597

75,324

231,957

74,529

228,691

80,538

229,377

56,03

253,703

81,578

238,906

87,452

222,019

53,787

238,315

73,897

257,941

99,948

214,454

98,764

201,342

63,673

256,137

86,835

216,257

57,721

255,17

99,022

192,852

73,369

234,791

79,34

222,482

98,89

191,078

93,88

202,638

56,711

247,006

95,336

195,444

73,809

250,012

92,188

223,564

82,378

238,909

75,849

235,017

60,436

229,246

61,017

233,448

59,134

242,45

86,343

230,156

84,78

231,591

55,648

250,085

86,193

219,392

97,716

208,284

90,164

208,865

85,429

214,42

88,102

214,766

51,609

242,306

76,519

226,327

52,177

262,115

63,116

244,499

51,657

254,059

77,641

231,861

84,003

252,601

96,407

206,273

69,235

236,439

89,475

228,704

81,373

228,098

76,614

241,409

50,317

247,928

82,73

216,52

53,469

254,71

91,662

211,786

73,496

235,474

99,642

212,535

97,208

212,94

96,449

214,481

82,442

229,419

81,985

237,391

Чтобы построить диаграмму рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для нахождения соответствующего масштаба найдём

50,317, 99,948

191,078, 268,649

Размах выборки по X и Y определяется

|max X - min X | = 49,631

|max Y - min Y| = 77,412

Построим диаграмму рассеивания X и Y.

Диаграмма рассеивания наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей среды того или иного региона, тем меньше отток населения из него.

Теперь вычислим выборочные параметры: выборочные средние , выборочные дисперсии средние квадратические отклонения и найдём выборочный коэффициент корреляции по формуле

Выборочные средние значения:

Выборочные дисперсии:

Средние квадратические отклонения:

Рассчитываем коэффициент корреляции:

Так как ближе к 1, чем к 0, можно сделать вывод о том, что зависимость между X и Y достаточно тесная.

Нахождение коэффициентов и построение графика линейного приближения

Величины X и Y могут быть функционально зависимы, но по результатам измерений значений этих величин сложно установить вид фактической зависимости. Метод наименьших квадратов - один из важнейших способов оценки неизвестных величин по результатам измерений, содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в том, что условием оценки является минимизация суммы квадратов отклонений выборочных данных от определяемой оценки.

Вычислим сумму квадратов отклонений точек прямой от выборочных значений Y:

Необходимо взять такие A и B, чтобы F (A, B) достигала своего минимума как функция переменных А и В.

Минимум функции двух переменных должен удовлетворять необходимому и достаточному условию существования минимума. Необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных первого порядка. Получаем систему уравнений:

Раскроем скобки и получим следующее:

Введём замену:

, , , = d, N=100. Получим:

Из этой линейной системы уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А = -0,9337; В = 303,2533. Получим стационарную точку (-0,9337; 303,2533) для F (A; B).

Следующий шаг - проверка того, что в найденной точке выполняется достаточное условие минимума: второй дифференциал функции F (A; B) в точке (-0,9337; 303,2533) должен представлять собой строго положительную квадратичную форму. Для этого достаточно, чтобы существовали вторые частные производные функции F (A; B) по всем переменным, и величины в точке (-0,9337; 303,2533).

Найдём вторые частные производные функции F (A; B) и .

.

Так как то в точке (-0,9337; 303,2533) минимум функции F (A; B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.

Построим график линейной регрессии.

Теперь определим коэффициент линейной регрессии . .

Можно применить это для вычисления коэффициента корреляции r:

плоскость координата график квадратичный

Как видно, это значение практически совпадает с тем, что мы вычислили ранее.

Нахождение коэффициентов и построение графика квадратичного приближения

Для нахождения формулы y = pxІ + qx + r построим функцию среднеквадратичного отклонения F (p, q, r) = .

Найдём точку минимума функции трёх переменных F (p, q, r), которая находится среди стационарных точек этой функции (по необходимому условию минимума). Система для нахождения стационарных точек:

Произведём замену:

Перейдём к системе вида:

Эта система линейна относительно неизвестных p, q, r. Решив её методом Гаусса, найдём стационарную точку функции ().

Теперь, используя достаточное условие, покажем, что функция F (p, q, r) имеет в этой точке минимум. Для этого выписываем второй дифференциал функции F (p, q, r).

++

Найдём значения вторых частных производных в точке ():

Теперь необходимо доказать, что полученная квадратичная форма положительно определена:

++

Воспользуемся для этого критерием Сильвестра. Его суть заключается в том, что для того, чтобы квадратичная форма была положительно определённой, необходимо и достаточно, чтобы все главные миноры матрицы этой формы были положительны.

Так как

++

>0.

Следовательно, уравнение квадратичной регрессии имеет вид

Y=

Построим график квадратичной регрессии

Графическое сопоставление линейной и квадратичной зависимостей

Построим на одном графике заданные точки, графики линейного и квадратичного приближений.

Нахождение статистик и их анализ

Используя следующие формулы, вычисляем статистики :

, , ,

Где , N - объём выборки,

.

Сравним статистики:

Показатели (1) и (2) характеризуют процент уменьшения статистик и относительно статистики , которую можно назвать базовой, а показатель (3) - процент уменьшения статистики относительно .

Можно сделать следующие выводы:

1) Гипотеза о том, что зависимость между и близка к линейной, подтвердилась, так как .

2) Гипотеза о том, что зависимость между и близка к квадратичной, также подтвердилась, так как .

3) Однако, сравнив статистики, получаем, что . Отсюда следует, что параболическое приближение - наиболее точное.

4) Коэффициент корреляции, равный -0,783, показывает, что связь между величинами Х и Y довольно тесная, как это и было видно на диаграмме рассеивания: за исключением отдельных точек, при улучшении состояния окружающей среды (увеличении Х) наблюдается тенденция уменьшения оттока населения из некоторых регионов в другие (уменьшение Y). Те самые отдельные точки - регионы, в которых объём эмиграционных потоков не столь явно связан с экологией.

Размещено на Allbest.ru


Подобные документы

  • Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.

    презентация [92,4 K], добавлен 01.11.2013

  • Двумерная функция распределения вероятностей случайных величин. Понятие условной функции распределения и плотности распределения вероятностей. Корреляция двух случайных величин. Система произвольного числа величин, условная плотность распределения.

    реферат [325,3 K], добавлен 23.01.2011

  • Поиск участков возрастания и убывания функций, классификация экстремума. Умножение матриц АВ–1С. Теория вероятности события и случайных величин. Построение интервальной группировки данных. Решение задачи линейного программирования, построение графика.

    контрольная работа [127,1 K], добавлен 11.11.2012

  • Понятие комплекса случайных величин, закона их распределения и вероятностной зависимости. Числовые характеристики случайных величин: математическое ожидание, момент, дисперсия и корреляционный момент. Показатель интенсивности связи между переменными.

    курсовая работа [2,4 M], добавлен 07.02.2011

  • Фактор как одна из случайных величин, зависимость между которыми анализируется. Дисперсия как характеристика общей изменчивости значений У. Математическое ожидание как центр группирования значений У при Х=а. Нахождение коэффициента детерминации.

    презентация [115,4 K], добавлен 01.11.2013

  • Вычисление среднего одномерных случайных величин. Определение доверительного интервала для математического ожидания и для дисперсии. Построение эмпирической и приближенной линий регрессии Y по X. Дисперсионный анализ греко-латынского куба второго порядка.

    курсовая работа [698,0 K], добавлен 08.05.2012

  • Вероятность совместного выполнения двух неравенств в системе двух случайных величин. Свойства функции распределения. Определение плотности вероятности системы через производную от соответствующей функции распределения. Условия закона распределения.

    презентация [57,9 K], добавлен 01.11.2013

  • Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.

    курсовая работа [988,5 K], добавлен 19.01.2011

  • Дискретные системы двух случайных величин. Композиция законов распределения, входящих в систему. Определение вероятности попадания случайной величины в интервал; числовые характеристики функции; математическое ожидание и дисперсия случайной величины.

    контрольная работа [705,1 K], добавлен 22.11.2013

  • Область определения функции, которая содержит множество возможных значений. Нахождение закона распределения и характеристик функции случайной величины, если известен закон распределения ее аргумента. Примеры определения дискретных случайных величин.

    презентация [68,7 K], добавлен 01.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.