Корреляция и регрессия

Анализ экспериментальных данных, полученных в виде набора значений двух зависимых величин. Вывод о связи между величинами на основании вычисления коэффициента корреляции, построение уравнения линейной регрессии. Прогнозирование зависимой величины.

Рубрика Экономико-математическое моделирование
Вид реферат
Язык русский
Дата добавления 30.01.2018
Размер файла 555,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

18

Размещено на http://www.allbest.ru/

Оглавление

  • Введение
  • Корреляция и регрессия
  • Вычисление коэффициента корреляции
  • Уравнение линии регрессии
  • Таблицы результатов
  • Структура программы и результаты её работы
  • Заключение
  • Список литературы

Введение

В данной работе будет произведён анализ экспериментальных данных, полученных в виде набора значений двух зависимых величин. Будет сделан вывод о связи между ними на основании вычисления коэффициента корреляции и построено уравнение линейной регрессии. Полученная зависимость будет использована для прогнозирования зависимой величины.

Коэффициент корреляции используется для обозначения силы линейных взаимоотношений между двумя переменными. Регрессионный анализ используют для оценки уравнения, которое в наибольшей степени соответствует совокупности наблюдений зависимых и независимых переменных. С помощью оцененного таким образом уравнения можно предсказать, каково будет значение зависимой переменной для данного значения независимой переменной.

Структура и объем работы. Расчетно-графическая работа состоит из введения, 5 разделов, заключения и библиографического списка. Она содержит 4 рисунка и 5 таблиц. Объем работы - 20 страниц машинописного текста. Библиографический список включает 3 наименования.

Корреляция и регрессия

Одним из важных методов анализа экспериментальных данных является корреляционный анализ. Он позволяет установить наличие и степень связи между случайными величинами [1].

Простая связь означает наличие двух случайных переменных. Множественная связь предполагает действие нескольких переменных.

Корреляционный анализ отвечает на следующие вопросы:

1. Существует ли связь между переменными?

2. Какой тип имеет эта связь?

3. Насколько сильна эта связь?

4. Какой прогноз можно сделать с учётом этой связи?

Примером простой связи является измерение роста и веса пациентов при врачебном осмотре, или зависимость годового объема продаж от средств, потраченных на рекламу. В качестве множественной связи можно представить зависимость ощущения температуры человеком в зависимости от температуры воздуха и влажности. Кроме того, важно установить и направление связи. Какая переменная оказывает влияние, а какая является зависимой? Например, при установлении связи между затратами на рекламу и прибылью, очевидно, независимой переменной являются затраты на рекламу.

Независимая переменная - это та, значение которой можно изменять. Зависимая переменная - это переменная, которую нельзя менять по желанию исследователя.

Её значение является следствием определённого числа скрытых причин. Для выявления зависимости переменных можно строить графическое представление данных и визуально определять, имеет место зависимость и каково её направление.

корреляция регрессия зависимая величина

Предположим, что в результате эксперимента измеряются две случайные величины и . Их выборки представляют собой пары чисел (точки):

,

где - число испытаний. Вместе с анализом величин и по отдельности, нужно исследовать их возможную зависимость. Является ли эти величины независимыми? Если же между ними имеется зависимость, то какого рода?

Если между переменными имеется связь, то говорят, что и коррелированы. Для определения такого рода зависимости вычисляют величину, называемую коэффициентом корреляции . В случаях, когда других переменных нет, его обозначают просто . Эта величина помогает установить характер связи между исследуемыми переменными:

Чем ближе значение к нулю, тем слабее корреляция. Если же близок к или , тем корреляция сильнее, то есть зависимость между и близка к линейной. В случае, если или , все точки выборки лежат на одной прямой.

Таким образом, коэффициент корреляции отражает степень именно линейной зависимости между исследуемыми величинами. При наличии зависимости другого вида (например, кубической) он может быть близок к нулю.

Приведём формулы для вычисления .

, , , ,

,

Существует общепринятая шкала для интерпретации значений коэффициента корреляции.

Таблица 1.1 Шкала интерпретации

Значение

Уровень связи между переменными

0,75 - 1,00

Очень высокая положительная

0,50 - 0,74

Высокая положительная

0,25 - 0,49

Средняя положительная

0,00 - 0,24

Слабая положительная

0,00 - 0,24

Слабая отрицательная

-0,25 - 0,49

Средняя отрицательная

-0,50 - 0,74

Высокая отрицательная

-0,75 - 1,00

Очень высокая отрицательная

Если коэффициент корреляции близок к единице, то линейная зависимость существует, и этим можно воспользоваться для прогнозирования числа зрителей. Для этого применяется регрессионный анализ, тесно связанный с корреляционным.

Когда установлена линейная связь между переменными, исследователи должны рассмотреть возможные виды связи и выбрать ту, которая диктуется логикой данного исследования. Существует несколько видов связи.

Прямая причинно-следственная связь между исследуемыми переменными. В этом случае переменная влияет на переменную . Например, наличие воды ускоряет рост растений, а яд вызывает смерть.

Обратная причинно-следственная связь. В этом случае переменная влияет на значение . Можно предположить, что употребление большого количества чая вызывает нервозность. Но также может быть, что нервный человек пьет чай, чтобы успокоиться.

Связь между исследуемыми переменными может быть вызвана третьей переменной. Например, исследователем установлено, что существует определённая корреляция между числом посещений магазинов вечером в холодную погоду и уменьшением продаж прохладительных напитков. Очевидно, несмотря на зависимость, причиной обоих этих явлений является третье явление - холодная погода.

Взаимосвязь между несколькими переменными. Можно обнаружить связь между оценками студентов в академии и их оценками в школе. Но в этом случае могут действовать и другие переменные: уровень мотивации, жизненные обстоятельства, значимость предмета для студента.

Кроме всего вышеперечисленного, зависимость между событиями может быть случайна. Исследователь может найти значимую зависимость между уменьшением числа мышей весной и ростом солнечной активности. Но здравый смысл говорит о том, что связь между этими переменными случайна.

Таким образом, коэффициент корреляции показывает исследователю не причинно-следственную связь между событиями, а наличие линейной связи между ними и степень этой связи.

На рисунке 1 (с линейно расположенными точками) видно, что зависимость имеет приближенно линейный характер. Значения переменных расположены вокруг некоей прямой линии. Она называется линией регрессии. Для её построения несколько способов. Один из них - непосредственный. Если представить натянутую нить между двумя точками на рисунке, то можно выбрать визуально наиболее подходящее положение. Если после этого нарисовать эту нить, то при помощи измерений можно определить уравнение этой прямой. Эта грубая оценка пригодна в некоторых случаях. Также для этой цели существует несколько методов. Рассмотрим один из них, называемый методом наименьших квадратов.

Если установлена линейная связь между переменными и , то можно отыскать функцию вида , выражающую зависимость от .

Пусть даны пары чисел (иначе говоря, точек)

.

Требуется найти такую прямую, чтобы сумма квадратов отклонений координат этих точек от прямой была как можно меньше.

Это означает, что выражение

должно быть минимальным.

Рисунок 1.1 Иллюстрация метода наименьших квадратов

Это выражение представляет собой функцию двух переменных и , поскольку результаты наблюдений и заданы. Это выражение принимает минимальное значение, если величины и связаны соотношениями

.

Эта система имеет единственное решение

, .

Отыскав значения и , мы сможем записать уравнение прямой, наилучшим образом выражающую статистическую связь между переменными и . Эта прямая называется прямой регрессии на .

После отыскания коэффициентов линии регрессии, можно оценить качество приближения результатов наблюдений. Подставив в выражение

Найденные значения и , вычислим среднюю квадратичную погрешность, иначе называемую ошибкой уравнения регрессии.

.

Эта величина отражает среднюю длину вертикальных отклонений исследуемых точек от прямой регрессии. Чем меньше , тем ближе результаты наблюдений к прямой регрессии.

Вычисление коэффициента корреляции

Рассмотрим задачу, решаемую администрацией концертного зала, в котором проходят массовые мероприятия. Перед каждым мероприятием нужно организовать работу вспомогательных служб. Для этого необходимо оценить, сколько зрителей посетит мероприятие. Один из способов решения этой задачи - учёт предыдущего опыта. Например, можно предположить, что число зрителей в определённый день зависит от того, сколько билетов было продано за день до мероприятия. Разумеется, зрителей будет больше, чем продано билетов днём раньше, но можно предположить, что в день самого мероприятия зависимость числа купленных билетов от времени сохранит линейный вид, Иными словами, билеты покупаются равномерно. Пусть данные первых шести мероприятий в этом месяце следующие:

Таблица 2.1 Исходные данные

Расходы на рекламу

1.5

2.3

5.5

5.9

6.1

9.4

Объем продаж

3.

4.44

16

3.92

13.88

25.32

Требуется определить коэффициент корреляции между числом продаж, а также сделать прогноз продаж при х=6.2 Примем расходы на рекламу за x, а объем продаж за y. В таблице приведены шесть реализаций пары этих случайных величин. Рассчитаем коэффициент корреляции.

Согласно таблице 1.1, наблюдается очень высокая положительная корреляция. Результаты вычислений занесём в таблицу 4.1.

Таким образом, в нашем случае коэффициент корреляции довольно близок к единице. Следовательно, линейная зависимость существует, и этим обстоятельством можно воспользоваться для прогнозирования числа зрителей.

Уравнение линии регрессии

Для прогнозирования продаж, рассмотренного в предыдущем примере, нужно найти прямую регрессии на . Для этого подставим найденные ранее значения , , и в формулы для коэффициентов регрессии. Получим:

Запишем уравнение прямой регрессии:

Y=2.492x+7.39

Y=1.04*6.2+7.39=13.838

Найдём ошибку уравнения регрессии.

=

==13.47

Итак, среднеквадратичная ошибка составляет 13.47 продаж. Таким образом y (6.2) =13.8313.47 продаж. Результаты вычислений занесём в таблицу 4.2.

Таблицы результатов

Таблица 4.1 Результаты вычислений коэффициента корреляции

Параметр

Значение

30,7

76,56

195,58

1312,2368

507,516

5,116

12,76

,

-909,41

,

12,76

,

-2266,42

0,3853

Таблица 4.2 Результаты вычислений коэффициентов линии регрессии

Параметр

Значение

2,492

7,39

Уравнение линии регрессии

У=2,492х+7,39

13,47

5,3 тыс. билетов

y (6.2) =13.8313.47

Структура программы и результаты её работы

Программа предназначена для вычисления коэффициента корреляции заданной пары последовательностей экспериментальных данных и выполнена в пакете прикладных математических программ для инженерных (технических) и научных расчётов Scilab 5.5.1 [2]. В программе используются стандартные функции пакета (таблица 5.1).

Таблица 5.1 Функции, использованные при создании программы

Функция

Назначение

sum (x)

Вычисление суммы элементов массива x

length (x)

Длина объекта x

reglin (x, y)

Вычисление коэффициентов линейной регрессии для последовательностей x и у

plot2d (x, y, - 1)

Построение двумерного графика функции у от аргумента x. Параметр - 1 обозначает вид отображения "+".

plot (x, a*x+b)

Построение двумерного графика функции a*x+b от аргумента x.

Структура программы приведена на рисунке 5.1

18

Размещено на http://www.allbest.ru/

Рисунок 5.1 - Структура программы

Результаты работы программы приведены на рисунке 5.2.

Рисунок 5.2 - Результаты работы программы

График заданных последовательностей и прямой регрессии приведён на рисунке 5.3.

Рисунок 5.3 - Заданные последовательности экспериментальных данных и прямая регрессии

// Курсовая работа пл дисциплине

// "Технологии обработки информации"

// На тему

// "Обработка эксперементальных данных"

// Вариант 15

// Исходная последовательности

x = [1.5 2.3 5.5 5.9 6.1 9.4];

y = [3.4.44 16.13.92 13.88 25.32];

// Заданное значение для прогноза

t = 6.2

// Вычесление коэфициента

sumX = sum (x)

sumY = sum (y)

sum2X = sum (x. ^2)

sum2Y = sum (y. ^2)

sumXY = sum (x. *y)

xMean = sumX/length (x)

yMean = sumY/length (y)

s2x = sum2X/length (x) - xMean. ^2

s2y = sum2Y/length (y) - yMean. ^2

sXY = sumXY/length (x) - xMean * yMean

rXY = sXY/ (sqrt (s2x) *sqrt (s2y))

// Вычисление коэффициентов линии регрессии

[a, b, sig] = reglin (x, y);

f=a*t + b

disp ('Коэффициент корреляции ')

disp (rXY)

disp ('Коэффициент а линии регрессии ')

disp (a)

disp ('Коэффициент б линии регрессии ')

disp (b)

disp ('Прогноз продаж')

disp (t)

disp ('При предварительной продаже')

disp (f)

disp ('Ошибка регрессии')

disp (sig)

// Построение графика линии регрессии

plot2d (x, y, - 1)

plot (x, a*x+b)

Заключение

В данной расчетно-графической работе был произведён анализ экспериментальных данных, полученных в виде набора значений двух зависимых величин. Была установлена связь этих величин на основании величины коэффициента корреляции. Построено уравнение линейной регрессии. Вычислено значение зависимой величины по заданному значению независимой, определена ошибка регрессии. Написана программа в пакете Scilab 5.5.1 для проведения указанных вычислений и построены графики заданных последовательностей и линии регрессии. Оформление работы производилось в соответствии со стандартом оформления студенческих работ ВГЛТА [3].

Список литературы

1. Шикин, Е.В. Математические методы и модели в управлении: Учеб. пособие [Текст] / Е.В. Шикин, А.Г. Чхартишвили. - М.: Дело, 2004. - 440 с.

2. Тропин, И.С. Численные и технические расчеты в среде Scilab (ПО для решения задач численных и технических вычислений): Учеб. пособие [Текст] / И.С. Тропин, О.И. Михайлова, А.В. Михайлов. - Москва: 2008. - 65 с.

3. Оформление студенческих работ [Текст]: стандарт / Д.Н. Афоничев, Д.Ю. Капитонов, Н.Н. Харченко, А.С. Черных; М-во образования и науки РФ, ГОУ ВПО "ВГЛТА". - Воронеж, 2011. - 59 с.

Размещено на Allbest.ru


Подобные документы

  • Нахождение уравнения линейной регрессии, парного коэффициента корреляции. Вычисление точечных оценок для математического ожидания, дисперсии, среднеквадратического отклонения показателей x и y. Построение точечного прогноза для случая расходов на рекламу.

    контрольная работа [216,6 K], добавлен 12.05.2010

  • Построение модели для зависимой переменной, используя пошаговую множественную регрессию. Рассчет индекса корреляции, оценка качества полученного уравнения регрессии с помощью коэффициента детерминации. Оценка статистической значимости уравнения регрессии.

    лабораторная работа [2,1 M], добавлен 25.05.2009

  • Поле корреляции и гипотеза о виде уравнения регрессии. Оценка величины влияния фактора на исследуемый показатель с помощью коэффициента корреляции и детерминации. Определение основных параметров линейной модели с помощью метода наименьших квадратов.

    контрольная работа [701,1 K], добавлен 29.03.2011

  • Оценка среднего количества окиси железа в руде, содержащей 25% закиси железа, с помощью уравнения регрессии. Выявление силы корреляции. Выборочное корреляционное отношение. Прямая криволинейная зависимость с высокой теснотой связи между величинами.

    лабораторная работа [868,3 K], добавлен 14.05.2014

  • Оценка тесноты связи с помощью показателей корреляции и детерминации. Построение поля корреляции и расчёт параметров линейной регрессии. Результаты вычисления функций и нахождение коэффициента детерминации. Регрессионный анализ и прогнозирование.

    курсовая работа [1,1 M], добавлен 07.08.2011

  • Построение диаграммы рассеяния, иллюстрирующей взаимосвязь переменных, гипотеза о виде их функциональной зависимости. Сущность линейной однофакторной регрессии, интервальные оценки ее коэффициентов. Расчет значения линейного коэффициента корреляции.

    контрольная работа [235,6 K], добавлен 04.11.2013

  • Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.

    контрольная работа [71,7 K], добавлен 17.09.2016

  • Ковариация и коэффициент корреляции, пары случайных переменных. Вычисление их выборочных значений и оценка статистической значимости в Excel. Математическая мера корреляции двух случайных величин. Построение моделей парной и множественной регрессии.

    контрольная работа [2,2 M], добавлен 24.12.2014

  • Поиск несмещенных оценок математического ожидания и для дисперсии X и Y. Расчет выборочного коэффициента корреляции, анализ степени тесноты связи между X и Y. Проверка гипотезы о силе линейной связи между X и Y, о значении параметров линейной регрессии.

    контрольная работа [19,2 K], добавлен 25.12.2010

  • Основные параметры уравнения регрессии, оценка их параметров и значимость. Интервальная оценка для коэффициента корреляции. Анализ точности определения оценок коэффициентов регрессии. Показатели качества уравнения регрессии, прогнозирование данных.

    контрольная работа [222,5 K], добавлен 08.05.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.