Теория статистики

Абсолютные и относительные статистические показатели, методы прогнозирования. Закон распределения вероятностей дискретной случайной величины. Оценки параметров генеральной совокупности. Статистическое исследование социально-экономического потенциала.

Рубрика Экономика и экономическая теория
Вид шпаргалка
Язык русский
Дата добавления 16.05.2012
Размер файла 1,8 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

,

где x(i) - средняя i - ой серии, x - общая средняя по всей выборочной совокупности.

Для определения необходимого объема выборки при заданной предельной ошибке используются след ф-лы:

- повторный отбор , бесповторный отбор .

31. Случайные величины. Закон распределение вероятностей дискретной случайной величины

Случайная величина -- это измеримая функция, заданная на каком-либо вероятностном пространстве. Случайная величина -- одно из основных понятий теории вероятностей.

Наряду со случайными событиями, как фактами в схеме испытаний, характеризующими её качественно, результаты опытов можно описать количественно. Это и ведёт к понятию случайной величины в теории вероятностей. Фактически, всегда результаты опытов со схемой можно представить количественно с помощью одной или нескольких числовых величин. Так, в конечных схемах описаний вместо самих элементарных исходов можно рассматривать их номиналы (идентификаторы). Например, при бросании монеты «решка» -- это 0, а «орел» -- это 1; при бросании игральной кости результаты -- суть номера граней от 1 до 6 и т. п.

Переменная величина называется случайной, если в результате опыта она может принимать действительные значения с определёнными вероятностями.

Случайная величина Х называется дискретной, если существует такая неотрицательная функция

которая ставит в соответствие значению хi переменной Х вероятность рi, с которой она принимает это значение. Дискретные случайные величины X и Y называются независимыми, если события Х = хi и Y = yi при произвольных i и j являются независимыми.

Случайная величина Х называется непрерывной, если для любых a < b существует такая неотрицательная функция f ( x ), что

Закон распределения вероятностей дискретной случайной величины

Законом распределения случайной дискретной величины (X) называется всякое соотношение, устанавливающее связь между возможными значениями случайной величины (x1,x2,...xn) и соответствующими им вероятностями (p1,p2,...,pn). При этом события (x1,x2,...xn) образуют полную группу (т.е. появление одного из них является достоверным событием), что означает

(1)

Про случайную величину X в таком случае говорят, что она подчинена данному закону распределения.

Если множество возможных значений Х бесконечно (счетно), то ряд сходится и его сумма равна единице.

Простейшей формой задания этого закона является таблица, в которой перечислены возможные значения случайной величины и соответствующие им вероятности:

Возможное значение X

X1

Х2

...

Хn

Вероятность

Р1

Р2

...

Рn

Такая таблица называется таблицей распределения (вероятностей) случайной величины X.

32. Функция распределения и плотность вероятности случайной величины, их свойства

Каждая случайная величина полностью определяется своей функцией распределения.

Случайная величина Х называется непрерывной, если для любых a < b существует такая неотрицательная функция f ( x ), что

Функция f ( x ) называется плотностью распределения непрерывной случайной величины.

Вероятность того, что случайная величина Х принимает значение меньшее х, называется функцией распределения случайной величины Х и обозначается F ( x ):

F ( x ) = Р ( X x ).

Общие свойства функции распределения:

33. Основные числовые характеристики случайной величины и их свойства

Случайные величины, помимо законов распределения, могут описываться числовыми характеристиками.

Математическим ожиданием дискретной случайной величины Х принимающей конечное число значений хi с вероятностями рi, называется сумма:

М ( Х ) = х1 · р1 + х2 · р2 + х3 · р3 +... + хn· рn.

Свойства математического ожидания:

Математическое ожидание постоянной равно самой постоянной:

М(С) = С

Постоянный множитель можно выносить за знак математического ожидания:

М ( с · Х ) = с · М ( Х ), c R

Математическое ожидание суммы двух случайных величин ( зависимых или независимых ) равно сумме математических ожиданий слагаемых:

М ( Х + Y ) = М ( Х ) + М ( Y ), Х, Y Е

Математическое ожидание произведения двух независимых случайных величин равно произведению их математических ожиданий:

М ( Х · Y ) = М ( Х ) М ( Y ) для независимых случайных величин Х и Y

Дисперсией (рассеянием) случайной величины называется математическое ожидание квадрата ее отклонения от ее математического ожидания.

Дисперсией случайной величины Х называется число:

D ( Х ) = М{ [ Х - М ( Х )] 2 }= М ( Х 2 ) - [М ( Х )] 2.

Свойства дисперсии:

1) Дисперсия постоянной величины С равна нулю: D (C) = 0.

2) Постоянный множитель можно выносить за знак дисперсии, возведя его в квадрат: D(CX) = CІD(X).

3) Дисперсия суммы двух независимых случайных величин равна сумме их дисперсий: D(X + Y) = D(X) + D(Y). 4) Дисперсия разности двух независимых случайных величин равна сумме их дисперсий: D(X - Y) = D(X) + D(Y). Дисперсия дает среднее значение квадрата отклонения случайной величины от среднего; для оценки самого отклонения служит величина, называемая средним квадратическим отклонением.

Средним квадратичным отклонением у случайной величины Х называется квадратный корень из дисперсии:

34.Биноминальный закон распределения случайной величины

Биномиальное распределение

Дискретная случайная величина распределена по биномиальному закону с параметрами и , если она принимает значения с вероятностями

.

n-число испытаний, m- число испытаний, в котором произошло интересующее нас событие А.

Корректность распределения:

Математическое ожидание биномиально распределенной случайной величины , дисперсия .

Биноминальный закон распределения широко используется в теории и практике статистического контроля качества продукции, при описании функционирования систем массового обслуживания, при моделировании цен активов, в теории стрельбы, других отраслях.

35. Нормальный закон распределения случайной величины

Нормальное распределение (закон Гаусса)

Непрерывная случайная величина распределена по нормальному закону с параметрами и , если плотность вероятности данной величины имеет вид:

.

Данное распределение вероятностей принято обозначать символом .

Нормальный закон распределения с параметрами Размещено на http://www.allbest.ru/

, называется стандартным или нормированным (обозначается).

Размещено на http://www.allbest.ru/

График плотности нормального распределения симметричен относительно вертикальной прямой, проходящей через точку оси абсцисс , и достигает в указанной точке максимума, равного ; имеет две точки перегиба .

Математическое ожидание случайной величины , подчиненной нормальному закону распределения, равно параметру , а её среднее квадратическое отклонение - параметру :

, .

Коэффициенты асимметрии и эксцесса случайной величины, подчиненной нормальному закону распределения, равны нулю.

Медиана и мода нормально распределенной случайной величины совпадают с её математическим ожиданием.

Интегральная функция распределения случайной величины , подчиненной нормальному закону распределения, связана с функцией Лапласа следующим соотношением:

.

«Правило трех сигм». X … (a-3у, a+3у).

Нормальное распределение является наиболее часто встречающимся в приложениях распределением. Причина такого широкого распространения этого закона заключается в том, что практически важные случайные величины слагаются из очень большого числа независимых случайных величин, каждая из которых лишь незначительно влияет на их сумму. Подобные суммы распределены почти по нормальному закону.

36. Парные и частные коэффициенты корреляции, их свойства

Корреляционный анализ является одним из методов оценки взаимосвязи между переменными величинами на основе выборочных данных.

При построении корреляционных моделей исходят из условия нормальности многомерного закона распределения генеральной совокупности, что обеспечивает линейный характер связи между изучаемыми признаками.

Двумерная корреляционная модель. Изучается корреляционная зависимость между признаками и . Построение двумерной корреляционной модели предполагает, что распределение двумерной случайной величины является нормальным, а независимая повторная выборка из генеральной совокупности - репрезентативной. Плотность двумерного нормального закона распределения :

- парный коэффициент корреляции, характеризующий тесноту линейной связи между величинами и . - математическое ожидание ; - математическое ожидание ; - дисперсия ; - дисперсия ;

Замечание. Парный коэффициент корреляции является одним из самых распространенных способов измерения связи между случайными величинами.

Величина не имеет размерности и, следовательно, может быть использована для сопоставления различных статистических рядов. По мере приближения к единице условные дисперсии стремятся к нулю, что свидетельствует о меньшем рассеянии значений переменных относительно соответствующих линий регрессии и о более тесной связи между переменными. Значение свидетельствует о наличии функциональной линейной зависимости между рассматриваемыми признаками. Если , то линейная связь между и отсутствует, однако это не означает их вероятностную независимость. В этом случае не исключается возможность существования иной формы зависимости между переменными.

Частный коэффициент корреляции

.

где - определитель матрицы, получающейся из матрицы удалением -ой строки и -го столбца.

В случае трехмерной корреляционной модели для переменных можно определить три частных коэффициента корреляции. Частный коэффициент корреляции, например между и при фиксированном

служит показателем связи между переменными и независимо от влияния фиксируемой переменной .

Напомним, что парный коэффициент корреляции показывает тесноту связи между переменными и на фоне действия .

Частный коэффициент корреляции обладает всеми свойствами парного коэффициента корреляции, т.к. является коэффициентом корреляции для их условного двумерного распределения.

Если парный коэффициент корреляции между данными случайными величинами отличен от соответствующего частного коэффициента, то, следовательно, фиксированные величины усиливает (или ослабляют) взаимосвязь между изучаемыми переменными.

37. Множественные коэффициенты корреляции и детерминации, их свойства

Мерой тесноты линейной взаимосвязи между переменной и совокупностью остальных переменных служит множественный коэффициент корреляции (обобщение парного коэффициента корреляции ):

,

где - определитель матрицы ;

- определитель матрицы, получающейся из матрицы удалением -ой строки и -го столбца.

В случае трехмерной корреляционной модели для переменных можно рассчитать три множественных коэффициента корреляции. В частности,

статистический вероятность дискретный экономический

.

Точечная оценка - выборочный множественный коэффициент корреляции:

Выборочный множественный коэффициент детерминации. показывает долю дисперсии случайной величины , обусловленную изменением остальных переменных.

Свойства множественного коэффициента корреляции

.

Если , то связь между и остальными переменными является функциональной. В частном случае трехмерной корреляционной модели точки расположены в плоскости регрессии на .

Если , то случайная величина независима от других рассматриваемых переменных.

Множественный коэффициент корреляции не уменьшается при введении в модель дополнительных признаков и не увеличивается при исключении отдельных признаков из модели.

Для коэффициента детерминации функциональная связь возникает при значении равном 1, а отсутствие связи - 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50%. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

38. Понятие генеральной совокупности и выборки из нее

Множество результатов всех обусловленных данным реальным комплексом условий мыслимых наблюдений над значениями одного или нескольких признаков называется генеральной совокупностью. Генеральная совокупность может содержать как конечное, так и бесконечное число объектов.

Часть объектов генеральной совокупности, отобранных для изучения, называется выборочной совокупностью объектов.

Сущность выборочного метода состоит в вынесении научно обоснованного суждения об объективных свойствах генеральной совокупности по выборочной совокупности. Для того чтобы по содержащейся в выборочных данных информации можно было сделать правильные выводы обо всей генеральной совокупности, выборочная совокупность должна быть репрезентативной, т.е. верно отражать пропорции генеральной совокупности. Реально это достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковые шансы стать отобранными.

Выборка

В математической теории выборочного метода, абстрагируясь от природы объектов генеральной совокупности, под выборкой понимается множество значений наблюдаемого признака, соответствующее конечной выборочной совокупности объектов, образованной последовательным случайным выбором элементов.

Любой рассматриваемой генеральной совокупности отвечает некоторое вероятностное пространство, по отношению к которому интересующий признак обладает интегральной функцией распределения .

Пусть определен комплекс условий, осуществление которых дает возможность наблюдать значение признака , тогда последовательность значений, принятых наблюдаемым признаком в результате независимых повторений испытания , называется независимой повторной выборкой объема из генеральной совокупности с функцией распределения .

Если заново провести серию таких испытаний, то вместо числа (равно как и вместо любого из остальных элементов выборки), возможно, появится некое другое число - одно из допустимых значений случайной величины . Поэтому, набор чисел интерпретируется как конкретное воплощение набора из случайных величин ("копий" ) с одной и той же функцией распределения .

Таким образом, каждая независимая повторная выборка объема есть реализация случайного -мерного вектора с независимыми и одинаково распределенными компонентами.

39. Определение точечной оценки (статистики) и основные требования, предъявляемые к точечной оценке (несмещенность, состоятельность, эффективность)

Точечная оценка в математической статистике - это число, вычисляемое на основе наблюдений, предположительно близкое оцениваемому параметру. Пусть - выборка из распределения, зависящего от параметра . Тогда статистику называют точечной оценкой параметра .

Существует несколько методов определения оценок. Наиболее распространен метод максимального правдоподобия, теоретически обоснованный математиком Р. Фишером. Идея метода заключается в следующем. Вся получаемая в результате многократных наблюдений информация об истинном значении измеряемой величины и рассеивании результатов сосредоточена в ряде наблюдений , где n - число наблюдений. Их можно рассматривать как n независимых случайных величин с одной и той же дифференциальной функцией распределения . Вероятность получения в эксперименте некоторого результата , лежащего в интервале , где - некоторая малая величина, равна соответствующему элементу вероятности .

Независимость результатов наблюдений позволяет найти априорную вероятность появления одновременно всех экспериментальных данных, т.е. всего ряда наблюдений как произведение этих вероятностей:

Если рассматривать Q и как неизвестные параметры распределения, то, подставляя различные значения Q и в эту формулу, мы будем получать различные значения вероятности при каждом фиксированном ряде наблюдений . При некоторых значениях и вероятность получения экспериментальных данных достигает наибольшего значения. В соответствии с методом максимального правдоподобия именно эти значения и принимаются в качестве точечных оценок истинного значения и среднеквадратического отклонения результатов наблюдений.Таким образом, метод максимального правдоподобия сводится к отысканию таких оценок и , при которых функция правдоподобия достигает наибольшего значения. Постоянный сомножитель не оказывает влияния на решение и поэтому может быть отброшен. Полученные оценки и истинного значения и среднеквадратического отклонения называются оценками максимального правдоподобия.

Наряду с методом максимального правдоподобия при определении точечных оценок широко используется метод наименьших квадратов. В соответствии с этим методом среди некоторого класса оценок выбирают ту, которая обладает наименьшей дисперсией, т. е. наиболее эффективную оценку. Легко заметить, что среди всех линейных оценок истинного значения вида , где - некоторые постоянные, именно среднее арифметическое обращает в минимум дисперсию . Поэтому для случая нормально распределенных случайных погрешностей оценки, получаемые методом наименьших квадратов, совпадают с оценками максимального правдоподобия.

Формально статистика может не иметь ничего общего с интересующим нас значением параметра и. Её полезность для получения практически приемлемых оценок вытекает из дополнительных свойств, которыми она обладает или не обладает.

Свойства точечных оценок:

Оценка называется несмещённой, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности: , где E обозначает математическое ожидание.

Оценка называется эффективной, если она обладает минимальной дисперсией среди всех возможных точечных оценок.

Оценка называется состоятельной, если она по вероятности с увеличением объема выборки n стремится к параметру генеральной совокупности: , по вероятности при .

40. Метод моментов и метод наибольшего правдоподобия для построения точечных оценок

Точечная оценка в математической статистике - это число, вычисляемое на основе наблюдений, предположительно близкое оцениваемому параметру. Пусть - выборка из распределения, зависящего от параметра . Тогда статистику называют точечной оценкой параметра .

Свойства точечных оценок:

1.Оценка называется несмещённой, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности:

2.Оценка называется эффективной, если она обладает минимальной дисперсией среди всех возможных точечных оценок.

3. Оценка называется состоятельной, если она по вероятности с увеличением объема выборки n стремится к параметру генеральной совокупности.

Существует несколько методов определения оценок.

Наиболее распространен метод максимального правдоподобия, теоретически обоснованный математиком Р. Фишером. Идея метода заключается в следующем. Вся получаемая в результате многократных наблюдений информация об истинном значении измеряемой величины и рассеивании результатов сосредоточена в ряде наблюдений , где n - число наблюдений. Их можно рассматривать как n независимых случайных величин с одной и той же дифференциальной функцией распределения . Вероятность получения в эксперименте некоторого результата , лежащего в интервале , где - некоторая малая величина, равна соответствующему элементу вероятности .

Независимость результатов наблюдений позволяет найти априорную вероятность появления одновременно всех экспериментальных данных, т.е. всего ряда наблюдений как произведение этих вероятностей:

Если рассматривать Q и как неизвестные параметры распределения, то, подставляя различные значения Q и в эту формулу, мы будем получать различные значения вероятности при каждом фиксированном ряде наблюдений . При некоторых значениях и вероятность получения экспериментальных данных достигает наибольшего значения. В соответствии с методом максимального правдоподобия именно эти значения и принимаются в качестве точечных оценок истинного значения и среднеквадратического отклонения результатов наблюдений. Таким образом, метод максимального правдоподобия сводится к отысканию таких оценок и , при которых функция правдоподобия достигает наибольшего значения. Постоянный сомножитель не оказывает влияния на решение и поэтому может быть отброшен. Полученные оценки и истинного значения и среднеквадратического отклонения называются оценками максимального правдоподобия.

Метод моментов К.Пирсона. Любой теоретический начальный или центральный момент случайной величины, распределение которой зависит от параметра, также зависит от этого параметра.Оценка компонент векторного параметра по методу К.Пирсона осуществляется по определенному количеству моментов различных порядков (начальных, центральных или тех и других). В качестве оценки (приближения) параметра принимается такой вектор , при котором каждый из выбранных теоретических моментов совпадает с соответствующим эмпирическим моментом, вычисленным по выборке . Приравниваем выборочные и теоретические моменты:

41-44. Интервальные оценки параметров генеральной совокупности

Дана выборка (x1, x2, …, xn) объема n из генеральной совокупности с генеральным средним a и генеральной дисперсией ?2. Ищется интервал [И1, И2], в котором a может находиться с доверительной вероятностью г.

Доверительный интервал для неизвестного математического ожидания a при известной дисперсии

Предполагая, что предварительно определена точечная оценка a - выборочное среднее , в качестве статистики для получения И1 = И1(x1, x2, …, xn) и И22(x1, x2, …, xn) рассмотрим нормированное выборочное среднее , имеющее нормальное распределение ().

, где - функция Лапласа.

Полагаем .

доверительный интервал:

.

Точность оценки: .

Доверительный интервал для неизвестного математического ожидания при неизвестной дисперсии

рассматривается нормированное выборочное среднее

,

где - несмещенная оценка при неизвестном . Величина z имеет не зависящее от распределение Стьюдента с степенями свободы.

Доверительный интервал:

.

Точность оценки: .

Доверительный интервал для неизвестной дисперсии при известном математическом ожидании

В качестве статистики рассматривается величина

,

где - несмещенная оценка при известном . Функция имеет не зависящее от распределение с степенями свободы.

доверительный интервал:

Доверительный интервал для неизвестной дисперсии при неизвестном математическом ожидании

.

45. Статистические гипотезы и правила их проверки. Статистические критерии

Основные типы гипотез, проверяемых в ходе статистического анализа и моделирования: гипотезы о типе закона распределения исследуемой случайной величины, гипотезы об однородности двух или нескольких обрабатываемых выборок или некоторых характеристик анализируемых совокупностей, гипотезы о числовых значениях параметров исследуемой генеральной совокупности, гипотезы об общем виде модели, описывающей статистическую зависимость между признаками.

Пусть - независимая повторная выборка объема из некоторой генеральной совокупности с неизвестной функцией распределения .

Под статистической гипотезой понимается всякое предположение о виде или параметрах неизвестного закона распределения. Гипотеза есть определенное утверждение, которое по отношению к реальной ситуации является или истинным, или ложным высказыванием. Простой статистической гипотезой называется предположение о соответствии неизвестной функции распределения некоторому конкретному распределению вероятностей. Сложной статистической гипотезой называется предположение о том, что неизвестное распределение принадлежит некоторому множеству распределений, состоящему более чем из одного элемента. Если удается выдвинуть две взаимоисключающие статистические гипотезы, содержащих в своей совокупности верное суждение о неизвестном распределении, то проверяемую гипотезу принято называть основной (или нулевой), а противоположную гипотезу - альтернативой (или конкурирующей гипотезой). Этапы проверки статистических гипотез. Формулировка основной гипотезы H0 и конкурирующей гипотезы H1. Гипотезы должны быть чётко формализованы в математических терминах. Задание уровня значимости б, отвечающей ошибкам первого рода, на котором в дальнейшем и будет сделан вывод о правдивости гипотезы. Расчёт статистики K критерия. Построение критической области. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику K и по попаданию (или непопаданию) в критическую область W выносится решение об отвержении (или принятии) выдвинутой гипотезы H0. Статистический критерий. Правило, определяющее условия, при которых статистическая гипотеза отвергается или не отвергается, называется статистическим критерием. Математическую основу критерия составляет выбираемая с учетом особенностей поставленной конкретной задачи специальная статистика , точное или приближенное распределение которой при выполнении гипотезы известно. В области возможных значений статистики критерия выделяется множество , называемое критической областью (областью отвержения гипотезы). При проверке гипотезы руководствуются следующим правилом: если значение статистики критерия для выборки принадлежит критической области , то гипотеза отвергается, в противном случае - не отвергается. В результате проверки гипотезы при заданном критерии ; возможны верные решения двух следующих видов: истинная гипотеза не отвергается; ложная гипотеза отвергается. Ошибка первого рода совершается, когда основная гипотеза верна, но отвергается в соответствии с заданным критерием . Вероятность ошибки первого рода называется уровнем значимости (или размером) критерия : . На практике уровень значимости критерия задается изначально, исходя из потребностей реальных приложений и потенциальных последствий вероятных ошибок. Ошибка второго рода допускается, когда альтернативная гипотеза верна, но отвергается в соответствии с заданным критерием (т.е. если основная гипотеза не верна, но не отвергается). Величина , где - вероятность ошибки второго рода: , называется мощностью критерия . Статистические критерии подразделяются на следующие категории: Критерии согласия (Пирсона, Колмогорова-Смирнова) - проверка факта о том, что исследуемая случайная величина подчиняется предполагаемому закону. Критерии согласия можно также воспринимать, как критерии значимости. Критерии однородности (Смирнова, Вилкоксона-Манна-Уитни, Стьюдента, критерий дисперсионного анализа, критерий однородности дисперсий, критерий Бартлетта) - случайные величины исследуются на факт взаимного соответствия их законов распределения (подчиняются ли эти величины одному и тому же закону). Критерии проверки гипотез о числовых значениях параметров.

46 - 48. Статистическая проверка гипотез

О генеральных долях. Имеются две генеральные совокупности и , доли признака в которых равны соответственно . Требуется по двум независимым выборкам объемов и из данных совокупностей проверить сложную гипотезу о равенстве .

Пусть и - доли признака в выборках; - доля признака в объединении выборок

H0

H1

услов

Стат, распр

Обл отв Н0

достаточно

большие

и

стандартное нормальное распределение

О генеральных дисперсиях нормально распределенных совокупностей.

и - случайные величины, имеющие нормальные распределения c неизвестными дисперсиями и . Требуется по двум независимым выборкам и проверить гипотезу .

Используются статистика

,

где ; - исправленные выборочные дисперсии. Если, что выборка с большей исправленной дисперсией имеет объем , и c меньшей -.

H0

H1

услов

Стат, распр

Обл отв Н0

не известны

………………

распределение Фишера с и степенями свободы

О генеральных средних нормально распределенных совокупностей и - нормальные генеральные совокупности. Требуется по двум независимым выборкам и из генеральных совокупностей и проверить сложную гипотезу о равенстве генеральных средних:

H0

H1

услов

Стат, распр

Обл отв Н0

известны

……………………

стандартное нормальное распределение

не известны

……………………

распределение Стьюдента с степенями свободы

49. Сущность дисперсионного анализа. Основные задачи, решаемые с его помощью

Дисперсионный анализ (от латинского Dispersio - рассеивание) - статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

Основные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия у2. Она является мерой вариации частных средних по группам вокруг общей средней и определяется по формуле:

,

где k - число групп;

nj - число единиц в j-ой группе;

- частная средняя по j-ой группе;

- общая средняя по совокупности единиц.

Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия уj2.

.

Между общей дисперсией у02, внутригрупповой дисперсией у2 и межгрупповой дисперсией существует соотношение:

у02 = + у2.

Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе.

Однофакторный комплекс

Изучается влияние на нормально распределенный результативный признак одного контролируемого фактора , имеющего уровней .

Под уровнем фактора подразумевается его мера или состояние, т.е. некоторое количественное или качественное значение.

Двухфакторный комплекс

Изучается влияние на нормально распределенный результативный признак фактора , имеющего уровней и фактора с уровнями .

50. Определение оценок параметров классической линейной модели множественной регрессии с помощью метода наименьших квадратов

Регрессионный анализ - это статистический метод исследования зависимости случайной величины Y от переменных Xj (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения Xj.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид:

y = в0 1хi1 +...+вjxij+...+вkxiki (2.1)

где еi - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию у2

В матричной форме регрессионная модель имеет вид:

Y = Xв + е (2.2)

где Y - случайный вектор - столбец размерности (n x 1) наблюдаемых значений результативного признака (y1, y2,..., yn); X - матрица размерности [n x (k+1)] наблюдаемых значений аргументов. Элемент матрицы xij рассматривается как неслучайная величина (i =1,2,...,n; j=0,1,2,...k; x=1); в-вектор - столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели; е-случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков). Компоненты вектора е независимы между собой, имеют нормальный закон распределения с нулевым математическим ожиданием (Mе=0) и неизвестной дисперсией у2 (D еi = у2).

Для оценки вектора в наиболее часто используют метод наименьших квадратов (МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонения наблюдаемых значений yi от модельных значений y, т. е. квадратичную форму:

Дифференцируя, с учетом квадратичную форму Q по вектору в:

и приравнивая производные нулю, получим оценку метода наименьших квадратов:

Получаем вектор оценок b, где b=(b0 b1...bk)T.

Оценка ковариационной матрицы коэффициентов регрессии вектора b определяется из выражения:

,

где

51-52. Точечные и интервальные оценки парных, частных и множественных коэффициентов корреляции, проверка их значимости

Парный коэффициент корреляции характеризует меру статистической зависимости между величинами.

- парный коэффициент корреляции,

Частный коэффициент корреляции характеризует линейную связь между двумя переменными случайными величинами независимо от влияния остальных случайных переменных.

Точечные оценки:

;;

;

интервальные оценки:

для парных коэффициентов используют статистику Фишера:

, надежность , доверительный интервал:

,

- находится по таблице Лапласа для

Множественный коэффициент корреляции характеризует меру связи между одной случайной величиной и остальными. Множественный коэффициент детерминации (квадрат коэф-та корр-ции) показывает долю дисперсии случайной величины х, обусловленную изменением остальных случайных величин.

Точечные оценки:

;;;;;;

проверка значимости:

,

для множественного R v=n-p.

проверка значимости множественного коэффициента детерминации (а также и множественного коэффициента корреляции) осуществляется с помощью F-распределения. Вычисляется:

далее с заданным уровнем значимости б и числами степеней свободы н1=p-1, и н2=n-p находим Fтабл. Если Fnabl>Fтабл, то гипотеза H02=0 отвергается с вероятностью ошибки б, то есть с2 значимо отличается от нуля.

53. Факторный и компонентный анализ как методы снижения размерности

Компонентный и факторный анализы проводятся с несколькими целями. Как методы снижения размерности они позволяют выявить закономерности, которые непосредственно не наблюдаются. Эта задача решается по матрице нагрузок, как и классификация признаков в пространстве главных компонент (или общих факторов). А индивидуальные значения используются для классификации объектов (не по исходным признакам, а по главным компонентам или общим факторам) и для построения уравнения регрессии на эти обобщенные показатели. Интерпретируются главные компоненты и общие факторы, которым соответствуют дисперсии больше 1, и которые имеют хотя бы одну весомую нагрузку. Выбор критической величины, при превышении которой элемент матрицы нагрузок признается весовым и оказывает влияние на интерпретацию главной компоненты или общего фактора, определяется по смыслу решаемой задачи и может варьировать в пределах от 0,5 до 0,9 в зависимости от получаемых промежуточных результатов. Формальные результаты должны хорошо интерпретироваться.

Факторный анализ - более мощный и сложный аппарат, чем метод главных компонент, поэтому он применяется в том случае, если результаты компонентного анализа не вполне устраивают. Но поскольку эти два метода решают одинаковые задачи, необходимо сравнить результаты компонентного и факторного анализов, т.е. матрицы нагрузок, а также уравнения регрессии на главные компоненты и общие факторы, прокомментировать сходство и различия результатов.

Компонентный анализ предназначен для преобразования системы k исходных признаков, в систему k новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем, первая главная компонента, имеет наибольшую дисперсию, а последняя, k-я, наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются m первых компонент (m< k).

Модель компонентного анализа имеет вид:

(1),

Где a- “вес”, факторная нагрузка, н-ой главной компоненты на j-ой переменной; f - значение н-й главной компоненты для i-го наблюдения (объекта), где н=1,2,...,k.

При наличии результативного показателя Y может быть построено уравнение регрессии на главных компонентах.

Обычно для анализа используют m первых главных компонент, суммарный вклад которых превышает 60-70%.

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

54. Кластерный анализ как метод многомерной классификации

Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ - в исследовании связи.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m - целое) кластеров (подмножеств) Q1, Q2, …, Qm, так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

55. Метод наименьших квадратов (МНК). Свойства МНК-оценок в множественном регрессионном анализе

Общий вид КЛММР:

Постулируется взаимная некоррелированность случайных регрессионных остатков ( для ij). Тот факт, что для всех остатков е1, е2,…, еn выполняется соотношение E еi22, где величина у2 от номера наблюдения I не зависит, означает неизменность дисперсий регрессионных остатков. Это свойство принято называть гомоскедастичностью регрессионных остатков.

Матричная форма записи КЛММР имеет вид:

МНК

Для оценки вектора в наиболее часто используют метод наименьших квадратов (МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонения наблюдаемых значений yi от модельных значений y, т. е. квадратичную форму:

Дифференцируя, с учетом квадратичную форму Q по вектору в:

и приравнивая производные нулю, получим оценку метода наименьших квадратов:

Получаем вектор оценок b, где b=(b0 b1...bk)T.

Оценка ковариационной матрицы коэффициентов регрессии вектора b определяется из выражения:

,

где

Свойства МНК-оценок.

1) состоятельность (по вероятности) n>?

для е, д>0, n0, что для всех объемов выборки выполняется

p

p

2) несмещенность

. Беря мат. Ожидание от левой и правой частей с учетом того, что величины неслучайны, а средние значения остатков равны 0, то получаем:. Тем самым показано, что МНК-оценки неизвестных параметров КЛММР являются несмещенными.

3) эффективность; 4) линейность.

57. Интервальное оценивание коэффициентов уравнения регрессии

Интервальное оценивание коэффициентов уравнения регрессии

Регрессионный анализ - это статистический метод исследования зависимости случайной величины Y от переменных Xj (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения Xj.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид:

y = в0 1хi1 +...+вjxij+...+вkxiki (2.1)

где еi - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию у2

В матричной форме регрессионная модель имеет вид:

Y = Xв + е (2.2)

Значимость уравнения регрессии, т. е. гипотеза H0: в=0 (в01=...=вk=0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле:

,

где QR=(Xb)T(Xb), Qост=(Y-Xb)T(Y-Xb)=У(yi-yi)2.

По таблице F-распределения для заданных б, н1=к+1, н2=n?к?1 находят Fкр.

Для проверки значимости отдельных коэффициентов регрессии, т. е. гипотез H0: вj=0, где j=1,2,...k, используют t-критерий и вычисляют: . По таблице t-распределения для заданного б и н= n-k-1, находят tкр.

Гипотеза H0 отвергается с вероятностью б, если tнабл>tкр. Из этого следует, что соответствующий коэффициент регрессии вj значим, т. е. вj ?0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначимых переменных, которой соответствует минимальное по абсолютной величине значение tнабл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимым коэффициентами.

Наряду с точечными оценками bj генеральных коэффициентов регрессии вj, регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью г.

Интервальная оценка с доверительной вероятностью г для параметра вj имеет вид:

,

где tб находят по таблице t-распределения при вероятности б =1?г и числе степеней свободы н=n?к?1.

58. Гомо- и гетероскедастичность остатков в регрессионных моделях

Термин гетероскедастичность в широком смысле означает предположение о дисперсии случайных ошибок регрессионной модели. Случайная ошибка - отклонение в модели линейной множественной регрессии: . Величина случайной регрессионной ошибки является неизвестной, поэтому вычисляется выборочная оценка случайной ошибки регрессионной модели по формуле: , где - остатки регрессионной модели. Нормальная линейная регрессионная модель строится на основании следующих предположения о случайной ошибке: Матожидание случайной ошибки уравнения регрессии равно 0 во всех наблюдениях: , где . Дисперсия случайной ошибки уравнения регрессии является постоянной для всех наблюдений: . Случайные ошибки уравнения регрессии не коррелированны между собой, то есть ковариация случайных ошибок любых двух разных наблюдений равна 0: , где . Условие трактуется как гомоскедастичность (однородный разброс) дисперсий случайных ошибок регрессионной модели. Гомоскедастичность - это предположение от том, что дисперсии случайной ошибки является известной постоянной величиной для всех наблюдений регрессионной модели. Предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, называется гетероскедастичностью (неоднородный разброс). , где . Условие гетероскедастичности можно записать через ковариационную матрицу случайных ошибок регрессионной модели. , где . Обнаружение гетероскедастичности. Существует несколько тестов на обнаружение гетероскедастичности в регрессионной модели. Тест Глейзера. На первом этапе строится обычная регрессионная модель: Методом наименьших квадратов вычисляются оценки коэффициентов построенной модели: На следующем этапе вычисляются остатки регрессионной модели: . Полученные регрессионные остатки возводятся в квадрат . С целью обнаружение гетероскедастичности определяется коэффициент Спирмена. Коэффициент Спирмена является аналогом парного коэффициента корреляции, но позволяет выявить взаимосвязь между качественным и количественным признаками: , где d - ранговая разность (-); n - количество пар вариантов. Значимость коэффициента Сирмена проверяется с помощью t-критерия Стьюдента. Критическое значение определяется по таблице распределения Стьюдента: . Если , то основная гипотеза отвергается, и между переменной и остатками регрессионной модели существует взаимосвязь, то есть в модели присутствует гетероскедастичность. Устранение гетероскедастичности. Наиболее простым методом устранение гетероскедастичности является взвешивание параметров регрессионной модели. Суть метода состоит в том, что отдельным наблюдениям независимой переменной с максимальным среднеквадратическим отклонением случайной ошибки придается больший вес, а остальным наблюдениям с минимальным среднеквадратическим отклонением случайной ошибки придается меньший вес. Благодаря этому оценки коэффициентов уравнения остаются эффективными. Модель регрессии при таком подходе называется взвешенной регрессией с весами . После нахождения оценок дисперсий остатков можно воспользоваться доступным обобщенным или взвешенным методом наименьших квадратов для вычисления оценок коэффициентов уравнения регрессии, которые различаются лишь оценкой . Если нельзя выполнить коррекцию гетероскедастичности, то вполне возможно вычислить оценки коэффициентов уравнения регрессии по обычному МНК, но корректировать ковариационную матрицу оценок коэффициентов , так как условие гетероскедастичности приводит к увеличению данной матрицы.

59. Обобщенный метод наименьших квадратов (ОМНК). Свойства ОМНК-оценок

Состоятельные, несмещенные и эффективные оценки коэффициентов регрессионной модели с гетероскедаскичными или коррелированными случайными ошибками определяется с помощью ОМНК.

Нормальная линейная регрессионная модель строится на основании следующих предпосылок о случайных ошибках:

Дисперсия случайной ошибки уравнения регрессии является величиной, постоянной для всех наблюдений:

Случайные ошибки уравнения регрессии не коррелированны между собой, то есть ковариация случайных ошибок любых двух разных наблюдений равна 0: , где

В случае гетероскедастичности остатков нарушается первое из перечисленных свойств , где , а в случае автокорреляции остатков нарушается второе свойство . Регрессионная модель, для которой не выполняются указанные свойства, называется обобщенной линейной регрессионной моделью.

В матричном виде обобщенную линейную регрессию можно записать так: , где Х - неслучайная матрица факторных переменных; - случайная ошибка регрессионной модели с нулевым матожиданием и дисперсией , , - ковариационная матрица случайных ошибок обобщенного регрессионного уравнения.

Для нормальной регрессионной модели дисперсия случайной ошибки определялась из условия постоянства дисперсий случайных ошибок.

В обобщенной регрессионной модели ковариационная матрица случайных ошибок строится исходя из условия непостоянства дисперсий регрессионных остатков

:

В ковариационной матрице случайных ошибок и заключается основное отличие обобщенной линейной регрессионной модели от нормальной линейной модели регрессии.

Теорема Айткена.

В классе линейных несмещенных оценок неизвестных коэффициентов обобщенной регрессионной модели оценка будет иметь наименьшую ковариационную матрицу.

Формула для расчета матрицы ковариаций ОМНК - оценок обобщенной регрессии: .

- является неизвестным параметром модели, который нужно оценить:

.

Где n,p -размерность матрицы.

60. Дискриминантный анализ как метод многомерной классификаций с обучением

Дискриминантный анализ является одним из методов многомерного статистического анализа. Цель дискриминантного анализа состоит в том, чтобы на основе различных характеристик (признаков, параметров) объекта классифицировать его, то есть отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Отличительным свойством дискриминантного анализа является то, что исследователю заранее известно число групп (классов) на которые нужно разбить рассматриваемую совокупность объектов. Задача состоит в том, чтобы построить решающее правило, позволяющее по результатам измерений параметров объекта указать группу, к которой он принадлежит. Рассматривая задачу классификации при наличии обучающих выборок («классификации с обучением» как ее еще называют) в терминах статичного варианта задания исходных статистических данных на «входе» задачи нужно иметь n классифицируемых объектов, представленных данными вида:

Когда каждая i-я строка матрицы отражает значения p характеризующих i-й объект признаков , ,…,. Обучающие выборки , j=1, 2,…,k, каждая j-я из которых определяет значения анализируемых признаков на объектах (то есть i=1, 2,…,n), о которых априори известно, что все они принадлежат j-му классу, причем число k различных выборок равно общему числу всех возможных классов (так, что каждый класс представлен своей порцией выборочных данных). На «выходе» задачи мы должны иметь результат следующей формы: если число классов k и их смысл известен заранее, то каждое из n классифицируемых многомерных наблюдений должно быть снабжено «адресом» (номером) класса, к которому оно принадлежит. Дискриминантный анализ применяется, когда исследователь имеет информацию о характере распределения в группах. При использовании дискриминантного анализа вначале формируются обучающие выборки, которые являются носителями информации о распределении внутри каждого класса. Данные обучающих выборок формируются на этапе предварительного анализа экспертами в конкретной рассматриваемой области. На основе обучающих выборок определяются дискриминантные и классификационные функции, позволяющие с минимальной вероятностью ошибки отнести каждый объект к тому или иному классу. Узловым моментом в задаче многомерной классификации является выбор метрики расстояния, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. При этом решение данного вопроса зависит в основном от цели исследования, физической и статистической природы k-мерного вектора наблюдений Х, полноты априорных сведений о характере вероятностного распределения Х. Здесь k - число рассматриваемых показателей.


Подобные документы

  • Основы статистического контроля качества продукции. Типовые расчеты по курсу теории вероятностей: построение закона распределения и расчет основных характеристик непрерывной случайной величины. Интервальное оценивание параметров генеральной совокупности.

    контрольная работа [1,2 M], добавлен 21.01.2016

  • Статистическое наблюдение; классификация признаков явлений; сводка и группировка. Ряды распределения и их графическое изображение; уровневые и интегральные графики. Динамические ряды, статистические таблицы, абсолютные, относительные и средние величины.

    учебное пособие [217,1 K], добавлен 23.12.2009

  • Комбинаторный метод вычисления вероятностей. Понятие случайных величин. Характеристики положения и рассеивания. Закон больших чисел. Центральная предельная теорема. Статистическое оценивание характеристик распределения генеральной совокупности по выборке.

    учебное пособие [554,6 K], добавлен 15.06.2015

  • Рассмотрение процесса ревизии в бухгалтерии предприятия налоговыми органами с точки зрения статистического наблюдения. Выбор из исходных данных абсолютной статистической величины. Представление статистических данных. Средние величины. Показатели вариации.

    контрольная работа [139,5 K], добавлен 28.05.2015

  • Статистические гипотезы и методы их проверки. Закон распределения случайной величины. Математические ожидания экспоненциально распределенных выборок. Области отклонения гипотезы. Плотность нормального распределения. Плотность распределения Стьюдента.

    контрольная работа [850,5 K], добавлен 30.03.2011

  • Предмет и метод статистики. Группировка и ряд распределения. Абсолютные, относительные, средние величины, показатели вариации. Выборочное наблюдение, ряды динамики. Основы корреляционного и регрессионного анализа. Статистика населения и рынка труда.

    методичка [2,2 M], добавлен 16.02.2011

  • Предмет и метод статистики. Сущность и основные аспекты статистического наблюдения. Ряды распределения. Статистические таблицы. Абсолютные величины. Показатели вариации. Понятие о статистических рядах динамики. Сопоставимость в рядах динамики.

    шпаргалка [31,9 K], добавлен 26.01.2009

  • Первичный анализ экспериментальных данных. Построение эмпирической плотности распределения случайной анализируемой величины и расчет ее характеристик. Определение вида закона распределения величины и расчёт его параметров при помощи метода моментов.

    курсовая работа [1,2 M], добавлен 23.05.2009

  • Сводка и группировка. Абсолютные и относительные величины. Расчет соотношения потребленного и вывезенного сахара. Сущность и значение средних показателей. Исчисление средней из интервального ряда распределения по методу моментов. Показатели вариации.

    контрольная работа [75,7 K], добавлен 20.09.2013

  • Абсолютные и относительные величины. Статистические распределения и их основные характеристики. Нижняя граница медианного интервала. Определение среднего линейного отклонения, дисперсии, среднего квадратичного отклонения. Уровни динамического ряда.

    контрольная работа [226,6 K], добавлен 04.09.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.