Основы теории вероятности и математической статистики

Теория вероятности, понятие вероятности события и её классификация. Понятие комбинаторики и её основные правила. Теоремы умножения вероятностей. Понятие и виды случайных величин. Задачи математической статистики. Расчёт коэффициента корреляции.

Рубрика Математика
Вид шпаргалка
Язык русский
Дата добавления 18.06.2012
Размер файла 945,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Большой раздел современной математической статистики -- статистический последовательный анализ, фундаментальный вклад в создание и развитие которого внес А. Вальд во время Второй мировой войны. В отличие от традиционных (непоследовательных) методов статистического анализа, основанных на случайной выборке фиксированного объема, в последовательном анализе допускается формирование массива наблюдений по одному (или, более общим образом, группами), при этом решение об проведении следующего наблюдения (группы наблюдений) принимается на основе уже накопленного массива наблюдений. Ввиду этого, теория последовательного статистического анализа тесно связана с теорией оптимальной остановки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвящённых проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов.

Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ[2] и многочисленные нелинейные обобщения[3].

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчётов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

32. Выборочный метод

Выборочный метод, статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов, взятых на выборку. Математическая теория В. м. опирается на два важных раздела математической статистики -- теорию выбора из конечной совокупности и теорию выбора из бесконечной совокупности. Основное отличие В. м. для конечной и бесконечной совокупностей заключается в том, что в первом случае В. м. применяется, как правило, к объектам неслучайной, детерминированной природы (например, число дефектных изделий в данной партии готовой продукции не является случайной величиной: это число -- неизвестная постоянная, которую и надлежит оценить по выборочным данным). Во втором случае В. м. обычно применяется для изучения свойств случайных объектов (например, для исследования свойств непрерывно распределённых случайных ошибок измерений, каждое из которых теоретически может быть истолковано как реализация одного из бесконечного множества возможных результатов).

Выбор из конечной совокупности и его теория являются основой статистических методов контроля качества и часто применяются в социологических исследованиях (см. Выборочное наблюдение). Согласно теории вероятностей, выборка будет правильно отражать свойства всей совокупности, если выбор производится случайно, т. е. так, что любая из возможных выборок заданного объёма n из совокупности объёма N [число таких выборок равно N!/n!(N -- n)!] имеет одинаковую вероятность быть фактически выбранной.

На практике наиболее часто используется выбор без возвращения (бесповторная выборка), когда каждый отобранный объект перед выбором следующего объекта в исследуемую совокупность не возвращается (такой выбор применяется при статистическом контроле качества). Выбор с возвращением (выборка с повторением) рассматривается обычно лишь в теоретических исследованиях (примером выбора с возвращением является регистрация числа частиц, коснувшихся в течение данного времени стенок сосуда, внутри которого совершается броуновское движение). Если n << N, то повторный и бесповторный выборы дают практически эквивалентные результаты.

33. Типы выборок и способы отбора

Выборка или выборочная совокупность -- множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

Качественная характеристика выборки - кого именно мы выбираем и какие способы построения выборки мы для этого используем.

Количественная характеристика выборки - сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

Объект исследования очень обширный. Например, потребители продукции глобальной компании - огромное количество, территориально разбросанных рынков.

Существует необходимость в сборе первичной информации.

Объём выборки -- число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30--35.

Для того чтобы можно было по выборке делать вывод о свойствах генеральной совокупности, выборка должна быть репрезентативной (представительной), т. е. она должна полно и адекватно представлять свойства генеральной совокупности. Репрезентативность выборки может быть обеспечена только при объективности отбора данных.

Выборочная совокупность формируется по принципу массовых вероятностных процессов без каких бы то ни было исключений от принятой схемы отбора; необходимо обеспечить относительную однородность выборочной совокупности или ее разделение на однородные группы единиц. При формировании выборочной совокупности должно быть дано четкое определение единицы отбора. Желателен приблизительно одинаковый размер единиц отбора, причем результаты будут тем точнее, чем меньше единица отбора.

Возможны три способа отбора: случайный отбор, отбор единиц по определенной схеме, сочетание первого и второго способов.

Если отбор в соответствии с принятой схемой проводится из генеральной совокупности, предварительно разделенной на типы (слои или страты), то такая выборка называется типической (или расслоенной, или стратифицированной, или районированной). Еще одно деление выборки по видам определяется тем, что является единицей отбора: единица наблюдения или серия единиц (иногда используют термин «гнездо»). В последнем случае выборка называется серийной, или гнездовой. На практике часто используется сочетание типической выборки с отбором сериями. В математической статистике, обсуждая проблему отбора данных, обязательно вводят деление выборки на повторную и бесповторную. Первая соответствует схеме возвратного шара, вторая - безвозвратного (при рассмотрении процесса отбора данных на примере отбора шаров разного цвета из урны). В социально-экономической статистике нет смысла применять повторную выборку, поэтому, как правило, имеется в виду бесповторный отбор. Если выборка производится по схеме возвращенного шара, то вероятность попадания любой единицы в выборку равна MN, и она остается той же самой на протяжении всей процедуры отбора. Если выборка производится по схеме невозвращенного шара, то вероятность попадания единицы в выборку изменяется от 1/N- для первой отбираемой единицы, до 1/N-n-1- для последней.

34. Вариационные ряды

Вариационный ряд -- упорядоченная по величине последовательность выборочных значений наблюдаемой случайной величины

X1<=…<=Xn равные между собой элементы выборки нумеруются в произвольном порядке; элементы вариационного ряда называются порядковыми (ранговыми) статистиками; число лm = m / n называется рангом порядковой статистики Xmn. Вариационный ряд используется для построения эмпирической функции распределения.

35. Эмпирическая функция распределения

Эмпирическая функция распределения (выборочная функция распределения) -- естественное приближение теоретической функции распределения данной случайной величины, построенное по выборке.

Пусть задана случайная выборка наблюдений Построим по выборке ступенчатую функцию Fm(x), возрастающую скачками величины 1/m в точках x(i). Построенная функция называется эмпирической функцией распределения. Для задания значений в точках разрыва формально определим её так: Замечание: при этом эмпирическая функция непрерывна справа.

На рисунке представлена функция стандартного нормального распределения и эмпирическая функция распределения, построенная по выборке из 10 случайных наблюдений из стандартного нормального закона.

36. Полигон и гистограмма

Для наглядности строят различные графики статистического распределения, в частности, полигон и гистограмму.

Полигоном частот называют ломаную линию, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им частоты niи соединяют точки (wi;ni)отрезками прямых.

Полигон относительных частот строится аналогично, за исключением того, что на оси ординат откладываются относительные частоты wi.

В случае непрерывного признака строится гистограмма, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала ni- сумму частот вариант, попавших в i-й интервал.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению ni/h. Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (высоте) ni/h. Площадь i-го прямоугольника равна - сумме частот вариант i-о интервала, поэтому площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

В случае гистограммы относительных частот по оси ординат откладываются относительные частоты wi, на оси абсцисс - частичные интервалы, над ними проводят отрезки, параллельные оси абсцисс на высоте Wi/h. Площадь i-го прямоугольника равна относительной частоте вариант Wi, попавших в i-й интервал. Поэтому площадь гистограммы относительных частот равна сумме всех относительных частот, то есть единице.

37. Точечные оценки параметров распределения

Задача оценивания параметров распределения генеральной - одна из основных задач математической статистики. На содержательном уровне задача оценивания параметров распределения формулируется так: располагая выборкой реализаций случайной величины Х, необходимо получить оценку неизвестного параметра генеральной совокупности а и ее статистические свойства.

Оценивание параметров распределения осуществляется в два этапа. На первом этапе, на основании выборки х1, х2, ... , ,хn ,строится статистика, значение которой при данной выборке х1, х2, ... , ,хn принимают за приближенное значение оцениваемого параметра а :

Так как параметр генеральной совокупности оценивается числом, которое на числовой оси изображается точкой, то оценку называют точечной.

Для получения точечной оценки существует много статистик, которые могут быть использованы в качестве оценок. Поэтому второй этап оценивания состоит в выборе наилучшей оценки, что требует введения критерия качества получаемых оценок. Задача усложняется тем, что ввиду малого объема выборки требуется статистический подход к качеству оценки

По опытным данным (выборке) путем построения гистограммы или с помощью других средств можно попытаться выбрать вероятностную модель (определить закон распределения генеральной совокупности). При этом выборочные данные позволяют уточнить детали вероятностной модели. Знание вероятностной модели дает возможность прогнозировать будущие события, что важно для принятия решений. В приложениях обычно задаются определенным типом закона распределения генеральной совокупности (плотностью распределения)

f = f(x; a1, a2, ..., am)

и по данным случайной выборки х1, х2, ..., хn оценивают неизвестные параметры a1, a2, ..., am . Чаще всего параметрами являются генеральное среднее и дисперсия, а качестве оценки тогда используют выборочные характеристики: выборочное среднее и выборочную дисперсию.

Рассмотрим следующую задачу. Пусть имеется случайная величина Х и нам известен ее закон распределения f = f(x, a), который содержит один неизвестный параметр а. Требуется на основании выборочных данных х1, х2, ..., хn найти подходящую оценку параметра а. Для решения этой задачи построим следующую математическую модель. Пусть Х1, Х2, ..., Хn - независимые случайные величины, которые принимают соответствующие выборочные значения (для данной выборки значения х1, х2, ..., хn) и пусть случайная величина получена на основе случайных величин Х1, Х2, ..., Хn, то есть Будем считать, как и ранее, что случайные величины Х1, Х2, ..., Хn имеют один и тот же закон распределения с плотностью распределения величины Х (генеральной совокупности) f(x). Тогда является случайной величиной, закон распределения которой зависит от n и от f(x). Для того чтобы оценка имела практическую ценность она должна обладать следующими свойствами.

1. Несмещенность оценки. Оценка называется несмещенной, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности:

В противном случае оценка называется смещенной и допускает систематическую ошибку. Так, рассмотренное ранее среднее выборочное является несмещенной оценкой среднего генерального. В то же время выборочная дисперсия - является смещенной оценкой генеральной дисперсии.

2. Состоятельность оценки. Оценка называется состоятельной, если она по вероятности с увеличением объема выборки п стремится к параметру генеральной совокупности:

3. Эффективность оценки. Если составлять множество несмещенных и состоятельных оценок, то эти оценки будут иметь разные дисперсии. Ясно, что, чем меньше будет дисперсия, тем меньше будет вероятность грубой ошибки при определении приближенного параметра генеральной совокупности.

38. Генеральная и выборочная средние

Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений x1, x2, …xn случайной величины X, является выборкой, а гипотетически существующая (домысливаемая) -- генеральной совокупностью. Генеральная совокупность может быть конечной (число наблюдений N = const) или бесконечной (N = ?), а выборка из генеральной совокупности -- это всегда результат ограниченного ряда n наблюдений. Число наблюдений n, образующих выборку, называется объемом выборки. Если объем выборки n достаточно велик (n > ?) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины X объем выборки не превышает 30 (n <= 30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10). Выборка образует вариационный ряд, если ее члены являются порядковыми статистиками, т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами.

Пример. Практически одна и та же случайно отобранная совокупность объектов -- коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

39. Генеральная и выборочная дисперсии

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор, при котором n объектов случайно извлекаются из генеральной совокупности N объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема N подразделяется на подсовокупности или слои (страты) объема N1, N2, … Nn так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия -- по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными);

4. методы серийного отбора используются для формирования серийных или гнездовых выборок. Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый ) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной.

40. Оценка генеральной средней по выборочной средней

Случайная выборка из генеральной совокупности

Чтобы по выборке можно было делать выводы о свойствах всей генеральной совокупности, она должна быть представительной (репрезентативной). Это обеспечивается в тех ситуациях, когда выборка является случайной. Модель случайной выборки предъявляет к ней следующие требования:

1) каждый из объектов, составляющих генеральную совокупность, должен иметь одинаковую вероятность быть представленным в выборке;

2) все n измерений, образующих выборку, должны быть независимыми, т. е. результаты каждого измерения не должны зависеть от предыдущих измерений.

Существует два основных метода отбора объектов из генеральной совокупности в выборку: повторный и бесповторный.

При повторном отборе каждый объект после измерения значения признака возвращается в генеральную совокупность. При этом состояние генеральной совокупности перед каждым новым измерением восстанавливается и требование независимости всегда выполняется.

При бесповторном отборе после измерения объект не возвращается в генеральную совокупность. В этом случае соотношение значений признака в оставшейся части генеральной совокупности меняется, и, следовательно, проводимые измерения не являются независимыми, т. е. бесповоротный отбор не является случайным. На практике бесповоротный отбор используется чаще. Когда проводится измерение каких-то признаков, относящихся, например, к преступникам, выборка составляется таким образом, что после того, как очередной человек принял участие в измерениях, он уже не участвует в следующих измерениях.

Но, как правило, можно считать, что объем генеральной совокупности настолько велик, что при исключении из нее относительно малого числа единиц, составляющих выборку, состояние генеральной совокупности практически не меняется. При бесконечной генеральной совокупности различие между повторным и бесповторным отбором исчезает.

На практике используется несколько способов получения случайных выборок:

1. собственно случайная,

2. механический отбор.

3. типический отбор.

4. серийный отбор.

При проведении выборочных исследований предполагается, что выборка является однородной. Это означает, что она получена из одной генеральной совокупности, т. е. в исходной совокупности отсутствуют объекты, резко выделяющиеся по значениям изучаемого признака. Предположение об однородности выборки на практике обычно основывается на предварительном изучении условий эксперимента. Так, обычно есть уверенность в том, что полученные выборочные данные о количестве правонарушений представляют собой результаты измерений для одинаковых по численности городов.

41. Оценка генеральной дисперсии по исправленной выборочной дисперсии

Получим несмещенную оценку для генеральной дисперсии : Def: Статистику называют исправленной выборочной дисперсией.

Очевидно, что - несмещенная и состоятельная оценка для параметра :

Проверим несмещенность:

Замечание: так как при , то на практике для оценки применяют (3') ввиду ее удобства.

В качестве оценок для среднего квадратичного отклонения берут статистики и .Можно показать, что это - состоятельные оценки: но обе оценки будут смещенными:

Интервальные оценки неизвестных параметров распределения.

1) Интервальная оценка и ее надежность.

Рассмотрим выборку . Совокупность независимых случайных величин имеет тот же закон распределения, что и .

Пусть статистики такие, что всегда a<в, тогда (a,в)- случайный интервал.

- оцениваемый параметр.

Def: если случайный интервал (a,в)может покрывать неизвестный параметр , то этот интервал называется интервальной оценкой для параметра .

Пусть вероятность того, что параметр , тогда вероятность y называется надежностью или доверительной вероятностью интервальной оценки (a,в).

Естественно, что значения y берут близкими к единице. Обычно y берут 0.95, 0.99, 0.999.

С повышением надежности оценки увеличивается длина доверительного интервала.

2) Доверительный интервал для нормально распределенной случайной величины при известной дисперсии .

Рассмотрим случайную величину - известная величина. Требуется построить доверительный интервал . Для решения данной задачи рассмотрим статистику neX- выборочная средняя. Можно показать, что neXтакже подчинена нормальному закону.

Для нормального распределения случайной величины справедливо равенство:

- функция Лапласа.

Применим равенство (2) к выборочной средней:

Выберем E так, что бы заданная надежность оценки.

Из (3) имеем:

.

Итак, доверительный интервал для параметра a имеет вид:

Здесь t(y)выбирается из таблицы значений функций Лапласа:

3) Доверительный интервал для генеральной средней при неизвестной дисперсии .

Как и прежде

Рассмотрим статистику . Здесь - исправленная выборочная дисперсия. Доказано, что статистика имеет закон распределения с плотностью:

Bn- числа.

Распределение вероятностей, задаваемое плотностью (5) называют “t” - распределением или распределением Стьюдента с (n-1) степенью свободы.

Функция (5) является четной.

При “t” - распределение стремится к нормальному распределению.

Что бы записать доверительный интервал для генеральной средней, рассмотрим равенство:

Пользуясь таблицами t” - распределения по заданной надежности и числу степеней свободы (n-1), выбираем t(y,n) из условия (6):

В результате с надежностью y в силу (6) выполняется двойное неравенство:

Отсюда выражаем “a”:

42. Метод моментов для точечной оценки параметров распределения

Задача оценивания параметров распределения генеральной - одна из основных задач математической статистики. На содержательном уровне задача оценивания параметров распределения формулируется так: располагая выборкой реализаций случайной величины Х, необходимо получить оценку ne a неизвестного параметра генеральной совокупности а и ее статистические свойства.

Оценивание параметров распределения осуществляется в два этапа. На первом этапе, на основании выборки х1, х2, ... , ,хn ,строится статистика

,

значение которой при данной выборке х1, х2, ... , ,хn принимают за приближенное значение оцениваемого параметра а:

а.

Так как параметр генеральной совокупности оценивается числом, которое на числовой оси изображается точкой, то оценку называют точечной.

Для получения точечной оценки существует много статистик, которые могут быть использованы в качестве оценок. Поэтому второй этап оценивания состоит в выборе наилучшей оценки, что требует введения критерия качества получаемых оценок. Задача усложняется тем, что ввиду малого объема выборки требуется статистический подход к качеству оценки

По опытным данным (выборке) путем построения гистограммы или с помощью других средств можно попытаться выбрать вероятностную модель (определить закон распределения генеральной совокупности). При этом выборочные данные позволяют уточнить детали вероятностной модели. Знание вероятностной модели дает возможность прогнозировать будущие события, что важно для принятия решений. В приложениях обычно задаются определенным типом закона распределения генеральной совокупности (плотностью распределения) f = f(x; a1, a2, ..., am) и по данным случайной выборки х1, х2, ..., хn оценивают неизвестные параметры a1, a2, ..., am . Чаще всего параметрами являются генеральное среднее и дисперсия, а качестве оценки тогда используют выборочные характеристики: выборочное среднее и выборочную дисперсию.

Рассмотрим следующую задачу. Пусть имеется случайная величина Х и нам известен ее закон распределения f = f(x, a), который содержит один неизвестный параметр а. Требуется на основании выборочных данных х1, х2, ..., хn найти подходящую оценку параметра а. Для решения этой задачи построим следующую математическую модель. Пусть Х1, Х2, ..., Хn - независимые случайные величины, которые принимают соответствующие выборочные значения (для данной выборки значения х1, х2, ..., хn) и пусть случайная величина ne a получена на основе случайных величин Х1, Х2, ..., Хn, то есть Будем считать, как и ранее, что случайные величины Х1, Х2, ..., Хn имеют один и тот же закон распределения с плотностью распределения величины Х (генеральной совокупности) f(x). Тогда ne a является случайной величиной, закон распределения которой зависит от n и от f(x). Для того чтобы оценка ne a имела практическую ценность она должна обладать следующими свойствами.

1. Несмещенность оценки. Оценка называется несмещенной, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности:

В противном случае оценка называется смещенной и допускает систематическую ошибку. Так, рассмотренное ранее среднее выборочное является несмещенной оценкой среднего генерального. В то же время выборочная дисперсия - является смещенной оценкой генеральной дисперсии.

43. Метод наибольшего правдоподобия для точечной оценки параметров распределения

Точечная оценка предполагает нахождение единственной числовой величины, которая и принимается за значение параметра. Такую оценку целесообразно определять в тех случаях, когда объем ЭД достаточно велик. Причем не существует единого понятия о достаточном объеме ЭД, его значение зависит от вида оцениваемого параметра (к этому вопросу предстоит вернуться при изучении методов интервальной оценки параметров, а предварительно будем считать достаточной выборку, содержащую не менее чем 10 значений). При малом объеме ЭД точечные оценки могут значительно отличаться от истинных значений параметров, что делает их непригодными для использования.

Задача точечной оценки параметров в типовом варианте постановки состоит в следующем [3].

Имеется: выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки n фиксирован.

Известен вид закона распределения величины Х, например, в форме плотности распределения f(T, x), где T - неизвестный (в общем случае векторный) параметр распределения. Параметр является неслучайной величиной.

Требуется найти оценку q параметра T закона распределения.

Ограничения: выборка представительная.

Существует несколько методов решения задачи точечной оценки параметров, наиболее употребительными из них являются методы максимального (наибольшего) правдоподобия, моментов и квантилей.

Метод максимального правдоподобия. Метод предложен Р. Фишером в 1912 г. Метод основан на исследовании вероятности получения выборки наблюдений (x1, x2, …, xn). Эта вероятность равна f(х1, T) f(х2, T) … f(хп, T) dx1 dx2 … dxn.

Совместная плотность вероятности

L(х1, х2 …, хn ; T) = f(х1, T) f(х2, T) … f(хn, T),

рассматриваемая как функция параметра T, называется функцией правдоподобия.

Метод моментов

Метод предложен К. Пирсоном в 1894 г. Сущность метода:

выбирается столько эмпирических моментов, сколько требуется оценить неизвестных параметров распределения. Желательно применять моменты младших порядков, так как погрешности вычисления оценок резко возрастают с увеличением порядка момента;

вычисленные по ЭД оценки моментов приравниваются к теоретическим моментам;

параметры распределения определяются через моменты, и составляются уравнения, выражающие зависимость параметров от моментов, в результате получается система уравнений. Решение этой системы дает оценки параметров распределения генеральной совокупности.

Метод квантилей

Сущность метода квантилей схожа с методом моментов: выбирается столько квантилей, сколько требуется оценить параметров; неизвестные теоретические квантили, выраженные через параметры распределения, приравниваются к эмпирическим квантилям. Решение полученной системы уравнений дает искомые оценки параметров.

Дисперсия D(xa) выборочной квантили обратно пропорциональна квадрату плотности распределения D(xa)=[a (1-a )]/[nf 2(xa )] в окрестностях точки xa . Поэтому следует выбирать квантили вблизи тех значений х, в которых плотность вероятности максимальна.

Сущность задачи интервального оценивания параметров

Интервальный метод оценивания параметров распределения случайных величин заключается в определении интервала (а не единичного значения), в котором с заданной степенью достоверности будет заключено значение оцениваемого параметра. Интервальная оценка характеризуется двумя числами - концами интервала, внутри которого предположительно находится истинное значение параметра. Иначе говоря, вместо отдельной точки для оцениваемого параметра можно установить интервал значений, одна из точек которого является своего рода "лучшей" оценкой. Интервальные оценки являются более полными и надежными по сравнению с точечными, они применяются как для больших, так и для малых выборок. Совокупность методов определения промежутка, в котором лежит значение параметра Т, получила название методов интервального оценивания. К их числу принадлежит метод Неймана.

Общий метод построения доверительных интервалов

Метод позволяет по имеющейся случайной выборке построить функцию и (Т, q ), распределенную асимптотически нормально с нулевым математическим ожиданием и единичной дисперсией. В основе метода лежат следующие положения. Пусть:

f(х, q ) - плотность распределения случайной величины Х;

ln [L(x, q )] - логарифм функции правдоподобия;

; А2 =М(у)2 - дисперсия у. Если математическое ожидание М(у) = 0 и дисперсия у конечна, то распределение случайной величины w = асимптотически нормально с параметрами 0 и 1 при п ®Ґ .

44. Интервальные оценки параметров распределения

Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.

Пусть найденная по данным выборки статистическая характеристика служит оценкой неизвестного параметра . Будем считать постоянным числом ( может быть и случайной величиной). Ясно, что тем точнее определяет параметр , чем меньше абсолютная величина разности . Другими словами, если и , то чем меньше д , тем оценка точнее.

Таким образом, положительное число д характеризует точность оценки.

Однако статистические методы не позволяют категорически утверждать, что оценка удовлетворяет неравенству ; можно лишь говорить о вероятности г, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки называют вероятность г, с которой осуществляется неравенство .

Обычно надежность оценки задается наперед, причем в качестве г берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что, равна г:

Заменив неравенство равносильным ему двойным неравенством получим:

Это соотношение следует понимать так: вероятность того, что интервал заключает в себе (покрывает) неизвестный параметр , равна г.

Интервал называется доверительным интервалом, который покрывает неизвестный параметр с надежностью г.

45. Доверительные интервалы для параметров нормального распределения

Пусть количественный признак генеральной совокупности распределен нормально. Известно среднее квадратическое отклонение этого распределения - у. Требуется оценить математическое ожидание а по выборочной средней. Найдем доверительный интервал, покрывающий а с надежностью г. Выборочную среднюю ne x будем рассматривать как случайную величину ne X (ne x изменяется от выборки к выборке), выборочные значения признака - как одинаково распределенные независимые СВ с математическим ожиданием каждой а и средним квадратическим отклонением г. Примем без доказательства, что если величина Х распределена нормально, то и выборочная средняя тоже распределена нормально с параметрами

Потребуем, чтобы выполнялось равенство

Пользуясь формулой

заменив Х на ne X и у на , получим

где

Найдя из предыдущего равенства получим окончательную формулу:

Число t определяется из равенства по таблице функции Лапласа.

46. Виды зависимостей между случайными величинами

Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид, то такую форму представления изображают уравнением регрессии.

Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы:

установление значимости связи между ними;

возможность представления этой зависимости в форме математического выражения (уравнения регрессии).

Первый этап в указанном статистическом анализе касается выявления так называемой корреляции, или корреляционной зависимости. Корреляция рассматривается как признак, указывающий на взаимосвязь ряда числовых последовательностей. Иначе говоря, корреляция характеризует силу взаимосвязи в данных. Если это касается взаимосвязи двух числовых массивов xi и yi, то такую корреляцию называют парной.

При поиске корреляционной зависимости обычно выявляется вероятная связь одной измеренной величины x (для какого-то ограниченного диапазона ее изменения, например от x1 до xn) с другой измеренной величиной y (также изменяющейся в каком-то интервале y1 … yn). В таком случае мы будем иметь дело с двумя числовыми последовательностями, между которыми и надлежит установить наличие статистической (корреляционной) связи. На этом этапе пока не ставится задача определить, является ли одна из этих случайных величин функцией, а другая - аргументом. Отыскание количественной зависимости между ними в форме конкретного аналитического выражения y = f(x) - это задача уже другого анализа, регрессионного.

Таким образом, корреляционный анализ позволяет сделать вывод о силе взаимосвязи между парами данных х и у, а регрессионный анализ используется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную связь между анализируемыми совокупностями.

Строго говоря, принято различать два вида связи между числовыми совокупностями - это может быть функциональная зависимость или же статистическая (случайная). При наличии функциональной связи каждому значению воздействующего фактора (аргумента) соответствует строго определенная величина другого показателя (функции), т.е. изменение результативного признака всецело обусловлено действием факторного признака.

Аналитически функциональная зависимость представляется в следующем виде: y = f(x).

В случае статистической связи значению одного фактора соответствует какое-то приближенное значение исследуемого параметра, его точная величина является непредсказуемой, непрогнозируемой, поэтому получаемые показатели оказываются случайными величинами. Это значит, что изменение результативного признака у обусловлено влиянием факторного признака х лишь частично, т.к. возможно воздействие и иных факторов, вклад которых обозначен как є: y = ф(x) + є.

По своему характеру корреляционные связи - это соотносительные связи. Примером корреляционной связи показателей коммерческой деятельности является, например, зависимость сумм издержек обращения от объема товарооборота. В этой связи помимо факторного признака х (объема товарооборота) на результативный признак у (сумму издержек обращения) влияют и другие факторы, в том числе и неучтенные, порождающие вклад є.

Для количественной оценки существования связи между изучаемыми совокупностями случайных величин используется специальный статистический показатель - коэффициент корреляции r.

Если предполагается, что эту связь можно описать линейным уравне- нием типа y=a+bx (где a и b - константы), то принято говорить о существовании линейной корреляции.

Коэффициент r - это безразмерная величина, она может меняться от 0 до ±1. Чем ближе значение коэффициента к единице (неважно, с каким знаком), тем с большей уверенностью можно утверждать, что между двумя рассматриваемыми совокупностями переменных существует линейная связь. Иными словами, значение какой-то одной из этих случайных величин (y) существенным образом зависит от того, какое значение принимает другая (x).

Если окажется, что r = 1 (или -1), то имеет место классический случай чисто функциональной зависимости (т.е. реализуется идеальная взаимосвязь).

При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшим вариантом является линейная взаимосвязь, которая выражается в том, что точки размещаются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки расположены случайно, и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз).

Если точки на ней группируются вдоль кривой линии, то диаграмма рассеяния характеризуется нелинейной взаимосвязью. Такие ситуации вполне возможны.

47. Выборочные уравнения регрессии

Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, вообще говоря, необходимо знать и использовать все значения переменных генеральной совокупности, что практически невозможно. В связи с этим по выборке ограниченного объема строится так называемое выборочное (эмпирическое) уравнение регрессии. В силу несовпадения статистической базы для генеральной совокупности и выборки оценки коэффициентов, входящих в уравнение регрессии, практически всегда отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам. Задача состоит в том, чтобы по конкретной выборке найти оценки неизвестных параметров так, чтобы построенная линия регрессии являлась бы наилучшей, среди всех других линий.

Линейная регрессия

Если функция регрессии линейна, то говорят о линейной регрессии. Линейная регрессия (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими переменными. Для этого простейшего случая имеем:

или

Последнее соотношение называется теоретической линейной регрессионной моделью; коэффициенты b0, b1 - теоретическими параметрами регрессии; ei - случайным отклонением.

По выборке ограниченного объема строится выборочное уравнение регрессии:

,(1)

где b0, b1 - оценки неизвестных параметров b0, b1, называемые выборочными (эмпирическими) коэффициентами регрессии, - оценка условного математического ожидания . Для величин справедлива формула:

, (2)

где отклонение ei- оценка теоретического отклонения ei.

Построенная прямая выборочной регрессии должна наилучшим образом описывать эмпирические данные, т.е. коэффициенты b0, b1 должны быть такими, чтобы случайные отклонения ei были минимальны. Наиболее распространенным методом нахождения коэффициентов уравнения регрессии является метод наименьших квадратов (МНК).

48. Коэффициент корреляции

Коррелямция (корреляционная зависимость) -- статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения значений одной или нескольких из этих величин приводят к систематическому изменению значений другой или других величин.[1] Математической мерой корреляции двух случайных величин служит корреляционное отношение [2], либо коэффициент корреляции R(или r)[1]. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3].

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.[4]

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях -- корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.

Корреляция и взаимосвязь величин

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бомльшее количество пожарных приводит к бомльшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.[5]

В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Более тонкий инструмент для изучения связи между двумя случайными величинами является понятие взаимной информации.

Коэффициент ранговой корреляции Кендалла

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

,

где S = P ? Q.

P -- суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.

Q -- суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

t -- число связанных рангов в ряду X и Y соответственно.

Коэффициент ранговой корреляции Спирмена

Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности d и вычисляется коэффициент корреляции Спирмена:

Коэффициент корреляции знаков Фехнера

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

C -- число пар, у которых знаки отклонений значений от их средних совпадают.

H -- число пар, у которых знаки отклонений значений от их средних не совпадают.

Коэффициент множественной ранговой корреляции (конкордации)

m -- число групп, которые ранжируются.

n -- число переменных.

Rij -- ранг i-фактора у j-единицы.

Значимость:

, то гипотеза об отсутствии связи отвергается.

В случае наличия связанных рангов:

Свойства коэффициента корреляции

Неравенство Коши -- Буняковского:

если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши -- Буняковского будет:

.

Коэффициент корреляции равен +-1 тогда и только тогда, когда X и Y линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):

,

где . Более того в этом случае знаки и k совпадают:

.

Если X, Y независимые случайные величины, то . Обратное в общем случае неверно.

49. Линейная корреляция

КОРРЕЛЯЦИЯ ЛИНЕЙНАЯ - статистическая линейная связь (см.) непричинного характера между двумя количественными переменными (см.) х и у. Измеряется с помощью "коэффициента К.Л." Пирсона, который является результатом деления ковариации на стандартные отклонения обеих переменных:

,

где sxy - ковариация (см.) между переменными х и у;

sx, sy - стандартные отклонения (см.) для переменных х и у;

xi, yi - значения переменных х и у для объекта с номером i;

x, y - средние арифметические (см.) для переменных х и у.

Коэффициент Пирсона r может принимать значения из интервала [-1; +1]. Значение r = 0 означает отсутствие линейной связи между переменными х и у (но не исключает статистической связи нелинейной - см.). Положительные значения коэффициента (r > 0) свидетельствуют о прямой линейной связи; чем ближе его значение к +1, тем сильнее связь статистическая прямая (см.). Отрицательные значения коэффициента (r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r = ±1 означают наличие полной линейной связи, прямой или обратной. В случае полной связи все точки с координатами (xi, yi) лежат на прямой y = a + bx.

"Коэффициент К.Л." Пирсона применяется также для измерения тесноты связи в модели регрессии линейной парной (см.).

50. Статистическая гипотеза

Статистическая гипотеза

Статистическая гипотеза, предположительное суждение о вероятностных закономерностях, которым подчиняется изучаемое явление. Как правило, С. г. определяет значения параметров закона распределения вероятностей или его вид. С. г. называется простой, если она определяет единственный закон распределения; в ином случае С. г. называется сложной и может быть представлена как некоторый класс простых С. г. Например, гипотеза о том, что распределение вероятностей является нормальным распределением с математическим ожиданием а = а0 и некоторой (неизвестной) дисперсией s2 будет сложной, составленной из простых гипотез а = а0, (а0 и -- заданные числа).

51. Виды ошибок

Ошибки первого рода (англ. type I errors, б errors, false positives) и ошибки второго рода (англ. type II errors, в errors, false negatives) в математической статистике -- это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.

Определения

Пусть дана выборка из неизвестного совместного распределения PX, и поставлена бинарная задача проверки статистических гипотез:

H0, H1 где H0 -- нулевая гипотеза, а H1 -- альтернативная гипотеза. Предположим, что задан статистический критерий , сопоставляющий каждой реализации выборки X=xодну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:

Распределение PX выборки X соответствует гипотезе H0, и она точно определена статистическим критерием, то есть f(x)=Ho.

Распределение PXвыборки соответствует гипотезе H0, но она неверно отвергнута статистическим критерием, то есть f(x)=H1.

Распределение PXвыборки Xсоответствует гипотезе H1, и она точно определена статистическим критерием, то есть f(x)=H1.

Распределение Pxвыборки Xсоответствует гипотезе H1, но она неверно отвергнута статистическим критерием, то есть f(x)=H0.

Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно.

Вероятности ошибок (уровень значимости и мощность)

Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают греческой буквой б (отсюда название б-errors).

Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой в (отсюда в-errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение -- мощность критерия. Она вычисляется по формуле (1 ? в). Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.

Обе эти характеристики обычно вычисляются с помощью так называемой функции мощности критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для последовательных критериев это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы).

В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности -- к увеличению риска ошибки второго рода (пропуск запрещённого предмета).


Подобные документы

  • Основные понятия комбинаторики. Определение теории вероятности. Понятие математического ожидания и дисперсии. Основные элементы математической статистики. Условная вероятность как вероятность одного события при условии, что другое событие уже произошло.

    реферат [144,6 K], добавлен 25.11.2013

  • Классификация случайных событий. Функция распределения. Числовые характеристики дискретных случайных величин. Закон равномерного распределения вероятностей. Распределение Стьюдента. Задачи математической статистики. Оценки параметров совокупности.

    лекция [387,7 K], добавлен 12.12.2011

  • Основные методы формализованного описания и анализа случайных явлений, обработки и анализа результатов физических и численных экспериментов теории вероятности. Основные понятия и аксиомы теории вероятности. Базовые понятия математической статистики.

    курс лекций [1,1 M], добавлен 08.04.2011

  • Сходимость последовательностей случайных величин. Центральная предельная теорема для независимых одинаково распределенных случайных величин. Основные задачи математической статистики, их характеристика. Проверка гипотез по критерию однородности Смирнова.

    курсовая работа [1,6 M], добавлен 13.11.2012

  • Определение вероятности наступления определенного события по законам теории вероятности. Вычисление математического ожидания, дисперсии и среднего квадратичного отклонения. Нахождение выборочного уравнения регрессии по данным корреляционной таблицы.

    контрольная работа [212,0 K], добавлен 01.05.2010

  • Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.

    курсовая работа [988,5 K], добавлен 19.01.2011

  • Возникновение теории вероятностей как науки, вклад зарубежных ученых и Петербургской математической школы в ее развитие. Понятие статистической вероятности события, вычисление наивероятнейшего числа появлений события. Сущность локальной теоремы Лапласа.

    презентация [1,5 M], добавлен 19.07.2015

  • Вероятность события. Теоремы сложения и умножения событий. Теорема полной вероятности события. Повторные независимые испытания. Формула Бернулли, формула Пуассона, формула Муавра-Лапласа. Закон распределения вероятностей случайных дискретных величин.

    контрольная работа [55,2 K], добавлен 19.12.2013

  • Изучение закономерностей массовых случайных явлений. Степень взаимосвязи теории вероятностей и статистики. Невозможные, возможные и достоверные события. Статистическое, классическое, геометрическое, аксиоматическое определение вероятности. Формула Бейеса.

    реферат [114,7 K], добавлен 08.05.2011

  • Классическая формула для вероятности события, отношение благоприятного числа исходов опыта к общему числу всех равновозможных несовместных исходов. Понятие непрерывной и дискретной случайной величины, их числовые характеристики и законы распределения.

    презентация [5,5 M], добавлен 19.07.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.