Главная База знаний "Allbest" Математика Парадокси в математичній статистиці

Парадокси в математичній статистиці

Основні поняття математичної статистики. Оцінювання параметрів розподілів. Метод максимальної правдоподібності. Парадокси оцінок математичного сподівання та дисперсії, Байєса, методу найменших квадратів, кореляції, перевірки гіпотез та їх пояснення.

Рубрика	Математика
Вид	дипломная работа
Язык	украинский
Дата добавления	12.08.2010
Размер файла	1,1 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Міністерство освіти і науки України

Дніпропетровський національний університет ім. О. Гончара

Дипломна робота

Парадокси в математичній статистиці

Виконавець:

студентка групи МС-08-1с Хмара М.С.

"__"________2009р.

Керівник роботи:

Дніпропетровськ 2009

Реферат

Дипломна робота містить: 87 сторінок, 7 джерел, 2 рисунки.

Об'єктом дослідження є парадокси математичної статистики.

Мета роботи: пояснити парадокси математичної статистики.

Методика дослідження: оцінювання параметрів розподілів.

Результати досліджень можуть бути застосовані при читанні лекцій з дисципліни "Математична статистика" у вищих навчальних закладах як ілюстративний матеріал основних понять математичної статистики, таких як точкові оцінки, оцінки мінімальної дисперсії, метод максимальної правдоподібності, метод найменших квадратів.

Перелік ключових слів: ВИБІРКА, НЕРІВНІСТЬ КРАМЕРА - РАО, ОЦІНКА, МАТЕМАТИЧНЕ СПОДІВАННЯ, ФОРМУЛА БАЙЄСА, МЕТОД НАЙМЕНШИХ КВАДРАТІВ, МЕТОД МАКСИМАЛЬНОЇ ПРАВДОПОДІБНОСТІ.

Зміст

Вступ

Розділ І. Основні поняття математичної статистики

1.1 Нерівність Крамера - Рао (розподіл дискретний)

1.2 Теорема 1.2.2 (нерівність Крамера - Рао, розподіл дискретний)

1.3 Метод максимальної правдоподібності

Розділ ІІ. Парадокси в математичній статистиці

2.1 Парадокс оцінок математичного сподівання

2.1.1 Історія парадоксу

2.1.2 Парадокс

2.1.3 Пояснення парадоксу

2.2 Парадокс Байєса

2.2.1 Історія парадоксу

2.2.2 Парадокс

2.2.3 Пояснення парадоксу

2.3 Парадокс методу найменших квадратів

2.3.1 Історія парадоксу

2.3.2 Парадокс

2.3.3 Пояснення парадоксу

2.4 Парадокс оцінок дисперсії

2.4.1 Історія парадоксу

2.4.2 Парадокс

2.4.3 Пояснення парадоксу

2.5 Парадокс кореляції

2.5.1 Історія парадоксу

2.5.2 Парадокси

2.5.3 Пояснення парадоксів

2.5.4 Зауваження

2.6 Парадокси регресії

2.6.1 Історія парадокса

2.6.2 Парадокси

2.6.3 Пояснення парадоксів

2.7 Парадокси достатності

2.7.1 Історія парадоксу

2.7.2 Парадокс

2.7.3 Пояснення парадоксу

2.7.4 Зауваження

2.8 Парадокси методу максимальної правдоподібності

2.8.1 Історія парадоксу

2.8.2 Парадокси

2.8.3 Пояснення парадоксів

2.9 Парадокс інтервальних оцінок

2.9.1 Історія парадоксу

2.9.2 Парадокс

2.9.3 Пояснення парадоксу

2.9.4 Зауваження

2.10 Парадокс - критерію Стьюдента

2.10.1 Історія парадокса

2.10.2 Парадокс

2.10.3 Пояснення парадоксу

2.10.4 Зауваження

2.11 Парадокс перевірки гіпотез

2.11.1 Історія парадоксу

2.11.2 Парадокс

2.11.3 Пояснення парадоксу

Висновки

Список використаних джерел

Приложение

Вступ

Статистика - це фізика чисел

П. Діаконіс

Спочатку статистика була “державною арифметикою". Саме слово “статистика" походить від латинського слова status - держава. З найдавніших часів статистику використовували для того, щоб інформувати володарів держав про величину податку, який можна зібрати з громадян, або про кількість солдат, на яку можна розраховувати у воєнний час. Перший англійський статистичний документ “Книга судного дня", написаний в ХІ віці, також виник у зв'язку з потребами армії і податкообкладання. Статистика стала наукою аж в ХVІІ віці. Її основоположниками є Джон Граунт (1620 - 1674) і сер Вільям Петті (1623 - 1687). В роботі Петті “Політична арифметика” Англія, Голландія і Франція порівнювалися за їх населенням, торгівлею і судноплавством. З розвитком капіталізму статистичними даними стали цікавитися не тільки державні діячі. Поступово розвиваючись, математична статистика перетворилася в самостійну галузь математики. Математична статистика багата на парадокси. Ейрес стверджував, що 50 найбільш часто вживаних слів складають приблизно 50% звичайного тексту, 300 найбільш часто вживаних слів складають 75% тексту, а 1000 найбільш часто вживаних слів складають 90%. Не дивлячись на цей факт, не можна сказати, що коли нам відомі 50 чи 100 слів якоїсь мови, то ми вже наполовину її розуміємо, оскільки знання деяких слів, навіть якщо вони часто вживаються, навряд чи допоможе в розумінні будь-якого тексту. Не дивно, що багато людей вважають, що існує три види неправди: невинний обман, нахабна брехня і статистика.

Розділ І. Основні поняття математичної статистики

Точкові оцінки.

Означення. Випадковий вектор зі значеннями в просторі називатимемо вибіркою (вибірковим вектором).

Вибірку утворену послідовністю незалежних однаково розподілених випадкових величин , кожна з яких має розподіл , називають вибіркою з розподілу (закону) обсягом .

Множину усіх можливих значень вибірки (вибіркового вектора) будемо називати вибірковим простором (далі вибірковий простір - це або його підмножина).

Ми розглядатимемо вибірки, розподіли (функції розподілу) яких залежать від параметра . Множина можливих значень параметра є підмножиною скінчено-вимірного простору .

Постановка задачі оцінювання параметрів розподілів. Нехай - реалізація вибірки з розподілом . Розподіл залежить від параметра , який набуває значень із множини . Значення параметра невідоме і його необхідно оцінити (визначити) за реалізацією вибірки . У цьому і полягає задача оцінювання параметрів розподілів.

Єдине, що нам відомо для оцінювання невідомого параметра - це реалізація вибірки . Крім реалізації вибірки ми не маємо нічого, що несло б інформацію про значення параметра . Тому "оцінити (визначити) за реалізацією (точно чи хоча б наближено)" означає поставити у відповідність реалізації вибірки значення параметра . Формально це означає, що для оцінювання на вибірковому просторі - множині реалізації вибірок - необхідно визначити (побудувати, задати) функцію зі значеннями в - множині можливих значень параметра - таку, що дорівнює або хоча б наближено дорівнює . Значення ми й будемо використовувати як . Зазначимо, що для кожної реалізації значення , яке використовується як , буде своє; тому як функція є випадковою величиною.

Означення. Борелеву функцію , задану на вибірковому просторі , зі значеннями в - множині можливих значень параметра - будемо називати статистикою, а - борелеву функцію від вибірки - оцінкою.

Будувати статистики , такі щоб тобто статистики, з допомогою яких за можна було б точно визначити , явно не вдасться вже хоча б тому, що є константою, а оцінка як функція вибірки (випадкової величини) є випадковою величиною. Тож подобається нам чи ні, для визначення ми будемо змушені вдовольнятися оцінками , як наближеними значеннями .

Зазначимо, що для одного й того самого параметра можна запропонувати багато оцінок.

Похибки оцінювання параметрів. У зв'язку з постановкою задачі оцінювання параметрів розподілів як задачі знаходження наближених значень параметра треба вміти відповідати на запитання: наскільки великою є похибка при заміні на , інакше кажучи, як далеко можуть відхилятися значення оцінки , обчисленої за вибіркою , відповідної величини ?

Від оцінки , яка пропонується для оцінювання того чи іншого параметра, природно вимагати малого розсіювання її значень, іншими словами концентрації їх у вузькому колі. Як кількісну міру розсіювання значень випадкової величини розглядатимемо (для наочності - одновимірний параметр).

Кількісно міру похибки при заміні на (міру розсіювання відносно ) будемо описувати величиною

Серед усіх оцінок з однією і тією самою дисперсією (мірою розсіювання) мінімальну міру розсіювання відносно мають оцінки, для яких . Останнє випливає з рівностей

Означення. Оцінку будемо називати незміщеною оцінкою параметра , якщо , або, що те саме,

Наочно незміщеність оцінки параметра можна трактувати так: за багаторазового використання оцінки як значення , тобто за багаторазової заміни на , середнє значення похибки дорівнює нулеві.

Часто розглядають не одну оцінку , побудовану за вибіркою , а послідовність оцінок У цій ситуації природно говорити про асимптотичну поведінку послідовності оцінок.

Означення. Послідовність оцінок будемо називати спроможною послідовністю оцінок параметра , якщо для кожного

при , або, що те саме, збігається за ймовірністю до , при .

Означення. Послідовність оцінок називатимемо асимптотично незміщеною послідовністю оцінок параметра , якщо при , або, що те саме, при .

Оцінки мінімальної дисперсії.

Основне питання задачі оцінювання параметрів розподілів - наскільки великою є похибка при заміні параметра оцінкою .

Оцінки , що пропонуються для оцінювання параметра , повинні бути незміщеними, тобто .

Такі оцінки мають меншу міру розсіювання відносно порівняно з оцінками, для яких .

Для оцінювання параметра можна запропонувати багато незміщених оцінок. Із сукупності таких оцінок природно вибрати ті, що мають мінімально можливу міру розсіювання (дисперсію).

Означення. Незміщену оцінку параметра будемо називати його найкращою оцінкою, оцінкою мінімальної дисперсії або ефективною оцінкою, якщо .

У зв'язку з цим означенням природно виникає питання: наскільки малою може бути мінімально можлива дисперсія оцінки (наскільки малими можуть бути відхилення від )? Виявляється, що коли сукупність розподілів , вибірки досить регулярно залежить від оцінюваного параметра , то можна вказати нижню межу дисперсії всіх незміщених оцінок параметра (нерівність Крамера - Рао). У деяких випадках існують оцінки параметра, на яких нижня межа досягається. Ці оцінки є ефективними. Порівнюючи дисперсію даної оцінки з нижньою межею дисперсій незміщених оцінок, можна з'ясувати, наскільки оцінка близька до найкращої можливої. Докладніше.

Нехай вибірка фіксованого обсягу має щільність розподілу .

Параметр будемо вважати одновимірним, а щодо множини його можливих значень припустимо, що вона є скінченим інтервалом числової прямої.

Лема 1.2.1 Якщо майже для всіх існують похідні

і , ,

мажорові інтегрованими функціями:

і виконуються умови

; , ,

то для всіх

Означення. Функцію

(коли вона визначена) називають інформацією за Фішером.

У лемі 1.2.1 наведено достатні умови, за яких інформація існує. Зазначимо, що

Теорема 1.2.1 (нерівність Крамера - Рао). Нехай задовольняються умови леми 1.2.1 і

незміщена оцінка параметра така, що функція

мажоровна інтегрованою функцією:

Тоді (1.2.1)

причому рівність в (1.2.1) досягається тоді і тільки тоді, коли можна подати у вигляді

Наслідок 1. Якщо оцінка задовольняє умови теореми і для неї нерівність Крамера - Рао перетворюється на рівність, то є ефективною оцінкою параметра .

Наслідок 2. Якщо оцінка задовольняє умови теореми, а статистика - умову

де - щільність розподілу вибірки , то - незміщена й ефективна оцінка параметра .

Наслідок 3. Нехай вибірка з розподілу з щільністю , причому для сумісної щільності

випадкові величини виконані умови теореми. Тоді нерівність Крамера - Рао можна переписати у вигляді

.

1.1 Нерівність Крамера - Рао (розподіл дискретний)

Нерівність Крамера - Рао і твердження, аналогічні наведеним вище, мають місце також тоді, коли розподіл вибірки дискретний, тобто існує не більше ніж злічена множина точок , для яких

Лема 1.2.2 (розподіл дискретний).

Якщо для всіх можливих значень вибірки існують похідні

і , ,

Ряди

і

збігаються абсолютно й рівномірно відносно і виконуються умови

,

то для всіх

1.2 Теорема 1.2.2 (нерівність Крамера - Рао, розподіл дискретний)

Нехай задовольняються умови леми 1.2.2 і - незміщена оцінка параметра така, що для всіх можливих значень вибірки ряд

збігається абсолютно й рівномірно відносно . Тоді

причому рівність справджується тоді, коли можна подати у вигляді

Наслідок 1. Якщо оцінка задовольняє умови теореми і для неї нерівність Крамера - Рао

перетворюється на рівність, то є ефективною оцінкою параметра .

Наслідок 2. Якщо оцінка задовольняє умови теорем, а статистика - умову

де - розподіл вибірки , то - незміщена й ефективна оцінка параметра .

Наслідок 3. Нехай - вибірка з дискретного розподілу і для сумісного розподілу

випадкових величини виконані умови теореми, тоді нерівність Крамера - Рао можна записати у вигляді

.

1.3 Метод максимальної правдоподібності

Нехай - вибірка із розподілом , що залежить від параметра Параметр невідомий і його необхідно оцінити за вибіркою .

Означення. Функцією максимальної правдоподібності вибірки будемо називати функцію параметра , що визначається рівністю , , якщо вибірковий вектор абсолютно неперервний зі щільністю і рівністю , , якщо вибірковий вектор дискретний з розподілом .

Метод максимальної правдоподібності побудови оцінок полягає в тому, що за оцінку параметра вибирається точка , в якій функція максимальної правдоподібності досягає найбільшого значення.

Означення. Оцінкою максимальної правдоподібності будемо називати точку , в якій функція максимальної правдоподібності досягає найбільшого значення.

Іншими словами, оцінкою максимальної правдоподібності параметра будемо називати відмінні від константи розв'язки рівняння

,

якщо такі розв'язки існують. Корені, які не залежать від вибірки , тобто мають вигляд , де - константа, слід відкинути (оцінка - це функція вибірки).

Логарифм від функції максимальної правдоподібності називають логарифмічною функцією максимальної правдоподібності.

Зазначимо, що функції та досягають найбільшого значення в одній і тій самій точці. А відшукати точку, в якій функція досягає найбільшого значення, часто зручніше.

Якщо функція диференційована по , то для того щоб розв'язати рівняння

(1.3.1)

достатньо знайти стаціонарні точки функції

,

розв'язуючи рівняння

і, порівнюючи значення функції у стаціонарних точках і на межі множини , вибрати точку , в якій функція , досягає найбільшого значення. Ця точка і буде розв'язком рівняння (1.3.1).

Рівняння

називають рівняннями максимальної правдоподібності.

Метод найменших квадратів.

Нехай - незалежні нормально розподілені випадкові величини з однаковою дисперсією

та середніми лінійними по параметру :

де - відомі, не випадкові величини, а - невідомі параметри, які слід оцінити. Кожну випадкову величину можна представити:

де - похибки спостережень та вони всі різні. Відносно припускається:

1) - незалежні випадкові величини, ;

2) ;

3) , , - не корельовані (це означає, що та не пов'язані між собою лінійною залежністю).

;

4) ~.

МНК - оцінкою параметрів називають точку , в якій функція

досягає мінімального значення.

Диференціюємо цю функцію за параметрами :

,

.

Прирівнюємо похідні нулеві:

Розглянемо систему рівнянь:

Виразимо з цієї системи параметри :

,

,

,

,

.

Отже МНК - оцінками параметрів є

,

.

Розділ ІІ. Парадокси в математичній статистиці

2.1 Парадокс оцінок математичного сподівання

2.1.1 Історія парадоксу

Зрівнювання протилежних значень і відхилень в "середньому", тобто підсумовування спостережень до одного значення має давні традиції. Есхіл писав у трагедії "Евменіди": "Богу завжди середина люб'язна, і міру поважає божество", а послідовники китайського філософа Конфуція говорять, що "у нерухомості середнього є найбільша досконалість". Поняття "середнього" можна інтерпретувати в різний спосіб (середнє арифметичне, середнє геометричне, медіана і т. ін). Але у практичних застосуваннях протягом тривалого часу вкрай важливу роль відігравало середнє арифметичне. Вже в перших результатах теорії ймовірностей і математичної статистики вивчалося середнє арифметичне вибірки.

2.1.2 Парадокс

Нехай - реалізація вибірки з розподілу . Розподіл залежить від параметра , що набуває значень з деякої множини можливих значень . Значення параметра в розподілі невідомо, і його необхідно оцінити за реалізацією вибірки .

Якщо за розподіл обрати нормальний розподіл , то оцінка

незміщена, спроможна, ефективна оцінка для параметра . Для розподілу ж , відмінного від нормального, оцінка не є незміщеною оцінкою з найменшою дисперсією.

У цьому і полягає парадокс оцінки математичного сподівання.

2.1.3 Пояснення парадоксу

Нехай - вибірка з нормального розподілу з параметрами . Порахуємо математичне сподівання оцінки :

тому - незміщена оцінка для параметра .

З'ясуємо, чи є спроможною оцінкою параметра , тобто чи збігається за ймовірністю до . Для досить малих маємо:

в силу закону великих чисел. Останнє означає, що є спроможною оцінкою параметра .

Покажемо, що незміщена оцінка з найменшою дисперсією:

.

Умова обертання нерівності Крамера - Рао (дивитися підрозділ 1.2) в рівність говорить, що якщо статистика , така, що

де - щільність розподілу вибірки , то - незміщена й ефективна оцінка параметра .

Обчислимо :

== ==

== ==

=== =

= = ,

тому - ефективна оцінка для параметра .

Розглянемо сім'ю розподілів на , які залежать від параметра і задаються щільністю , .

Кількість інформації за Фішером визначимо

. (2.1.3.1)

За умов, що ми вважаємо, що підінтегральний вираз дорівнює нулеві. Отже,

Теорема 2.1.3.1 (Каган, Лінник, Рао) [1] У класі щільностей , зі скінченою дисперсією , що задовольняють умови

1. - неперервно-диференційована функція. (2.1.3.2)

2. при (2.1.3.3)

нерівність Крамера-Рао обертається на рівність на гауссівському розподілі.

Доведення. Будемо вважати, що

Позначимо множину точок , для яких через .

Оскільки неперервна, то - відкрита множина, і отже, можна подати як об'єднання відкритих інтервалів, що не перетинаються:

.

Інтегрування за частинами дає

,

.

Звідси . (2.1.3.4)

Скористаємось нерівністю Коші - Буняковського для інтегралів

.

Позначимо

, .

Тоді з (2.1.3.4) маємо

.

Отже,

,

.

При цьому знак рівності досягається тоді й тільки тоді, коли при деякій постійній

.

Знайдемо щільність з рівності:

. (2.1.3.5)

Розв'язуючи диференціальне рівняння маємо:

.

Для знаходження сталих скористаємося тим, що (інтеграл від щільності дорівнює 1), (математичне сподівання дорівнює 0), (дисперсія скінчена і дорівнює ).

Розв'язуючи рівняння:

Знаходимо

Отже, маємо щільність нормального розподілу з параметрами :

.

Теорема доведена.

Зауваження 1. Нерівність Крамера - Рао (1.2.1) в теоремі набуває вигляду .

Дійсно, згідно з наслідком 3 з теореми (нерівність Крамера - Рао)

Порахуємо :

Підставляємо в нерівність:

або,

,

або,

Зауваження 2. З одного боку

З іншого боку

.

Знак рівності в нерівності Крамера - Рао досягається тоді й тільки тоді, коли

,

або,

або,

В частинному випадку для щільності , розподілу маємо

2.2 Парадокс Байєса

2.2.1 Історія парадоксу

Томас Байєс, учень де Муавра, є одним з видатних засновників математичної статистики. Його теорема, доведена близько 1750 р. і опублікована лише після його смерті, стала джерелом деяких суперечок в статистиці. Вони не припинилися й досі. Більш того, теоретична прірва між послідовниками байєсівського й антибайєсівського підходів продовжує збільшуватися. Сформулюємо теорему Байєса.

Нехай та - довільні події, які мають імовірності та відповідно. Позначимо через ймовірність перетину подій та , - умовна імовірність події , якщо відомо, що подія відбулася. Якщо події - утворюють повну групу подій, тобто

1) - попарно неперетинні ( ),

2) ,

То

, ,

Остання формула називається формулою Байєса. Вона показує, як за апріорними ймовірностями подій (імовірностями подій відомими до того, як подія відбулася) знайти апостеріорні ймовірності подій (ймовірності подій після того, як подія відбулася).

Сама теорема безперечна, але в більшості її застосувань апріорні імовірності невідомі. В цьому випадку, як правило, вважають, що, оскільки відсутня попередня інформація про події , то усі ймовірності рівні, але такий підхід, взагалі кажучи, неприйнятний.

Байєс використовував свою теорему у випадках, коли апріорні імовірності були випадковими величинами, зокрема, рівномірно розподіленими на інтервалі .

Нехай - випадкова величина зі щільністю

.

Позначимо через - подію, яка полягає у тому, що у випробовуваннях Бернуллі подія відбулась разів, при цьому ймовірність події дорівнює .

Умовна щільність випадкової величини дорівнює

(2.2.1 1)

Де - це умовна ймовірність події за умов, що набуло значення дорівнює

. Тоді

(2.2.1 2)

І ймовірність того, що дорівнює

. (2.2.1 3)

Байєс висунув ідею про те, що якщо ми не маємо ніякої попередньої інформації про , апріорна щільність випадкової величини рівномірна на усьому інтервалі . Наприклад, якщо , , , , то за наведеною вище формулою (2.2.1 3), імовірність того, що більше , дорівнює . Дійсно,

Не всі довіряють цьому результату, зокрема, тому, що мають сумніви щодо рівномірності апріорного розподілу.

Незнання апріорного розподілу виявилось настільки руйнівним для обґрунтування статистичних виводів з теореми Байєса, що ця теорема була майже виключена зі статистичних досліджень. Але в другій третині ХХ століття байєсівський підхід знову здобув розвитку, завдяки важливій ролі, яку він відіграє при пошуку допустимих та мінімаксних оцінок. Все більш розповсюджувалась точка зору про те, що послідовне застосування формули Байєса (коли після кожного експерименту апостеріорні ймовірності переоцінюють і на наступному кроці вони використовуються як апріорні імовірності) знижує роль вихідного апріорного розподілу, оскільки після багаторазового переоцінювання вихідний апріорний розподіл не впливає на заключний апостеріорний розподіл.

(Очевидно, що деякі випадки не розглядаються, наприклад, коли значення дорівнює , а апріорний розподіл рівномірний на відрізку , що не містить точку ).

2.2.2 Парадокс

Нехай можливими значеннями випадкової величини є цілі числа. Припустимо, що ймовірнісний розподіл залежить від параметру , який належить відрізку . Якщо вибірка здобута з невідомого розподілу (розподілу з невідомим параметром ), то послідовність апостеріорних розподілів (які обчислені за вихідним апріорним розподілом)

.

концентрується навколо істинного значення невідомого параметра .

Парадоксально, але це не завжди вірно. Наприклад, істинне значення параметра може дорівнювати , а послідовність апостеріорних розподілів (при збільшенні числа спостережень ) все більше зосереджується, наприклад, біля .

2.2.3 Пояснення парадоксу

Парадоксальність ситуації полягає в тому, що очікується, що функція апостеріорної щільності буде набувати найбільше значення в околі істинного значення , тобто поблизу . Однак це міркування не суперечить тому, що функції апостеріорної щільності можуть усе більш зосереджуватись поблизу . Якщо число можливих значень величини скінченне, то такий випадок неможливий, але коли значеннями можуть бути будь-які цілі числа, парадоксальна ситуація може відбутися.

Нехай апріорний розподіл параметра рівномірний на відрізку . Визначимо функцію на цьому відрізку таким чином, що значеннями завжди є натуральні числа, за виключенням точок та , де . Нехай розподіл випадкової величини (який залежить від ) має вигляд

,

де є константою, для якої

.

При відповідному виборі вказана вище парадоксальна ситуація здійснена. [5]

Найбільшого розповсюдження набули три точкові оцінки параметра .

1. Мода. Оцінка параметра обирається виходячи з максимуму апостеріорної щільності, тобто

(2.2.3.1)

2. Медіана. Оцінка параметра обирається виходячи з рівності

,

або

3. Середнє. Оцінка параметра обирається як математичне сподівання

2.3 Парадокс методу найменших квадратів

2.3.1 Історія парадоксу

Через помилки вимірювань часто здається, що теоретичні формули й емпіричні дані суперечать одне одному. На початку минулого століття Лежандр, Гаус і Лаплас запропонували ефективний метод, що дозволяє зменшити вплив помилок вимірювань. Лежандр розробив і застосував цей метод у 1805 р. для знаходження орбіт комет. Початківцями цієї теорії були Галілей (1632), Ламберт (1760), Ейлер (1778) та інші. Новий метод, названий методом найменших квадратів, детально досліджував Гаус в своїй роботі “Теорія руху небесних тіл" (1809). Саме Гаус вказав на ймовірнісний характер цього методу. Хоча Лежандр і звинувачував Гауса в плагіаті, але він не міг пред'явити для цього достатні підстави. Гаус претендував на пріоритет лише у використанні методу, а не в його публікації. Лаплас опублікував свою основну роботу з теорії ймовірностей в 1812 р., присвятивши його “великому Наполеону”. Протягом всієї четвертої глави його роботи йде викладення числення похибок. З того часу метод найменших квадратів розвинувся в новий розділ математики.

Можливості методу часом переоцінюють і часто використовують тоді, коли інші методи підходили б більше. На цю проблему звертав увагу ще Коші (1853) під час “дебатів” з Бўєнеме.

2.3.2 Парадокс

Нехай - вибірка, утворена незалежними випадковими величинами зі щільністю

,

Ми маємо можливість спостерігати . За результатами спостережень необхідно оцінити невідомий параметр (параметри a, b вважаємо відомими). Оцінка параметра за методом найменших квадратів дорівнює

. (2.3.2.1)

Оцінка параметра за методом максимальної правдоподібності дорівнює

(2.3.2.2)

Оцінка параметра за МНК - методом не збігається з оцінкою, здобутою за методом максимальної правдоподібності.

Яка з них краще?

2.3.3 Пояснення парадоксу

Спочатку знайдемо оцінку параметра МНК - методом.

МНК - оцінкою параметра називають точку, в якій функція

(2.3.3.1)

досягає найменшого значення.

Обчислимо :

Порахуємо кожен інтеграл окремо:

перший інтеграл дорівнює

;

другий інтеграл дорівнює

;

третій інтеграл дорівнює

;

четвертий інтеграл дорівнює

.

Тоді маємо

.

Підставляємо в формулу (2.3.3.1):

.

Візьмемо похідну від функції по параметру :

.

Прирівнюємо похідну нулеві:

, .

Звідси знаходимо оцінку для параметра :

.

Знайдемо оцінку параметра за методом максимальної правдоподібності. [4] Випишемо функцію максимальної правдоподібності

.

Функція набуває максимального значення за умови, що набуває мінімального значення.

Нехай варіаційний ряд послідовності .

Розглянемо два випадки: n=2k-1; n=2k.

Нехай n=2k-1. На кожному з проміжків функція

лінійна. Причому на проміжку , , спадає (кутовий коефіцієнт - коефіцієнт при - від'ємний), і на кожному з проміжків , зростає. Отже, найменше значення неперервна функція досягає в точці . Нехай n=2k. Тоді на кожному з проміжків , …, , функція спадає, на проміжку - постійна і на , …,, зростає. Отже, найменше значення функція досягає в кожній точці проміжку .

Отже, за методом максимальної правдоподібності оцінкою параметра

є

Якщо - результати спостережень - розподілені нормально (щільність розподілу має вигляд , ), то згідно з МНК - методом та методом максимальної правдоподібності оцінкою параметра є

.

В методі найменших квадратів Гаусс виходив з припущення про нормальний розподіл похибок (і відповідно результатів спостережень), що на практиці зустрічається дуже часто. Якщо відомо, що розподіл похибок відмінний від нормального, використовувати МНК - метод для оцінювання параметрів не рекомендують. У вказаному вище парадоксі вживання оцінки більш виправдано.

Використовуючи стандартні поняття математичної статистики, парадокс можна коротко сформулювати наступним чином: оцінка за методом найменших квадратів не завжди збігається з оцінкою максимальної правдоподібності. Дійсно, якщо - додатна щільність, напівнеперервна знизу в точці ; - щільність розподілу вимірювань і є оцінка максимальної правдоподібності параметра для , то є щільністю нормального розподілу з нульовим середнім. Це - закон Гауса про похибки, який можна довести наступним чином: якщо припустити для простоти, що існує похідна , і добуток максимальний за умови, що , то

,

тобто (позначаючи ) з рівності випливає , що можливо при лише тоді, коли ; звідки випливає, що , де і - додатні числа (інакше функція не була б щільністю).

Таким чином, оцінка параметра зсуву за методом найменших квадратів збігається з оцінкою максимальної правдоподібності лише для нормальних розподілів.

2.4 Парадокс оцінок дисперсії

2.4.1 Історія парадоксу

Найважливішою характеристикою випадкових величин і їх розподілів разом з математичним сподіванням є дисперсія.

Нехай вибірка з розподілу . Якщо дисперсія розподілу скінчена, то при відомому математичному сподіванні розподілу вибіркова дисперсія

є незміщеною оцінкою дисперсії . Дійсно,

.

Ситуація змінюється, коли математичне сподівання розподілу невідоме і за оцінку математичного сподівання розглядається оцінка

.

Тоді вибіркова дисперсія

вже не є незміщеною оцінкою. Дійсно,

.

Оцінка є асимптотично незміщеною оцінкою для .

Оскільки незміщеність - одна з необхідних властивостей, яку повинна мати добра оцінка, змінимо оцінку так, щоб одержати незміщену оцінку для , а саме: помножимо на множник і позначимо нову оцінку :

.

Оцінка незміщена оцінка для [2]. Дійсно,

Проте парадокс оцінок дисперсії говорить про те, що не завжди треба обмежуватися розглядом лише незміщених оцінок. Іноді оцінка з малим зміщенням і малою мірою розсіювання значень оцінки краще незміщеної оцінки з великою дисперсією.

2.4.2 Парадокс

Нехай - вибірка з нормального розподілу . Оцінка

є незміщеною оцінкою для , а оцінка

для така, що міра розсіювання оцінки відносно мінімальна. Отже, вимоги незміщеності і мінімуму міри розсіювання приводять до різних оцінок. Якій з оцінок віддати перевагу?

2.4.3 Пояснення парадоксу

Розглянемо клас оцінок [6]. Математичне сподівання оцінок дорівнює . В класі оцінок існує єдина незміщена оцінка, яка відповідає і ця оцінка , тобто . Порахуємо міру розсіювання оцінок відносно :

Згідно з теоремою про розподіл оцінок і параметрів нормального розподілу випадкова величина має - розподіл з ступенями вільності. Тоді при

,

Звідки

і

.

Тоді перепишеться:

.

Позначимо функцію від через

.

Знайдемо , при якому функція досягає найменшого значення:

,

,

,

.

При цьому

,

і

,

а

.

Одержуємо нерівність

.

Таким чином, на підставі вимоги мінімуму міри розсіювання оцінки зміщена оцінка

,

зміщення якої

мале при достатньо великому обсязі вибірки , краще оцінює дисперсію , ніж незміщена оцінка .

Цей парадокс показує, що не може бути єдиного критерію, за яким необхідно порівнювати всі оцінки, як не існує єдиної оцінки даного параметра , яка прийнятна для всіх випадків.

Зауваження. Вибіркова дисперсія

при відомому математичному сподіванні є ефективною оцінкою для . Оцінка ж не є ефективною оцінкою для . Ефективної оцінки для (при невідомому математичному сподіванні) не існує, тобто ні для якої незміщеної оцінки параметра нерівність Крамера - Рао не обертається в рівність. Тому й виникає парадокс: оскільки незміщеної оцінки з мінімальною дисперсією не існує, то якій віддати перевагу.

2.5 Парадокс кореляції

2.5.1 Історія парадоксу

До останньої третини минулого століття деякі науки (наприклад, молекулярна фізика) досягли такого рівня розвитку, що стало необхідним використання в них теорії ймовірностей і математичної статистики. У 1859 р. книга Дарвіна спричинила революцію в біології і незабаром після цього родич Дарвіна Френсис Гальтон заклав основи генетики людини. (Дослідження Менделя з генетики були знов "відкриті" лише на рубежі століть; слово "генетика" використовується лише з 1905 р., але результати Гальтона привернули загальну увагу вже в минулому столітті) Гальтон і його учні (особливо Карл Пірсон) ввели такі важливі поняття, як кореляція і регресія, які стали основними поняттями в теорії ймовірностей і математичній статистиці (а також в пов'язаних з ними науках). Вага і зріст людини, природно, тісно пов'язані між собою, але вони не визначають один одного однозначно. Кореляція виражає цей зв'язок одним числом, абсолютна величина якого не перевершує 1. Для двох випадкових величин і кореляція визначається таким чином. Нехай і , і позначають математичне сподівання і стандартне відхилення і відповідно. Тоді коефіцієнт кореляції (або коротко кореляція) для і визначається формулою

(2.5.1.1)

Абсолютне значення кореляції максимальне (тобто дорівнює 1), якщо між і існує лінійна залежність, тобто . Якщо і незалежні (і їх дисперсії кінцеві), то їх кореляція дорівнює 0, іншими словами, вони некорельовані. У математичній статистиці оцінкою для кореляції , як правило, є вибірковий коефіцієнт кореляції, який будується за незалежною вибіркою так:

(2.5.1.2)

У ряді випадків добре описує зв'язок між і , але вже на рубежі століть обчислювалися залежності, позбавлені сенсу; наприклад, кореляція між числом гнізд лелек і числом немовлят. Поняття кореляції поступово містифікувалося і деякі "внутрішні" (взагалі кажучи, випадкові) зв'язки стали вважати такими, що існують, якщо була виявлена велика кореляція (тобто близька за абсолютною величиною до 1). Ось чому виникли абсолютно абсурдні результати, і це ледве не дискредитувало всю статистику. Як правило, ігнорувався той факт, що велика кореляція для і може бути результатом впливу якоїсь третьої величини. Наприклад, в Англії й Уельсі відмітили, що із збільшенням числа радіослухачів зростало число божевільних і розумово відсталих людей. Проте така інтерпретація абсолютно помилкова, оскільки не можна психічно захворіти від того, що слухаєш радіо. Справа лише в тому, що з часом зростає і число радіослухачів, і число випадків психічних захворювань, але між ними немає жодної причинної залежності. На жаль, невірні тлумачення не завжди настільки очевидні, наприклад, в технічних або економічних застосуваннях. Порівняння віросповідання і зростання людей дає ще один приклад надуманої залежності, згідно якої при прямуванні від Шотландії до Сіцілії доля католиків в населенні поступово зростає і в той же час середнє зростання людей спадає. Проте будь-який причинний зв'язок тут абсолютно неможливий. Розглянемо деякі парадокси кореляції.

2.5.2 Парадокси

2.5.2.1 Нехай випадкова величина рівномірно розподілена на інтервалі і . Очевидно, що між і існує тісний зв'язок, проте їх кореляція . (Кореляція для і завжди дорівнює нулеві, коли - випадкова величина зі скінченою дисперсією і симетричним відносно нуля розподілом)

2.5.2.2 Нехай - величини температуру в кімнаті в різних моментів часу і - кількість палива, яке використовують для обігріву в ті ж самі моменти часу (точніше, за даний проміжок часу). Логічно вважати, що чим більше палива використано, тим тепліше буде в кімнаті. Це означає, що кореляція для і У строго додатна.

Проте кореляція може виявитися від'ємною, що може бути інтерпретовано так: чим більше палива використано, тим стає холодніше.

2.5.2.3 Нехай випадковий вектор розподілений нормально, тобто щільність має вигляд

де - математичне сподівання і дисперсія величин і , а - їхня кореляція. Припустимо, що абсолютна величина кореляції строго менше 1. При невідомій кореляції ми можемо оцінити її за допомогою

,

використовуючи вибіркових значень. Якщо і відомі, то доцільно у формулі для замінити і відповідно на і . Таким шляхом отримаємо нову оцінку

.

Оскільки використовує більше інформації (а саме, значення величин і ) можна було б чекати, що дисперсія в менше, ніж в .

Проте А. Стюарт обчислив, що

тоді як

таким чином, остання дисперсія більша.

2.5.3 Пояснення парадоксів

2.5.3.1 Якщо і незалежні, то , але обернене твердження, взагалі кажучи, не вірне. Не корельовані випадкові величини можуть бути залежні, наприклад, як у вказаному вище прикладі, коли . Тому "некорельованість" не слід розуміти як незалежність.

2.5.3.2 Не можна забувати про вплив температури поза кімнатою! Кореляції часто виходять абсолютно неймовірними тому, що обчислюваний коефіцієнт кореляції для двох випадкових величин викривляється третьою що "ззовні впливає". Якраз для того, щоб уникнути цих перешкод, було введено поняття частої кореляції. Якщо кореляція для і У обчислюється лише після того, як вплив величини виключено, то результат перестає бути парадоксальним. Нехай і позначають кореляції і лінійними випадковими величинами та У, та , У та відповідно. Тоді частинна кореляція для і У без впливу дорівнює

У частковому випадку, коли часткова кореляція для і збігається з кореляцією . Коли і невідомі, їх можна оцінити за вибіркою аналогічно тому, як це відбувалося для . За допомогою цих оцінок отримаємо оцінку коефіцієнта частинної кореляції.

2.5.3.3 Парадокс Стюарта можна розглядати з різних точок зору. Головне полягає в тому, що оцінки і не є незміщеними оцінками для , тобто рівність і невірні, тому недоцільно вважати кращою ту оцінку, в якої дисперсія менша.

Мал.2.5.3.3.1 Розглянемо випадкові величини як вектори. Тоді кореляція для випадкових величин і дорівнює косінусу кута між векторами і , а їх частинна кореляція - косінусу кута між проекціями цих векторів на площину, перпендикулярну вектору .

У той же час обидві оцінки і зміщені несильно (вони є асимптотично незміщеними), отже, для пояснення парадоксу потрібний додатковий аналіз.

2.5.4 Зауваження

Зсув оцінки (у випадку двовимірного нормального розподілу) дорівнює

де позначає вираз, який множенням на , збігається до 0. Таким чином, зсув достатньо швидко прямує до 0 (при збільшенні обсягу вибірки ). З іншого боку, цікаво відзначити, що є незміщеною оцінкою для і, якщо для деякої функції , незалежної від , то , де - довільні сталі. У 1958 р. І. Олкін і Дж. Пратт довели що, якщо оцінка коефіцієнта кореляції явно залежить від , то можна вказати незміщену оцінку для , а саме

де - гіпергеометрична функція, яка визначається формулою

,

де є параметрами. А серед незміщених оцінок вже слід віддати перевагу тим, в яких дисперсія мінімальна. Можна показати, що оцінка не лише є незміщеною, але і має найменшу дисперсію. Проте для практичних застосувань оцінка достатньо складна, тому рекомендується використовувати її апроксимацію

.

2.6 Парадокси регресії

2.6.1 Історія парадокса

Коефіцієнт кореляції описує залежність між двома випадковими величинами одним числом, а регресія виражає цю залежність у вигляді функціонального співвідношення і тому дає більш повну інформацію. Наприклад, регресією є середня вага тіла людини як функція від його зросту. Поняття "регресія" запровадив Гальтон, який у кінці минулого століття порівнював зріст батьків зі зростом їх дітей. Він виявив, що зріст дітей у високих (або низьких) батьків звичайно вище (або нижче) середнього, але не співпадає зі зростом батьків. Лінія, яка показує, у якій мірі зріст (та інші характеристики) регресують (відновлюються) у середньому у наступних поколіннях, була названа Гальтоном лінією регресії.

Мал.2.6.1. Лінія регресії Гальтона.

Пізніше регресією стали називати будь-яку функціональну залежність між випадковими величинами. Спочатку регресійний аналіз застосовувався у біології і найважливішим науковим журналом, у якому висвітлювалась ця тема, був журнал "Біометрика" (“Biometrika”), який виходив з жовтня 1901 р. Між 1920 та 1930 р. великого значення набуло використання регресійного аналізу у економіці та виникла нова галузь науки: економетрика (термін належить Р. Фрищу (1926), який пізніше отримав Нобелевську премію). Від вивчення часткових регресійних задач дослідники поступово перейшли до регресійного аналізу структури, яка властива глобальним економічним системам. (Дж. Кейнс, Я. Тінберг та інші, наприклад, Р. Клейн, якому у 1980 р. присуджена Нобелевська премія з економіки).

Журнал "Технометрика" (“Technometrics”) виходить з 1959 р. і в основному присвячений технічним додаткам. Регресійний аналіз величини , визначається за іншою величиною , коли важко вимірити, а достатньо легко, досить важливий.

2.6.2 Парадокси

Припустимо, що залежність двох величин виражається функцією наступного вигляду , (наприклад, ), де невідомі тільки параметри (а функція відома, наприклад, лінійна квадратична і т.д.). Якщо ми можемо виміряти значення тільки з випадковими похибками спостережень, тобто замість ми спостерігаємо значення , які схильні до помилок, то згідно з методом найменших квадратів оцінки невідомих параметрів мінімізують суму квадратів

2.6.2.1 Якщо , то оцінка параметра мінімізує суму квадратів

(2.6.2.1 1)

У цьому випадку задача обчислення рівняння регресії звичайно спрощується, якщо обчислити логарифм від обох членів різниці, які знаходяться у дужках, і мінімізувати таку суму квадратів

(2.6.2.1 2)

Але ці два підходи до мінімізації дають різні оцінки. Який вихід з цієї парадоксальної ситуації?

2.6.2.2 Припустимо, що тип функції можна обрати різними способами, наприклад, - це багаточлен, а - експоненціальна функція. Оберемо той тип, для якого вказана вище сума квадратів менша (при оптимальному виборі параметрів). Хоча цьому принципі часто віддають перевагу на практиці, звичайно він не виправданий (іноді необхідно встановлювати хоча б теоретичну можливість такого вибору).

2.6.2.3 Нехай - теоретична лінія регресії та , де () - незалежні нормально розподілені похибки з математичним сподіванням і дисперсією ( - невідома константа). Тепер припустимо, що спостереження ідеально погоджуються з лінією регресії, тобто для деякого та

Тоді оцінка параметра за методом найменших квадратів дорівнює , але, як не парадоксально, вона не є "найкращою" оцінкою (у сенсі максимальної правдоподібності).

2.6.3 Пояснення парадоксів

2.6.3.1 Методу найменших квадратів відповідає перша сума квадратів. Розглянемо мінімізацію суми квадратів

де - монотонно зростаюча функція (наприклад, ). Добрий вибір "лінеаризує" задачу, тобто вираз для є лінійною функцією від невідомих параметрів (у цьому випадку легко знаходяться оптимальні значення для ). Якщо ми хочемо визначити невідомі параметри , користуючись методом найменших квадратів, то ймовірно, краще обрати другий спосіб. Але іноді треба мінімізувати все ж вихідну суму, наприклад, коли відомо, що наслідком помилки є фінансові втрати, пропорційні цій сумі, хоча така ймовірність зовсім не типова.

2.6.3.2 Перша частина питання дуже проста: сума квадратів може виявитися менша для , ніж для , але якщо взяти більше вибіркових значень, то сума квадратів стає менша при виборі .

Математична статистика намагається уникати подібних нестійких ситуацій. Існує декілька методів прийняття рішень, які застосовні у ряді випадків і вказують вибір із заданою надійністю, наприклад, 99% (тобто функція відкинута, то ймовірність того, що вірним є вибір , дорівнює 1%).

2.6.3.3 Оцінка не підходить, оскільки тоді оцінка для дорівнювала б нулю, що суперечить умові

.

Більш виправданою буде оцінка (максимальної правдоподібності)

.

2.7 Парадокси достатності

2.7.1 Історія парадоксу

Достатність є одним з найважливіших понять в математичній статистиці. Поняття достатності введено Р. Фішером в 20-х роках XX століття. Він виходив з того, що для статистичного оцінювання невідомих параметрів не завжди треба знати всі елементи вибірки. Достатньо знати деякі функції від вибірки, які й називаються достатніми статистиками. Наприклад, в разі одновимірного нормального розподілу вся інформація про його математичне сподівання зосереджується в середньому арифметичному елементів вибірки . Це випливає з того факту, що розподіл випадкового вектора не залежить від невідомого математичного сподівання, і тому із знання випадкових величин ми не отримаємо про математичне сподівання жодній додатковій інформації.

Означення. Функції

називаються достатньою статистикою для параметра розподілу, загального для всіх випадкових величин , якщо спільний розподіл величин при фіксованих не залежить від .

Спільна умовна щільність незалежних випадкових величин при дорівнює

,

(де через позначають стандартне відхилення величини ), і ця щільність не залежить від .

2.7.2 Парадокс

У 1934 р. Фішер вказав на такий парадокс. Він вивчав двовимірний нормальний розподіл, координати якого були (для простоти) незалежними випадковими величинами з одиничною дисперсією. Невідомими були лише їх математичні сподівання. Середнє арифметичне двовимірної вибірки є достатньою статистикою для невідомої пари математичних сподівань. Припустимо, що відома відстань між математичним сподіванням (що розглядається як вектор) і початком координат, тобто нехай, наприклад, дорівнює 3. Тоді

де - єдиний невідомий параметр. Його можна оцінити величиною

.

Ця оцінка незміщена

,

і її дисперсія дорівнює

.

Легко довести, що розподіл величини

не залежить від (оскільки розподіл вектора сферично симетричний відносно точки ), отже, якщо ми братимемо до уваги , то через достатність не отримаємо жодної інформації про . Проте це зовсім невірно. Математичне сподівання випадкової величини (тобто ефективність оцінки) в значній мірі визначається . Наприклад,

і

2.7.3 Пояснення парадоксу

Парадокс Фішера вказує на те, що слова “володіти всією інформацією" можна розуміти по різному. При обчисленні ефективності допоміжні статистики (аналогічні ) можуть грати важливу роль. На жаль, далеко не завжди легко вирішити, що саме слід взяти за допоміжну статистику. Очевидно, не має сенсу брати за таку статистику всю вибірку. Якщо розглянути проблему Фішера з точки зору байєсівського підходу і припустити, що випадкова величина рівномірно розподілена в інтервалі , то

2.7.4 Зауваження

Сучасна теорія достатності розвинена у роботах П. Халмоша і Л. Дж. Севіджа (1949). В теорії достатності з'явився ряд цікавих парадоксів. Наприклад, Беркхолдер запропонував кілька прикладів, які показують, що додавання до достатніх статистик деякої додаткової інформації може зіпсувати достатність. Такі приклади повністю суперечать нашим уявленням про достатність. За останній час опубліковано кілька глибоких праць, де вводяться деякі “умови регулярності”, які забезпечують не парадоксальну поведінку достатніх статистик.

2.8 Парадокси методу максимальної правдоподібності

2.8.1 Історія парадоксу

Метод максимальної правдоподібності є одним з найбільш ефективних методів оцінювання невідомих параметрів. Він здобув поширення в двадцяті роки нашого століття завдяки роботам англійського статистика Р. Фішера. І хоча у Фішера були попередники, саме його робота, написана в 1912 р., зіграла в цьому вирішальну роль. Нехай у ймовірнісного розподілу (залежного від невідомого параметра ) існує щільність, яку позначимо через . Якщо елементи вибірки незалежні, то їх спільна щільність запишеться у вигляді .

Нехай числа - вибіркові значення. Тоді є оцінкою максимальної правдоподібності параметра , якщо максимізує добуток як функцію від (припустимо, що максимум існує й єдиний). В разі дискретних випадкових величин максимізуємо спільний розподіл .

Якщо ми оцінюємо за методом максимальної правдоподібності, то ймовірність того, що спостерігатимуться значення стає максимальною.

Оцінка максимальної правдоподібності володіє низкою добрих властивостей, і тому відповідний метод набув широкого поширення. Наприклад, якщо є оцінкою максимальної правдоподібності параметра , то - оцінка максимальної правдоподібності для .

Можна також довести, що за достатньо загальних умов оцінка максимальної правдоподібності асимптотично поводиться як нормально розподілена випадкова величина з середнім значенням і дисперсією , отже, - спроможна оцінка, і її дисперсія асимптотично мінімальна (тобто сама оцінка асимптотично ефективна).

Більш того, якщо достатня статистика існує, то метод максимальної правдоподібності приведе до функції від цієї достатньої статистики.

2.8.2 Парадокси

2.8.2.1 Нехай - незалежні випадкові величини, рівномірно розподілені на інтервалі . Оцінка максимальної правдоподібності невідомого параметра q дорівнює . Трохи змінивши її, отримаємо

,

незміщену оцінку для з дисперсією

.

З іншого боку, дисперсія оцінки

асимптотично еквівалентна , отже, ця оцінка більш ефективна, ніж оцінка максимальної правдоподібності.

2.8.2.2 Наведемо простий приклад, який показує, що оцінка максимальної правдоподібності не завжди спроможна. Нехай - множина раціональних чисел між , а В - деяка зліченна множина ірраціональних чисел між . Припустимо, що значеннями незалежних елементів вибірки є тільки , причому значення 1 набувається з імовірністю ?, якщо ? - елемент множини А, і з імовірністю , якщо - елемент В. Тоді оцінка максимальної правдоподібності для ? не є спроможною. Хоча дещо складніша спроможна оцінка для все ж існує.

2.8.3 Пояснення парадоксів

2.8.3.1 Статистики

в сукупності містять всю інформацію про параметр ; точніше, при заданих і спільна щільність ймовірностей величин не залежить від (тобто і в сукупності утворюють достатню статистику). Таким чином, природно вважати, що як оцінка максимальної правдоподібності, так і оцінка, яка виявилась кращою, залежать лише від і . Оскільки оцінка максимальної правдоподібності залежить тільки від статистики , яка не є достатньою (вона не містить всю інформацію про ), недивно, що знайшлася краща оцінка. Це не суперечить асимптотичній ефективності оцінки максимальної правдоподібності, оскільки у випадку рівномірного розподілу “загальні умови", які забезпечують ефективність, не виконані.

2.8.3.2 Пояснення досить просте: оцінка максимальної правдоподібності для є частота , яка прямує до для ірраціональних .

Страница:

1
2

дипломная работа "Парадокси в математичній статистиці" скачать

Подобные документы

Методи оцінювання параметрів та перевірка статистичних гіпотез
Оцінювання параметрів розподілів. Незміщені, спроможні оцінки. Методи знаходження оцінок: емпіричні оцінки, метод максимальної правдоподібності. Означення емпіричної функції розподілу, емпіричні значення параметрів. Задача перевірки статистичних гіпотез.

контрольная работа [57,2 K], добавлен 12.08.2010

Визначення емпіричних закономірностей
Метод найменших квадратів. Задача про пошуки параметрів. Означення метода найменших квадратів. Визначення параметрів функціональних залежностей. Вид нормальної системи Гауса. Побудова математичної моделі, використовуючи метод найменших квадратів.

реферат [111,0 K], добавлен 25.12.2010

Метод найменших квадратів
Етапи побудови емпіричних формул: встановлення загального виду формули; визначення найкращих її параметрів. Суть методу найменших квадратів К. Гауса і А. Лежандра. Побудова лінійної емпіричної формули. Побудова квадратичної емпіричної залежності.

контрольная работа [128,1 K], добавлен 22.01.2011

Множинна регресія
Поняття економетричної моделі та етапи її побудови. Сутність та характерні властивості коефіцієнта множинної кореляції. Оцінка значущості множинної регресії. Визначення довірчих інтервалів для функції регресії та її параметрів. Метод найменших квадратів.

курсовая работа [214,6 K], добавлен 24.05.2013

Критерій відношення правдоподібності для великих вибірок
Метод відношення правдоподібності для великих вибірок як один із способів перевірки параметричних статистичних гіпотез. Теоретичне обґрунтування даної методики, визначення її основних недоліків та програмне тестування припущення розглянутого критерію.

курсовая работа [1,2 M], добавлен 23.12.2010

Аналіз експериментальних даних
Характеристика, поняття, сутність, положення і особливості методів математичної статистики (дисперсійний, кореляційний і регресійний аналіз) в дослідженнях для обробки експериментальних даних. Розрахунки для обчислення дисперсії, кореляції і регресії.

реферат [140,6 K], добавлен 25.12.2010

Кореляційний аналіз
Знаходження коефіцієнтів для рівнянь нелінійного виду та аналіз рівняння регресії. Визначення параметрів емпіричної формули. Метод найменших квадратів. Параболічна інтерполяція, метод Лагранжа. Лінійна кореляція між випадковими фізичними величинами.

курсовая работа [211,5 K], добавлен 25.04.2014

Розрахунок типових задач з математичної статистики
Закон розподілення дискретної випадкової величини, подання в аналітичній формі за допомогою функції розподілення ймовірності. Числові характеристики дискретних випадкових величин. Значення критерію збіжності Пірсона. Аналіз оцінок математичного чекання.

курсовая работа [105,2 K], добавлен 09.07.2009

Методи математичної статистики
Передумови виникнення та основні етапи розвитку теорії ймовірностей і математичної статистики. Сутність, розробка та цінність роботи Стьюдента. Основні принципи, що лежать в основі клінічних досліджень. Застосування статистичних методів в даній сфері.

контрольная работа [16,7 K], добавлен 27.11.2010

Аналіз нелінійного перетворення стаціонарного гауссівського випадкового процесу
Побудова графіків реалізацій вхідного та вихідного процесів, розрахунок функцій розподілу, математичного сподівання, кореляційної функції. Поняття та принципи вивчення одномірної функції розподілу відгуку, порядок конструювання математичної моделі.

контрольная работа [316,2 K], добавлен 08.11.2014

Другие документы, подобные "Парадокси в математичній статистиці"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Парадокси в математичній статистиці

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Вступ

Статистика - це фізика чисел

П. Діаконіс

Розділ І. Основні поняття математичної статистики

Точкові оцінки.

Означення. Випадковий вектор зі значеннями в просторі називатимемо вибіркою (вибірковим вектором).

Вибірку утворену послідовністю незалежних однаково розподілених випадкових величин , кожна з яких має розподіл , називають вибіркою з розподілу (закону) обсягом .

Множину усіх можливих значень вибірки (вибіркового вектора) будемо називати вибірковим простором (далі вибірковий простір - це або його підмножина).

Зазначимо, що для одного й того самого параметра можна запропонувати багато оцінок.

Кількісно міру похибки при заміні на (міру розсіювання відносно ) будемо описувати величиною

Серед усіх оцінок з однією і тією самою дисперсією (мірою розсіювання) мінімальну міру розсіювання відносно мають оцінки, для яких . Останнє випливає з рівностей

Означення. Оцінку будемо називати незміщеною оцінкою параметра , якщо , або, що те саме,

Означення. Послідовність оцінок будемо називати спроможною послідовністю оцінок параметра , якщо для кожного

при , або, що те саме, збігається за ймовірністю до , при .

Означення. Послідовність оцінок називатимемо асимптотично незміщеною послідовністю оцінок параметра , якщо при , або, що те саме, при .

Оцінки мінімальної дисперсії.

Основне питання задачі оцінювання параметрів розподілів - наскільки великою є похибка при заміні параметра оцінкою .

Оцінки , що пропонуються для оцінювання параметра , повинні бути незміщеними, тобто .

Такі оцінки мають меншу міру розсіювання відносно порівняно з оцінками, для яких .

Означення. Незміщену оцінку параметра будемо називати його найкращою оцінкою, оцінкою мінімальної дисперсії або ефективною оцінкою, якщо .

Нехай вибірка фіксованого обсягу має щільність розподілу .

Параметр будемо вважати одновимірним, а щодо множини його можливих значень припустимо, що вона є скінченим інтервалом числової прямої.

Лема 1.2.1 Якщо майже для всіх існують похідні

і , ,

мажорові інтегрованими функціями:

і виконуються умови

; , ,

то для всіх

Означення. Функцію

(коли вона визначена) називають інформацією за Фішером.

У лемі 1.2.1 наведено достатні умови, за яких інформація існує. Зазначимо, що

Теорема 1.2.1 (нерівність Крамера - Рао). Нехай задовольняються умови леми 1.2.1 і

незміщена оцінка параметра така, що функція

мажоровна інтегрованою функцією:

Тоді (1.2.1)

причому рівність в (1.2.1) досягається тоді і тільки тоді, коли можна подати у вигляді

Наслідок 1. Якщо оцінка задовольняє умови теореми і для неї нерівність Крамера - Рао перетворюється на рівність, то є ефективною оцінкою параметра .

Наслідок 2. Якщо оцінка задовольняє умови теореми, а статистика - умову

де - щільність розподілу вибірки , то - незміщена й ефективна оцінка параметра .

Наслідок 3. Нехай вибірка з розподілу з щільністю , причому для сумісної щільності

випадкові величини виконані умови теореми. Тоді нерівність Крамера - Рао можна переписати у вигляді

.

1.1 Нерівність Крамера - Рао (розподіл дискретний)

Лема 1.2.2 (розподіл дискретний).

Якщо для всіх можливих значень вибірки існують похідні

і , ,

Ряди

і

збігаються абсолютно й рівномірно відносно і виконуються умови

,

то для всіх

1.2 Теорема 1.2.2 (нерівність Крамера - Рао, розподіл дискретний)

Нехай задовольняються умови леми 1.2.2 і - незміщена оцінка параметра така, що для всіх можливих значень вибірки ряд

збігається абсолютно й рівномірно відносно . Тоді

причому рівність справджується тоді, коли можна подати у вигляді

Наслідок 1. Якщо оцінка задовольняє умови теореми і для неї нерівність Крамера - Рао

перетворюється на рівність, то є ефективною оцінкою параметра .

Наслідок 2. Якщо оцінка задовольняє умови теорем, а статистика - умову

де - розподіл вибірки , то - незміщена й ефективна оцінка параметра .

Наслідок 3. Нехай - вибірка з дискретного розподілу і для сумісного розподілу

випадкових величини виконані умови теореми, тоді нерівність Крамера - Рао можна записати у вигляді

.

1.3 Метод максимальної правдоподібності

Нехай - вибірка із розподілом , що залежить від параметра Параметр невідомий і його необхідно оцінити за вибіркою .

Означення. Оцінкою максимальної правдоподібності будемо називати точку , в якій функція максимальної правдоподібності досягає найбільшого значення.

Іншими словами, оцінкою максимальної правдоподібності параметра будемо називати відмінні від константи розв'язки рівняння

,

якщо такі розв'язки існують. Корені, які не залежать від вибірки , тобто мають вигляд , де - константа, слід відкинути (оцінка - це функція вибірки).

Логарифм від функції максимальної правдоподібності називають логарифмічною функцією максимальної правдоподібності.

Зазначимо, що функції та досягають найбільшого значення в одній і тій самій точці. А відшукати точку, в якій функція досягає найбільшого значення, часто зручніше.

Якщо функція диференційована по , то для того щоб розв'язати рівняння

(1.3.1)

достатньо знайти стаціонарні точки функції

,

розв'язуючи рівняння

Рівняння

називають рівняннями максимальної правдоподібності.

Метод найменших квадратів.