Математическая статистика и её частные методы

Понятие, происхождение и предмет статистики с точки зрения современной науки и практики; стадии и методы статистического исследования, математическая составляющая. Метод главных компонент, его применение. Закон больших чисел, парадокс сэра Гиффена.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 17.05.2012
Размер файла 955,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Цель работы

Введение

Глава 1. Математическая статистика и её методы

1.1 Происхождение Статистики

1.2 Статистика как наука

1.3 Предмет Статистики

1.4 Стадии и методы статистического исследования

Глава 2. Математическая статистика

2.1 Математическая статистика и её методы

2.2 Метод главных компонент

2.3 Применение Метода главных компонент

2.4 Закон больших чисел

2.5 Ложь, наглая ложь, статистика и парадокс сэра Гиффена

Заключение

Литература

Цель работы

Цель данной работы заключается в исследовании понятия «статистики» с точки зрения современной науки и практики.

В соответствии с определенной целью были поставлены и решены следующие задачи:

исследованы основные понятия Статистики;

исследованы математические методы в статистике и Метод главных компонент в частности;

сформулированы выводы и предложения по проделанной работе.

Предметом исследования данной работы стала математическая составляющая сегодняшней статистической науки.

Объектом исследования данной курсовой работы является исследование Метода главных компонент и сопутствующих методов.

Исследование темы «Математическая статистика и её частные методы» осуществлялось при помощи следующих научных методов:

Диалектического, то есть осуществления всестороннего познания объекта и предмета исследования данной работы;

Анализа, то есть обособленного анализа отдельных математических методов статистических исследований.

Структурно-функционального, то есть определение роли математических методов в статистике и их значение;

Синтеза, то есть последующего обобщения полученных знаний по данной теме.

Теоретической основой представляемой курсовой работы являются научные работы и труды российских зарубежных авторов, посвященных изучению статистики Большева Л.Н., Зиновьева А.Ю., Едроновой В.Н., Едроновой М.В., Прохорова Ю.В. Смирнова Н.В. и др.

Работа изложена на 40 страницах, включает 7 рисунков.

Введение

Статистика имела всегда и также имеет сегодня очень важное значение в деле управления общественными отношениями как в политике, так и в экономике. Что из них является причиной, а что следствием есть предмет спора политологов и экономистов. Статистику интересует точность и достоверность сведений, без которых невозможно представить какой-либо эффективно функционирующий политический или экономический организм.

Статистика на протяжении тысячелетий своего существования всегда выступала как необходимый инструмент государственного управления. А с течением времени она стала также и наукой, исследующей количественную сторону массовых явлений. Статистика с древних времён нередко использовалась в политических целях, как в отношении соперников вовне или изнутри.

Сегодня статистика выполняет самые разнообразные функции сбора, систематизации и анализа сведений, характеризующих экономическое и социальное развитие общества. Как готовый продукт она поставляет фактологию для управленческих, научно-исследовательских и прикладных нужд госструктур, организаций и населения. Поэтому статистикой сегодня называют также и числовые данные, характеризующие все стороны жизни государства, как-то - политические отношения, культуру, население, производство и многое другое.

Глава 1. Математическая статистика и её методы

1.1 Происхождение Статистики

Статистика как наука имеет давнюю и неоднозначную историю.

Учёт, в смысле сегодняшнего статистического учёта, велся с самого начала существования рода человеческого homo sapiens, если не ранее. При встречах выигрывал битву за место под солнцем тот клан, который был больше и у которого было больше бойцов. С развитием производственных отношений уважался тот род, который имел больше скота и земли. С развитием общественных отношений и государств стали сравнивать военные, торговые и экономические потенциалы. С расширением и уточнением учётов стали подвергаться исследованию численность населения и его имущественное состояние с целью налогообложения. Возрастные исследования статистов-переписчиков всегда были особенно интересными для политиков, генералов, демографов, экономистов ещё со времён древних Афин, где вёлся особый учёт для военнообязанных юношей, достигших 18 лет, и достигших возраста 20 лет полноправных граждан. Аристотель составил труд с перечислением 157 эллинских городов-государств, их населения и имущества.

Самыми известными находками для практической статистики стали способы записи сведений разнообразных учётов: как то на глиняных табличках в Междуречья, папирусах Древнего Египта и узелковое письмо - кипу, кипукамайок. Самым древним профессиональным статистом стал «кипукамайок юпан».

Ну а самым важным изобретением древних счётоводов стали счёты «абак» От греч. бвбо, abakion, лат. abacus - доска, счетная доска. Авт. из Междуречья, те самые с костяшками, которые ещё 15-20 лет тому назад лежали у каждого кассира или бухгалтера. Даже изобретённые 300 лет тому назад логарифмические линейки не добились такого распространения из-за сложности вычислений.

Рис 1. Первый профессиональный статист «Кипукамайок юпан»

К слову, десятеричную систему для счетов разработали в России в XVI-XVII веках русские предприниматели, озабоченные вопросом облегчения учёта постоянно растущего торгового и промышленного оборота.

Сам термин «статистика» сравнительно молод, как и указанная выше линейка. Изначально он означал совсем не то, что понимаем мы под этим определением сейчас. Первоначально оно употреблялось в значении «политическое положение», так как само слово «статистика» происходит от латинского status, От корня «stat» также происходят позднелатинские и раннеитальянские «stato» - «государство» и «statista» - «знаток государства». «Стан», «стоянка», «стойбище» имеют тот же самый корень. Авт. означавшего «состояние, положение вещей с точки зрения закона». С точки зрения сухой и беспристрастной цифры эти сведения стали рассматриваться в рамках первого направления статистической науки - «политической арифметики», созданной в конце XVII века благодаря трудам английских учёных мужей - экономиста Уильяма Петти (William Petty) (1623 - 1687 г.г.) и галантерейщика Джона Граунта (John Graunt) (20.04.1620 г. - 18.04.1674 г.), ставшего известным демографом. В своих трудах они давали числовую оценку исследуемым социально-экономическим явлениям.

Вопрос о едином текущем учёте населения был поставлен одним из просветителей России - В.Н.Татищевым (1686 - 1750 г.г.), который указывал на недостатки проводимых в стране ревизий, а также разработал конкретные предложения по улучшению их проведения. Рост народонаселения он рассматривал в неразрывной связи с развитием экономике и культуры России.

«Статистика» стала наименованием научной и учебной дисциплины благодаря читавшему лекции в Марбургском, а затем и Гёттингенском университетах немецкому учёному, преподавателю философии и права Готфриду Ахенвалю (1719-1772 гг.). Сей представитель второго направления статистической науки - описательного - в 1746 году предложил переименовать «Государствоведение», то есть исследование статусов, как то состояний и положений, на «Статистику». В силу особенности раннего немецкого направления в этой науке в 1792 году увидело свет такое определение, что «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина «статистика». - Москва: МГУ, 1972 г.

Третье направление статистической науки - статистико-математическое - возникло благодаря бельгийскому статистику Адольфу Кетле, разработавшему в середине XIX века правила переписи населения. Он стал основоположником учения о средних величинах. Основанный им в 1885 году Международный статистический институт существует до сих пор.

В течении короткого времени она ещё более удалилась от правоведения в сторону математики. Так в конце XIX века В.Госсет разработал «Теорию малой выборки», а в начале XX века для целей статистики стали применяться, например Р.Фишером, методы «теории вероятностей».

В России большое влияние на развитие математического направления в статистике произвели работы русских математиков П.П. Чебышева (1821-1894 гг.), А.А. Маркова (1856-1922 гг.), А.М. Ляпунова (1857-1919 гг.). В начале XX века в области математической статистики появились исследования А.В. Монтовича о «кривых распределения», а затем Е.Е. Слуцкого и А.А. Чупрова о «корреляционном анализе». Продолжателем А.А. Чупрова стал Н.К. Дружинин. В 1949 году был издан учебник Н.К. Дружинина, в котором статистика была определена как «наука о количественных закономерностях массовых явлений, как учение о тех принципах, на которых основывается сбор обработки этих сведений».

К сегодняшнему дню статистика прошла длинный путь развития. Сухая цифирь часто становилась причиной для неописуемой гордости от успехов первых пятилеток, так и для самых серьёзных оргвыводов в отношении тех, кто не справился с «плановыми заданиями». Характерной чертой «командной экономики» были «улучшающие статистику» «приписки». В известном разговоре одного «ответственного работника» с не менее «ответственным» другим были произнесены такие слова - «Если мы припишем, то нас возможно посадят. Но если мы не припишем, то нас точно посадят!». Войнович В., «Жизнь и необычайные приключения солдата Ивана Чонкина», - Москва, «Юность», 1988 г., №12, 1989 г., №1 и №2. В условиях экономики рыночной характерны не приписки, а сокрытия реального объёма товарного производства и доходов, с целью избежания налогообложения. Не менее известна истина о трёх видах лжи - чёрной, белой и статистике. Причинами таких отклонений являются, прежде всего, причины корыстные и политические. Поэтому цель статистики заключается в использовании научных методов и неискажённых исходных данных с целью вычисления точных данных о состоянии государств, народов, доходов, расходов, запасов и остального великого множества необходимых сведений.

История развития статистики показывает, что статистическая наука сложилась в результате теоретического обогащения накопленного человечеством передового опыта учётно-статистических работ, обусловленных прежде всего потребностями управления жизнью общества.

1.2 Статистика как наука

Статистика сегодня это одна из важнейших общественных наук, имеющая своей целью сбор, упорядочение, анализ и сопоставление числового представления фактов, относящихся к самым разнообразным массовым явлениям. Её предметом являются системы количественных показателей и характеристик, дающих всестороннее представление об общественных явлениях, о промышленности в целом и отдельных его отраслях. Статистика сегодня это инструмент познания, используемый для установления закономерностей в виде числовых порядков, которые действуют в изучаемых этой наукой массовых явлениях.

Познание количественных и качественных законов развития явлений невозможно без анализа их количественной и качественной стороны. Сила статистики заключаются в том, что количественные отношения объективной действительности она рассматривает в неразрывной связи с качественными особенностями явлений и процессов. Благодаря статистике единство качественной и количественной стороны анализа проявляется с наибольшей силой.

То есть статистика на сегодня это наука, исследующая с количественной стороны массовые общественные явления, но также и метод изучения каждой конкретной совокупности. При этом статистка имеет дело с закономерностями, свойственными множеству явлений, различающимися между собой по индивидуальным признакам.

Статистические методы, применяемые при сборе, представлении, анализе и интерпретации данных, часто путают собственно со статистикой. Статистическая методология призвана исследовать совокупность факторов, изобразить процесс в целом, учесть тенденции развития и разнообразие форм явлений. Она помогает также открывать и анализировать причинные зависимости и закономерности явлений. Применение статистических методов важно при изучении больших массивов данных, когда необходимо выделить лишь интересующие сведения из общего моря фактологии.

Перед статистикой ставятся всё новые и новые задачи, что способствует выделению для более скрупулёзного изучения отдельных отраслей из тела единой статистической науки. Поэтому статистическая наука сегодня представляет собой целостную систему научных дисциплин, состоящую из общей теории статистики, которая делится на две большие группы - экономической и социально-демографической статистики. В свою очередь эти две группы имеют деление на отрасли. Каждая из этих отраслей имеет свой объект исследования, выясняет сущность определённой системы показателей, разрабатывает правила и методы их получения и использования в научной и практической деятельности. Однако во всех отраслевых статистиках применяются принципы и методы общей теории статистики.

Размещено на http://www.allbest.ru/

Рис. 2. Теория статистики и её разделы

Экономическая статистика изучает через систему показателей итоги трудов народного хозяйства, его составляющие, пропорции, взаимосвязи отраслей особенности размещения производительных сил, наличие материальных, трудовых и финансовых ресурсов, достигнутый уровень их использования; структуру, пропорции и элементы общественного воспроизводства.

Её отраслевые статистки представлены отдельными статистиками - промышленности, сельского хозяйства, строительства, транспорта, связи и т.п.

Социально-демографическая статистка изучает через систему показателей, характеризующих образ жизни и различные стороны социальных отношений общественную жизнь. Её отраслевые статистки представлены отдельными статистиками - права, демографическая, труда, политики, просвещения и других, задачей которых является изучение системы показателей, анализ социально-экономических процессов соответствующих отраслей народного хозяйства или сторон общественной жизни.

Каждая отраслевая статистика представляет собой науку о количественных изменениях, происходящих в соответствующих отраслях народного хозяйства и сферах общественной жизни. Задачей всех отраслевых статистик является разработка статистических показателей соответствующих отраслей.

Статистика развивается как единая наука, и развитие каждой отрасли содействует её совершенствованию в целом.

Точное описание и измерение общественных закономерностей одна самых из важных функций статистики.

1.3 Предмет статистики

Предмет познания и методы его изучения составляют признаки полноценной науки.

Предмет статистики исторически молод, до конца не сформирован и говоря языком физики минералов - его кристаллизация не завершена. Приведённые выше определения статистики ведущими учёными-экономистами оспариваются до сих пор. Поэтому остановимся на общих определениях.

Предметом статистики выступают размеры и количественные соотношения качественно определённых социально-экономических явлений, закономерности их связи и развития в конкретных условиях места и времени.

Свой предмет статистика изучает методом обобщающих показателей.

1. Статистика как наука исследует не отдельные факты, но массовые социально-экономические явления и процессы, выступающие совокупно как множества отдельных фактов, обладающих как индивидуальными, так и общими признаками.

Задача статистического исследования состоит в получении обобщающих показателей и выявлении закономерностей общественной жизни в конкретных условиях места и времени, которые проявляются лишь в большой массе явлений через преодоление свойственной единичным элементам случайности.

Объект статистического исследования называют статистической совокупностью.

Статистическая совокупность представляет множество единиц, обладающих массовостью, однородностью, определённой целостностью, взаимозависимостью состояний отдельных единиц и наличием вариации.

Единицей статистической совокупности называется каждый отдельно взятый элемент данного множества. Признаками единицы статистической совокупности является однородность, сходство единиц - объектов, явлений, процессов - по каким-либо существенным признакам, но различающихся по каким-либо другим признакам.

2. Статистика как наука изучает, прежде всего, количественную сторону общественных явлений и процессов в конкретных условиях места и времени, т.е. предметом статистики выступают размеры и количественные соотношения социально-экономических явлений, закономерности их связи и развития. Также она изучает числовые соотношения размеров общественных явлений.

Количественную характеристику статистика выражает через определённого рода числа, которые называются статистическими показателями. Статистический показатель отражает результат измерения у единиц совокупности и совокупности в целом.

Статистический показатель имеет три обязательных атрибута - количественную определённость, место и время измерения. Место и время измерения понятны без перевода. Количественная определённость есть объективное свойство предмета познания статистикой. Количественные характеристики, устанавливаемые статистикой, не являются зафиксированными раз и навсегда, одинаковыми для всех единиц совокупности.

3. Статистика как наука характеризует структуру общественных явлений. Структура представляет собой внутреннее строение массовых явлений, т.е. внутреннее строение статистического множества. Статистика должна эту структуру обнаружить, выразить и отразить с помощью статистических показателей.

При анализе структуры выявляются составные части социально-экономических явлений, которые сопоставляются с явлением в целом и между собой. Полученная структура сравнивается с другими однотипными структурами, а также с плановыми или нормативными для выявления причин отклонений.

Структура социально-экономических явлений изучается статистикой через систему признаков, которые определяются задачами, поставленными в заданный момент, в заданное время и на заданном месте.

4. Статистика как наука изучает изменения в пространстве и времени, то есть, в статике и в динамике. Статика определяется посредством анализа структуры общественного явления, а динамика изучает изменения размера, уровня и структуры явления исследуются во времени.

5. Статистика как наука изучает явления общественной жизни в их взаимосвязи, так как изменение одних явлений предопределяют другие; например, снижение затрат на сырьё и материалы приводит к снижению себестоимости, и наоборот.

Наибольшее значение имеет выявление причинно-следственных связей, чтобы воздействовать на общественные явления с целью их изменения в интересах общества. С помощью специальной методологии статистика определяет количественные связи между общественными явлениями.

Таким образом, статистика - это общественная наука, которая изучает количественную сторону качественно определённых массовых социально-экономических явлений и процессов, их структуру и распределение, размещение в пространстве, движение во времени, выявляя действующие количественные зависимости, тенденции и закономерности, причём в конкретных условиях места и времени.

1.4 Стадии и методы статистического исследования

Для изучения предмета статистики разработаны и применяются специфические приёмы, совокупность которых образует методологию статистики. Это методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод и др. Применение в статистике конкретных методов предопределяются поставленными задачами и зависит от исходной информации.

Диалектический метод познания является общей основой разработки и применения статистической методологии. Согласно нему общественные явления и процессы рассматриваются в развитии, взаимной связи и причинной обусловленности. Знание диалектических законов и категорий позволяет статистике правильно понять и истолковать явления, подлежащие статистическому исследованию, выбрать надлежащий инструмент и методологически правильный подход к их изучению.

Количество и качество, необходимость и случайность, причинность и закономерность, единичное и массовое, индивидуальное и общее - это диалектические категории статистики.

Методология статистики - это система приёмов, способов и методов, направленных на изучение количественных закономерностей, проявляющихся в структуре, динамике и взаимосвязях социально-экономических явлений.

Статистическое исследование состоит из трёх основных стадий:

Статистическое наблюдение - это первая стадия. В ходе её происходит сбор первичной статистической информации и данных, которые станут основой для будущего статистического анализа. Методы статистического наблюдения представлены переписями, статистической отчётностью, анкетированием, выборочным наблюдением.

Статистическая сводка - это вторая стадия. В ходе её происходит обработка первичной информации; обобщаются конкретные единичных сведения, образующие совокупность в целях выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Основным методом статистической сводки выступает группировка, когда изучаемые явления делятся на важнейшие типы, характерные группы и подгруппы по существенным признакам. Итоги статистической группировки и сводки излагаются в виде таблиц и графиков.

Обобщение и анализ статистической информации - это третья стадия. Статистический анализ является заключительной стадией статистического исследования.

Основными этапами анализа являются следующие действия:

1) установление фактов и их оценка;

2) установление характерных черт и причин явления;

3) сопоставление явления с базовыми явлениями - нормативными, плановыми и прочими;

4) формулирование гипотез, выводов и предположений;

5) статистическая проверка выдвинутых гипотез с помощью специальных обобщающих статистических показателей.

Обобщающие показатели - абсолютные, относительные, средние величины и индексные системы -применяются именно на этой стадии. Общие черты формирования обобщающих показателей устанавливаются посредством измерения их отклонений и приведения к усреднённому показателю. Изучение отклонений - «вариаций» - вместе с применением средних и относительных величин имеет большое практическое и научное значение. Показатели отклонений «вариаций» характеризуют степень однородности статистической совокупности по искомому признаку. Показатели «вариаций» определяют степень и границы вариации. Значительный интерес представляет взаимосвязь признаков «вариаций».

Все эти три стадии неразрывно связаны между собой органическим единством. Так, проведение статистического наблюдения бессмысленно без дальнейшего анализа, а анализ невозможен без информации, полученной на стадии первичной обработки данных.

Следующая часть работы будет посвящена роли математики и её методов.

статистика математический парадокс гиффен

Глава 2. Математическая статистика

2.1 Математическая статистика и её методы

Статистка, как отмечалось во Введении, сегодня имеет дело с количественной стороной явлений, поэтому она теснейшим образом связана с Математикой, а не с исходным для неё Правом. Статистика неразрывно связана с научными дисциплинами, изучающими основные закономерности и качественные особенности той или иной области явлений. Но она как никакая другая наука имеет дело, прежде всего, с количественной стороной явлений и поэтому она тесно связана с математикой.

В распоряжении статистики имеются такие средства, как массовое статистическое наблюдение (сплошное и выборочное), отчётность. Используются также системы показателей, всесторонне характеризующих явление, объект и совокупность в целом, сводные, групповые и комбинационные таблицы, представляющие результаты статистических группировок. При анализе методом статистических группировок изучаемая совокупность явлений расчленяется на однородные по отдельным признакам группы и подгруппы и каждая из них характеризуется системой статистических показателей

Математическая статистика - это, прежде всего, наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.

Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала.

Математическая статистика представляет собой раздел математики, предметом которой является разработка методов регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. Вероятностные разделы математики/Под ред. Ю.Д. Максимова. - Спб.: «Иван Фёдоров», 2001. - С. 400. - 592 с. - ISBN 5-81940-050-X В зависимости от математической природы конкретных результатов наблюдений математическая статистика делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.

В математической статистике также выделяют описательную статистику, теорию оценивания и теорию проверки гипотез.

Описательная статистика представляет собой совокупность эмпирических методов, используемых для визуализации и интерпретации данных.

Методы описательной статистики предполагают использование возможностей современных компьютеров, так как они используются как не только для расчётов, но и для графического моделирования в виде таблиц, диаграмм, графиков и т. д. С помощью компьютеров гораздо проще произвести как кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, так и многомерное моделирование, позволяющее наглядно представить объекты на плоскости.

Методы оценивания и проверки гипотез опираются на вероятностные модели происхождения данных, которые делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от одного или нескольких числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик.

В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений - математическое ожидание, медиану, стандартное отклонение, а также плотности и функции распределения и пр. Для этого используют точечные и интервальные оценки.

Важным шагом в современной математической статистике стал статистический последовательный анализ, основной вклад в создание и развитие которого внес Абрахам Вальд (Wald Abraham, 30.10.1902 г., Австро-Венгрия - 13.12.1950 г., США). В отличие от традиционных (непоследовательных) методов статистического анализа, основанных на случайной выборке фиксированного объема, в последовательном анализе допускается формирование массива наблюдений по одному (или, более общим образом, группами), при этом решение об проведении следующего наблюдения (группы наблюдений) принимается на основе уже накопленного массива наблюдений. Ввиду этого, теория последовательного статистического анализа тесно связана с теорией оптимальной остановки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвящённых проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности, о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

В отличии полного наблюдения выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, например, дегустация, испытание кирпичей на прочность и т.п.

Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весь их массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают n, а во всей ГС - N. Отношение n/N называется относительный размер или доля выборки.

Качество результатов выборочного наблюдения зависит от репрезентативности выборки, то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки необходимо соблюдать принцип случайности отбора единиц, который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.

Существует 4 способа случайного отбора в выборку:

1. Собственно случайный отбор или «метод лото», когда статистическим величинам присваиваются порядковые номера, заносимые на определенные предметы (карточки, бочонки), которые затем перемешиваются и выбираются наугад. На практике этот способ осуществляют с помощью генератора случайных чисел или математических таблиц случайных чисел.

2. Механический отбор, согласно которому отбирается каждая (N/n)-я величина генеральной совокупности. Например, если она содержит 100 000 величин, а требуется выбрать 1 000, то в выборку попадет каждая 1000000 / 1000 = 1000-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой тысячи, а номера других будут на тысячу больше. Например, если первой оказалась единица №280, то следующей должна быть №1280, затем №2280, затем №3280 и т.д. Если единицы генеральной совокупности ранжированы, то первой выбирается №500, затем №1500, затем №2500 и так далее.

3. Стратифицированный (расслоенный) отбор величин ведётся из неоднородного массива данных, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.

4. Серийный отбор представляет собой особый способ составления выборки, при котором случайно или механически выбирают не отдельные величины, а их серии (последовательности с какого-то номера по какой-то подряд), внутри которых ведут сплошное наблюдение.

Качество выборочных наблюдений зависит и от типа выборки, которая бывает повторной или бесповторной.

Повторный отбор означает, что попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всех величин генеральной совокупности одинаковая вероятность включения в выборку.

Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.

Бесповторный отбор дает более точные результаты, поэтому применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.

Выборочную совокупность можно сформировать по количественному признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служит выборочная средняя величина, обозначаемая , а во втором ? выборочная доля величин, обозначаемая w. В генеральной совокупности соответственно: генеральная средняя и генеральная доля р. Разности ? и W ? р называются ошибкой выборки, которая делится на ошибку регистрации и ошибку репрезентативности. Первая часть ошибки выборки возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательности регистратора при заполнении анкет, формуляров и т.п. Она достаточно легко обнаруживается и устраняется. Вторая часть ошибки возникает из-за постоянного или спонтанного несоблюдения принципа случайности отбора. Ее трудно обнаружить и устранить, она гораздо больше первой и потому ей уделяется основное внимание.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки Карлом Гауссом Гамусс Иоганн Карл Фримдрих (GauЯ Johann Carl Friedrich; 30.04.1777 г., Брауншвейг - 23.02.1855 г., Гёттинген) - выдающийся немецкий, астроном и физик, считается одним из величайших математиков всех времён, «королём математиков». в 1794 г. метода наименьших квадратов.

Разработка методов аппроксимации (приближения) данных и сокращения размерности описания была начата более 100 лет назад, когда Карл Пирсон Пирсон Карл (Pearson Karl (Charles) (27.03.1857 г. - 27.04.1936 г.) - выдающийся английский математик, статистик, биолог, философ (позитивист и агностик). Профессор прикладной математики и механики (с 1884 г.), а затем евгеники (с 1911 г.) Лондонского университета. создал метод главных компонент.

Другими способами уменьшения размерности данных являются методы независимых компонент, многомерное шкалирование, а также нелинейные обобщения, такие как метод главных кривых и многообразий, метод упругих карт, поиск наилучшей проекции, нейросетевые методы сжатия данных («узкого горла»), самоорганизующиеся карты Кархунена и др.

Позднее были разработаны факторный анализ Харман Г., Современный факторный анализ. - М.: Статистика, 1972. - 486 с. и многочисленные нелинейные обобщения. Gorban A.N., Kegl B., Wunsch D., Zinovyev A.Y. (Eds.), Principal Manifolds for Data Visualisation and Dimension Reduction, Series: Lecture Notes in Computational Science and Engineering 58, Springer, Berlin - Heidelberg - New York, 2007, XXIV, 340 p. 82 illus. ISBN 978-3-540-73749-0

Метод главных компонент и будет рассмотрен поподробнее.

2.2 Метод главных компонент

Метод главных компонент (PCA - Principal component analysis) - один из основных способов уменьшить размерность данных при наименьшей потере сведений. Изобретенный в 1901 г. Карлом Пирсоном он широко применяется во многих областях. Например, для сжатия данных, «компьютерного зрения», распознавания видимых образов и т.д. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Метод главных компонент часто называют преобразованием Кархунена-Лёве (Karhunen-Loeve transform) или преобразованием Хотеллинга (Hotelling transform). Также над этим вопросом работали математики Косамби (1943 г.), Пугачёв (1953 г.) и Обухова (1954 г.).

Задача анализа главных компонент имеет своей целью аппроксимировать (приблизить) данные линейными многообразиями меньшей размерности; найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален; найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально. В этом случае оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных.

Кроме того задачей анализа главных компонент может быть цель построить для данной многомерной случайной величины такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль. Эта версия оперирует случайными величинами.

Рис.3 Метод главных компонент К. Пирсона (1901 г.).

На приведённом выше рисунке даны точки Pi на плоскости, pi - расстояние от Pi до прямой AB. Ищется прямая AB, минимизирующая сумму

Метод главных компонент начинался с задачи наилучшей аппроксимации (приближения) конечного множества точек прямыми и плоскостями. Например, дано конечное множество векторов . Для каждого k = 0,1,...,n ? 1 среди всех k-мерных линейных многообразий в найти такое , что сумма квадратов уклонений xi от Lk минимальна:

,

где ? евклидово расстояние от точки до линейного многообразия.

Всякое k-мерное линейное многообразие в может быть задано как множество линейных комбинаций , где параметры вi пробегают вещественную прямую , а ? ортонормированный набор векторов

,

где евклидова норма, ? евклидово скалярное произведение, или в координатной форме:

.

Решение задачи аппроксимации для k = 0,1,...,n ? 1 даётся набором вложенных линейных многообразий

,

.

Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором a0. Вектор a0 ищется, как решение задачи минимизации для L0:

то есть

.

В итоге получается выборочное среднее:

Французский математик Морис Фреше Фреше Морис Рене (Frйchet Maurice Renй) (02.09.1878 г. - 04.06.1973 г.) - выдающийся французский математик. Трудился в области топологии и функционального анализа, теории вероятностей. Автор современных понятий о метрическом пространстве, компактности и полноте. Авт. в 1948 году обратил внимание, что вариационное определение среднего, как точки, минимизирующей сумму квадратов расстояний до точек данных, очень удобно для построения статистики в произвольном метрическом пространстве, и построил обобщение классической статистики для общих пространств, получившее название обобщённого метода наименьших квадратов.

Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации:

1) централизуем данные (вычитаем среднее):

Теперь ;

2) находим первую главную компоненту как решение задачи;

.

Если решение не единственно, то выбираем одно из них.

3) Вычитаем из данных проекцию на первую главную компоненту:

;

4) находим вторую главную компоненту как решение задачи

.

Если решение не единственно, то выбираем одно из них.

2k-1) Вычитаем проекцию на (k ? 1)-ю главную компоненту (напомним, что проекции на предшествующие (k ? 2) главные компоненты уже вычтены):

;

2k) находим k-ю главную компоненту как решение задачи:

.

Если решение не единственно, то выбираем одно из них.

Рис. 4 Первая главная компонента и максимальная выборочная дисперсия

Первая главная компонента максимизирует выборочную дисперсию проекции данных.

Например, пусть нам дан центрированный набор векторов данных , где среднее арифметическое значение xi равно нулю. Задача ? найти такое отртогональное преобразование в новую систему координат, для которого были бы верны следующие условия:

1. Выборочная дисперсия данных вдоль первой координаты (главной компоненты) максимальна;

2. Выборочная дисперсия данных вдоль второй координаты (вторая главная компоненты) максимальна при условии ортогональности первой координате;

3. Выборочная дисперсия данных вдоль значений k-ой координаты максимальна при условии ортогональности первым k ? 1 координатам;

Выборочная дисперсия данных вдоль направления, заданного нормированным вектором ak, это

(поскольку данные центрированы, выборочная дисперсия здесь совпадает со средним квадратом уклонения от нуля).

Решение задачи о наилучшей аппроксимации даёт то же множество главных компонент , что и поиск ортогональных проекций с наибольшим рассеянием, по очень простой причине:

и первое слагаемое не зависит от ak.

Матрица преобразования данных к главным компонентам строится из векторов «A» главных компонент:

Здесь ai -- ортонормированные векторы-столбцы главных компонент, расположенные в порядке убывания собственных значений, верхний индекс T означает транспонирование. Матрица A является ортогональной: AAT = 1.

После преобразования большая часть вариации данных будет сосредоточена в первых координатах, что даёт возможность отбросить оставшиеся и рассмотреть пространство уменьшенной размерности.

Самым старым методом отбора главных компонент является правило Кайзера, Кайзер Иоганн Генрих Густав (Kaiser Johann Henrich Gustav, 16.03.1853 г., г.Брезно, Пруссия - 14.10.1940 г., Германия) - выдающийся немецкий математик, физик, исследователь в области спектрального анализа. Авт. по которому значимы те главные компоненты, для которых

то есть лi превосходит среднее значение л (среднюю выборочную дисперсию координат вектора данных). Правило Кайзера хорошо работает в простых случаях, когда есть несколько главных компонент с лi, намного превосходящими среднее значение, а остальные собственные числа меньше него. В более сложных случаях оно может давать слишком много значимых главных компонент. Если данные нормированы на единичную выборочную дисперсию по осям, то правило Кайзера приобретает особо простой вид: значимы только те главные компоненты, для которых лi > 1.

Одним из наиболее популярных эвристических подходов к оценке числа необходимых главных компонент является правило сломанной трости, когда набор нормированных на единичную сумму собственных чисел (, i = 1,...n) сравнивается с распределением длин обломков трости единичной длины, сломанной в n ? 1-й случайно выбранной точке (точки разлома выбираются независимо и равнораспределены по длине трости). Если Li (i = 1,...n) - длины полученных кусков трости, занумерованные в порядке убывания длины: , тогда математическое ожидание Li:

Разберём пример, заключающийся в оценке числа главных компонент по правилу сломанной трости в размерности 5.

Рис. 5. «Правило сломанной трости» в размерности 5

По правилу сломанной трости k-й собственный вектор (в порядке убывания собственных чисел лi) сохраняется в списке главных компонент, если

На рисунке выше приведён пример для 5-мерного случая:

l1=(1+1/2+1/3+1/4+1/5)/5; l2=(1/2+1/3+1/4+1/5)/5; l3=(1/3+1/4+1/5)/5;

l4=(1/4+1/5)/5; l5=(1/5)/5.

Для примера выбрано

=0.5; =0.3; =0.1; =0.06; =0.04.

По правилу сломанной трости в этом примере следует оставлять 2 главных компоненты:

Следует только иметь в ввиду, что правило сломанной трости имеет тенденцию занижать количество значимых главных компонент.

После проецирования на первые k главных компонент с удобно произвести нормировку на единичную (выборочную) дисперсию по осям. Дисперсия вдоль iй главной компоненты равна ), поэтому для нормировки надо разделить соответствующую координату на . Это преобразование не является ортогональным и не сохраняет скалярного произведения. Ковариационная матрица проекции данных после нормировки становится единичной, проекции на любые два ортогональных направления становятся независимыми величинами, а любой ортонормированный базис становится базисом главных компонент (напомним, что нормировка меняет отношение ортогональности векторов). Отображение из пространства исходных данных на первые k главных компонент вместе с нормировкой задается матрицей

.

Именно это преобразование чаще всего называется преобразованием Кархунена-Лоэва, то есть собственно методом главных компонент. Здесь ai -- векторы-столбцы, а верхний индекс T означает транспонирование.

В статистике при использовании метода главных компонент используют несколько специальных терминов.

Матрица данных , где каждая строка - вектор предобработанных данных (центрированных и правильно нормированных), число строк - m (количество векторов данных), число столбцов - n (размерность пространства данных);

Матрица нагрузок (Loadings) , где каждый столбец - вектор главных компонент, число строк -- n (размерность пространства данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);

Матрица счетов (Scores)

,

где каждая строка - проекция вектора данных на k главных компонент; число строк - m (количество векторов данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);

Матрица Z-счетов (Z-scores)

,

где каждая строка-- проекция вектора данных на k главных компонент, нормированная на единичную выборочную дисперсию; число строк - m (количество векторов данных), число столбцов - k (количество векторов главных компонент, выбранных для проецирования);

Матрица ошибок (остатков) (Errors or residuals)

.

Основная формула:

Таким образом, Метод главных компонент, один из основных методов математической статистики. Основным предназначением его является разграничение между необходимостью исследования массивов данных при минимуме их использования.

2.3 Применение Метода главных компонент

Метод главных компонент применим всегда. Утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) многими математиками считается неверным, так как в исходной формулировке К. Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза об их статистическом порождении, не говоря уж о распределении.

Рис. 6. Аппроксимирующий дендрит - «древо приближения»

Построение ветвящихся главных компонент методом топологических грамматик, где «крестики» это точки данных, а красное дерево с желтыми узлами - аппроксимирующий дендрит, то есть «древо приближения».

Однако метод не всегда эффективно снижает размерность при заданных ограничениях на точность дk. Прямые и плоскости не всегда обеспечивают хорошую аппроксимацию. Например, данные могут с хорошей точностью следовать какой-нибудь кривой, а эта кривая может быть сложно расположена в пространстве данных. В этом случае метод главных компонент для приемлемой точности потребует нескольких компонент (вместо одной), или вообще не даст снижения размерности при приемлемой точности. Для работы с такими «кривыми» главными компонентами изобретен метод главных многообразий Диссертация T. Хасти: Hastie T., Principal Curves and Surfaces, Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, California, US, November 1984. Сайт PCA. и различные версии нелинейного метода главных компонент. Yin H. Learning Nonlinear Principal Manifolds by Self-Organising Maps, In: Gorban A.N. et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0 Данные сложной топологии апроксимируются при помощи саморегулирующихся карт Кархунена или топологических грамматик Зиновьева, Горбаня и Саммера. Gorban A. N. , Sumner N. R., and Zinovyev A. Y., Topological grammars for data approximation, Applied Mathematics Letters, Volume 20, Issue 4 (2007), 382 - 386; или Gorban A. N. , Sumner N.R., and Zinovyev A.Y., Beyond The Concept of Manifolds: Principal Trees, Metro Maps, and Elastic Cubic Complexes In: Gorban A. N. et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0; а также в arXiv Если данные статистически порождены с распределением, сильно отличающимся от нормального, то для аппроксимации распределения полезно перейти от главных компонент к независимым компонентам Гидринена, Кахранена и Ойя, Hyvdrinen A, Karhunen J., and Oja E., Independent Component Analysis, A Volume in the Wiley Series on Adaptive and Learning Systems for Signal Processing, Communications, and Control. -- John Wiley & Sons, Inc., 2001. -- XVI+481 pp. ISBN 0-471-40540-X которые уже не ортогональны в исходном скалярном произведении. Наконец, для изотропного распределения (даже нормального) вместо эллипсоида рассеяния получаем шар, и уменьшить размерность методами аппроксимации невозможно.

Примеры использования Метода главных компонент представлены визуализацией данных, то есть представлением в наглядной форме данных эксперимента или результатов теоретического исследования. Визуализация данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений. Зиновьев А.Ю., Визуализация многомерных данных, Красноярск, Изд. КГТУ, 2000 г.

Компрессия изображений и видео применяется для уменьшения пространственной избыточности пикселей при кодировании изображений и видео, когда используется линейные преобразования блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.

Подавление шума на изображениях заключается в том, что при удалении шума из блока пикселей необходимо представить окрестность этого блока в виде набора точек в многомерном пространстве, применить к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование получают изображение без шума.

Индексация видео заключается в том, что при помощи PCA каждый кадр видео несколькими значениями, которые в дальнейшем будут использоваться при построении базы данных и запросам к ней. Такая существенная редукция данных позволяет значительно увеличить скорость работы и устойчивость к ряду искажений в видео.


Подобные документы

  • Предмет, методы и понятия математической статистики, ее взаимосвязь с теорией вероятности. Основные понятия выборочного метода. Характеристика эмпирической функции распределения. Понятие гистограммы, принцип ее построения. Выборочное распределение.

    учебное пособие [279,6 K], добавлен 24.04.2009

  • Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.

    курсовая работа [988,5 K], добавлен 19.01.2011

  • Числовые характеристики выборки. Статистический ряд и функция распределения. Понятие и графическое представление статистической совокупности. Метод наибольшего правдоподобия для нахождения плотности распределения. Применение метода наименьших квадратов.

    контрольная работа [62,6 K], добавлен 20.02.2011

  • Формы, виды и способы статистического наблюдения. Виды группировок, их интервал и частота. Структура ряда динамики. Абсолютные и относительные статистические величины. Представление выборки в виде статистического ряда. Точечное и интервальное оценивание.

    курс лекций [1,1 M], добавлен 29.11.2013

  • Основные методы формализованного описания и анализа случайных явлений, обработки и анализа результатов физических и численных экспериментов теории вероятности. Основные понятия и аксиомы теории вероятности. Базовые понятия математической статистики.

    курс лекций [1,1 M], добавлен 08.04.2011

  • Вероятность и ее общее определение. Теоремы сложения и умножения вероятностей. Дискретные случайные величины и их числовые характеристики. Закон больших чисел. Статистическое распределение выборки. Элементы корреляционного и регрессионного анализа.

    курс лекций [759,3 K], добавлен 13.06.2015

  • Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа [215,1 K], добавлен 13.12.2014

  • Теорема Бернулли как простейшая форма закона больших чисел. Предельные теоремы теории вероятностей и объяснение природы устойчивости частоты появлений события. Качественные и количественные утверждения закона больших чисел, его практическое применение.

    курсовая работа [75,2 K], добавлен 17.12.2009

  • Применение в статистике конкретных методов в зависимости от заданий. Методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод. Корреляционный и дисперсный анализ. Расчет средних статистических величин.

    контрольная работа [29,5 K], добавлен 21.09.2009

  • Исторические аспекты развития статистики, ее предмет. Понятие статистической методологии. Организация государственной и международной статистики. Программа и формы статистического наблюдения. Формы вариационного ряда. Средняя арифметическая и ее свойства.

    шпаргалка [37,9 K], добавлен 12.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.