Прогнозирование цен акций компаний нефтегазового сектора

Цена на нефть как основной фактор изменения цен акций компании. Влияние новостного фона о компании на цену акций. Механизм работы фондового рынка. Рекуррентная нейронная сеть с долгой краткосрочной памятью. Выбор временного интервала для прогнозирования.

Рубрика Экономика и экономическая теория
Вид дипломная работа
Язык русский
Дата добавления 04.09.2016
Размер файла 3,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

В последнее десятилетие проведена огромная работа в области применения машинного обучения для построения ценовых моделей в части прогнозирования цен на акции и изменения различных индексов.

Большинство фондовых трейдеров на сегодняшний день используют различные автоматизированные торговыми системами, которые помогают мгновенно принимать взвешенные решения о покупке/продаже тех или иных акций. Цены на акции отличаются высокой динамикой и восприимчивостью к внешней среде, потому что складываются как из известных всем факторов (текущая цена, цена за прошлые периоды времени), так и из частично-известных или известных только небольшой группе людей факторов (различные слухи о слиянии, поглощении, закрытые политические решения и т д).

Трейдер должен уметь приблизительно предугадывать интервал, в котором будет торговаться акций на следующий день, чтобы покупать или продавать акции ещё до того, как цена пойдет вверх или вниз. Разработанные на сегодняшний день алгоритмы, предсказывающие цену акции в следующие периоды времени способны значительно повысить прибыль различных инвестиционных фондов и трейдеров. Однако, использования самого лишь алгоритма недостаточно для получения сверхприбыли, ведь алгоритм также как и трейдер, не может улавливать различные слухи, которые известны только закрытой группе людей, но он способен увидеть изменение в спросе практически в начальный момент времени, что повлечет за собой необходимую реакцию и корректировку предсказанного значения на следующие периоды. Применение современных методов машинного обучения к задаче прогнозирования цены акции является одной из ключевых особенностей данной работы наряду с использованием новостного фона о компании. Предполагается, что использование данного предиктора может значительно улучшить качество модели. Итак, в данной работе изучается вопрос: способны ли средства машинного обучения наряду с фактором новостного фона о компаниях различной региональной принадлежности значительно улучшить качество среднесрочного прогноза.

Проблема прогнозирования цен акий компании на фондовом рынке появилась достаточно давно и имеет разные способны решения. Актуальность проблемы заключается в том, что на сегодняшний день существенное развитие вычислительных технологий, появление новых источников данных и алгоритмов анализа данных позволяет с большей точностью предсказывать различные показатели на фондовом рынке.

Исходя из вышеизложенного, объектом исследования является фондовый рынок.

Предмет исследования: прогнозирование цен акций компаний нефтегазового сектора.

Цель исследования: разработка модели, позволяющей прогнозировать цены акций компаний нефтегазового сектора, имеющих различную региональную принадлежность.

Для достижения поставленной цели были сформированы следующие задачи исследования:

1) анализ предметной области;

2) определение факторов, влияющих на значения цены акций компаний нефтегазового сектора;

3) построение эконометрических моделей, описывающих цену акций компании нефтегазового сектора;

4) построение моделей нейронных сетей, описывающих цену акций компании нефтегазового сектора;

5) анализ построенных моделей.

Методами исследования являются:

· метод наименьших квадратов;

· интегрированная модель авторегрессии-скользящего среднего (ARIMA);

· рекуррентные нейронные сети с долгой краткосрочной памятью (LSTM RNN);

· модель распределенного лага (ADL);

· искусственные нейронные сети (ANN);

В качестве источника данных о цене акций, барреля нефти Brent и фондовых индексах был использован ресурс Yahoo Finance Yahoo! Finance предоставляет новости и справочную информацию по темам, связанным с бизнесом, финансами и экономикой. Справочная информация включает в себя котировки и рейтинги ценных бумаг, пресс-релизы и финансовые отчёты компаний.

Источником для новостного индекса о компании является ресурс Google Trends Google Trends является публичным web-приложением корпорации Google, основанным на поиске Google, которое показывает, как часто определенный термин ищут по отношению к общему объему поисковых запросов. Особенность сервиса заключается в способности отображать новости на графике, показывающем как новые события влияют на поисковую популярность., который позволяет получить агрегированную информацию о частоте новостных запросов пользователей.

Работа состоит из трех глав и заключения. В первой главе рассматривается работа фондового рынка, как системы в целом, а также определяет какие факторы могут оказывать влияние на стоимость одной акции нефтегазовой компании.

Во второй глазе рассматриваются инструментарий и методы исследования, используемые в данной работе. Описывается теоретическая составляющая классических подходов к моделированию временных рядов, а также рассматривается принцип работы обычных нейронных сетей, а также рекуррентных нейронных сетей с длительной краткосрочной памятью в задачах прогнозирования.

В третьей главе представлено практическое применение описанных методов с целью построения лучшей модели. Сравнение моделей проводилось на основании RMSE, MAPE и AIC построенного прогноза на данных, не участвующих в обучении модели.

Одной из особенностей данной работы является использование данных новостного фона о компании для предсказания цены акции.

Методы прогнозирования рассмотрены на примере цен акций двух различных компаний, которые диаметрально различаются как по геополитической принадлежности, так и по составу основных акционеров. В работе также проводится сравнительный анализ экзогенных переменных, влияющих на итоговую цену акции рассматриваемых компаний.

цена акция нефть краткосрочный

Глава 1. Особенности поведения цен акций компаний нефтегазовой отрасли на фондовом рынке

1.1 Механизм работы фондового рынка

Фондовый рынок представляет собой сложную, постоянно изменяющуюся, нелинейную, динамическую, эволюционирующую систему. Задачу финансового прогнозирования также усложняют меняющаяся интенсивность поступления данных, шумовые данные, нестационарность временных рядов, неструктурированность данных и прочие проблемы. В список наиболее часто встречающихся проблем входят и скрытые отношения между различными участниками фондового рынка, поведение которых может значительно менять спрос на рынке. Также необходимо упомянуть и политические события и решения управляющих органов, проследить действия которых в каждый момент времени, а тем более предсказать, практически невозможно.

На протяжении уже нескольких десятков лет проблема прогнозирования цен акций компании остается актуальной, ведь современные средства коммуникации позволяют совершать операции купли/продажи как дома, так и далеко за его пределами. Прогнозирование дает возможность пользователю определять цену акции в будущем, а значит и иметь преимущество перед остальными игроками. Именно из-за возможности предсказать изменение рынка с каждым годом появляется всё больше средств и методов для построения различных моделей прогнозирования.

В свою очередь, сам по себе рынок ценных бумаг в 21 веке стал неотъемлемой частью экономической жизни многих государств. При этом, наибольший интерес представляют собой не абсолютные значения котировок тех или иных компаний, а их динамика. Большая часть международных компаний на сегодняшний день являются публичными, их акции можно купить на бирже, следовательно цена публичной компании складывается из трех глобальных факторов:

· результат деятельности компании;

· спрос на акции компании;

· экономическая ситуация в стране, где компания ведет деятельность, а также экономическая ситуация в мире в целом.

Только одним из трех факторов, а именно результатом деятельности компании, организация может управлять и корректировать, остальные находятся вне непосредственного контроля. Соответственно, в данном контексте для самой организации в целях управления рисками появляется задача прогнозирования стоимости собственных акций, а также акций основных конкурентов.

Необходимо отметить, что с появлением программного обеспечения для онлайн-торговли акциями, на публичные компании стало гораздо больше давления, ведь на фондовом рынке стало в сотни тысяч раз больше игроков и понять поведение большей из них доли - невозможно. Более того, на сегодняшний день основную долю операций на фондовых рынках составляет алгоритмическая торговля Согласно данным инвестиционной компании ГАЗИНВЕСТ уже на 2011 год более 70% транзакций на фондовом рынке выполнялись с помощью автоматизированных систем торговли. Источник http://gasinv.ru/algoritmicheskaya-torgovlya-na-finansovykh-rynkakh. По разным оценкам, торговля с помощью «торговых роботов» или алгоритмическая торговля на данный момент в России занимает около 70% объемов торгов, а в некоторых странах данная отметка переваливает и за 80%.

На фондовом рынке существует несколько основных гипотез, все или большинство из которых используют профессиональные трейдеры. Одной из них является гипотеза эффективного рынка гипотеза эффективного рынка была дана американцем Э. Фамой в «Journal of Business», 1965.

Основная идея гипотезы заключается в рациональности инвесторов и отсутствии инфомационного дисбаланса. По мнению эксперта, рынок обладает эффективностью только в том случае, если он быстро адаптируется к новой информации. Соответственно, согласно данной гипотезе вся новая информация о фондовом рынке в момент появления влияет на баланс спроса/предложения, а значит цена акции на какой-либо момент времени t отображает весь информационный фон, который имеет отношение к данной акции. Согласно данной гипотезе различают слабую, среднюю и сильную форму эффективности рынка:

· Слабая форма - рыночный и технический анализ не в состоянии предсказать будущие цены, в таком случае независимость цен акций называют случайным блужданием цен.

· Полусильная форма - согласно данной форме, в рыночной цене отражена вся публичная информация фондового рынка. На рынок случайным образом сваливается различное количество благоприятной и неблагоприятной информации о компаниях, экономике в целом, отраслях, политике, соответственно цены должны изменяться равно случайным образом, по мере того как информация отображается в текущих ценах акций.

· Сильная форма - данная форма характеризуется полным отражением в цене всей возможной информации о фондовом рынке. Даже тщательный анализ не даст преимущество трейдеру перед остальным рынок. В данном случае прибыль стоит строить на выявлении неверно оцененных бумаг, делая рынок эффективным.

Данная концепция приводит непосредственно к концепции компромисса между риском и доходностью. При умеренной форме эффективности фондового рынка, когда в ценах акций содержится вся общедоступная информация, а значит, их стоимость не искажена и её можно спрогнозировать, зная появится ли новая группа новостей. В таком случае высокие доходы будут сопряжены только с высокорисковыми акциями, а значит для всех участников рынка различия в ожидаемых значениях доходности определяются только различиями в степени риска, на который идет участник рынка.

В результате, прогнозирование цены акции компании является способом снижения информационной энтропии для каждого участника рынка, ведь в условиях полной неопределенности невозможно принимать качественные решения как менеджменту самой компании, так и различным инвестиционным фондам, заинтересованным получить чистую прибыль от покупки/продажи акций компании или иным людям, зарабатывающим на фондовом рынке.

Ещё одна интересная гипотеза получила название «гипотеза большего дурака». Её идея заключается в том, что трейдер может зарабатывать на фондовом рынке до тех пор, пока на рынке присутствуют другие участники, разбирающиеся в фондовом рынке хуже, нежели самого трейдера. Иными словами трейдер может зарабатывать пока существуют другие трейдеры, готовые купить его акции по более высокой цене, нежели он сам. Сторонники данной гипотезы предпочитают игнорировать кратковременные скачки цен, отчетные периоды и остальную информацию, полагаясь лишь на собственный опыт и точку зрения. Они считают, что «гнаться» за всеми новостями также рискованно, как и не учитывать их вообще В статье «Seven Controversial Investing Theories», Investopedia, автор Andrew Beattie описывает различные наиболее часто встречающиеся стратегии поведения трейдеров на фондовом рынке. Источник http://www.investopedia.com/articles/financial-theory/controversial-financial-theories.asp .

Фондовый рынок по сути своей является вторичным рынком ценных бумаг, на котором перераспределяются права на долю собственности или долгов компаний эмитентов ценных бумаг. Компании, акции которых торгуются на бирже, не теряют и не приобретают никакого финансирования при изменении цены акций.

Механизмы торговли на вторичным рынке служат средством перераспределения ценных бумаг между крупными первичными инвесторами и более мелкими инвестиционными компаниями и частными инвесторами. Примечательно, что основной оборот ценных бумаг происходит на вторичном рынке, поэтому именно он используется для анализа в данной работе. Без существование вторичного рынка, невозможно функционирование первого, так как спрос на первом рынке имеет импульсный характер, а значит ни о каком более менее стабильном режиме работы речи идти не может.

Благодаря фондовому рынке, собственниками ценных бумаг могут стать частные лица из любой точки мира. Наличие достаточного количества частных инвесторов позволяет экономике различных стран эффективно функционировать, привлекая дополнительные денежные средства для дальнейшего развития.

Вторичный рынок ценных бумаг делится на два вида: биржевой и внебиржевой. Разница заключается в том, что при работе на бирже инвестор не видит своего контрагента по сделке, и сохранность исполниня гарантирует сама биржа. На внебиржевом рынке сделки совершаются напрямую между контрагентами, что конечно уменьшает риски, но в то же время увеличивает длительность самих переговоров и сделки, а в данной сфере время зачастую играет решающую роль.

В данной работе речь пойдет о биржевом виде, так как именно к нему человек из любой точки мира имеет доступ. На сегодняшний день практически все биржи мира - электронные, то есть заявки на покупку/продажу акций поступают по различным электронным системам связи. Поскольку биржевая деятельность регулируется государством, на биржу возложены функции не только организатор торгов, но и пресечения различных манипуляций, махинаций и прочих нарушения правила биржевой торговли. Ценные бумаги, торгующиеся на бирже, являются одной из форма существования капитала. Соответственно при биржевой торговле ценные бумаги перераспределяют средства между различными государствами, секторами экономики, отраслями промышленности, частными инвестиционными фондами и акционерами.

Для регулирования необходимо понимать, что фондовый рынок устроен таким образом, что деньги перетекают в ту сферу, где, по мнению инвестора, могут принести большую прибыль. Данный принцип действует для всех компаний и отраслей экономики на протяжении всего существования фондового рынка. Таким образом, фондовый рынок - место, где происходит торговля ценными бумагами и перераспределение капиталов между странами, секторами и отраслями экономики с одной стороны, и группами инвесторов - с другой. Без фондового рынка невозможен был бы прогресс, которого добилось общество.

Одним из наиболее важных факторов, который влияет на экономику практически каждой страны, а значит и на различные показатели фондового рынка, является цена на нефть. Далее, в работе рассмотрен показатель цены на нефть, а также его влияние на экономики различных стран

1.2 Цена на нефть как основной фактор изменения цен акций компании

Цена на нефть на сегодняшний день является одним из самых непредсказуемых факторов мировой экономики. При этом, в отличие от фондовых индексов, зачастую изменение цены на нефть невозможно ни предсказать, ни даже объяснить. Соответственно, не было бы так много внимания уделено биржевой цене на нефть марки Brent или WTI, если бы не то влияние, которое она оказывает на фондовый рынок и экономику всех стран мира. Сложность заключается в том, что на фондовом рынке торгуется в основном «бумажная нефть», то есть различные производные инструменты от реальной нефтяной добычи от продажи. Кризис 2008 года показал, что нефтяной рынок был «перегрет» - объемы торговли «бумажной нефтью» превышали в несколько раз объемы торговли реальным товаром. В результате, цена на нефть определяется далеко не балансом спроса/предложения на сырье, а спекулянтами.

Под ценой на нефть на фондовом рынке понимают спотовые цены барреля нефти одного из маркерных сортов (Brent, реже WTI). Общемировой спрос на нефть является не эластичным, то есть он практически не изменяется при колебаниях цены, однако, спотовые цены на цену барреля нефти довольно значительно меняются из-за множества различных факторов внешней среды, таких как экономико-политические обстоятельства глобального масштаба. Спрос на нефть в краткосрочной перспективе малоэластичен. Это связано с тем, что нефть на сегодняшний день остается одним из основных энергоресурсов и не может быть заменена. Соответственно, при увеличении цены, спрос в краткосрочном периоде не изменяется.

Однако, другая ситуация в среднесрочной перспективе. Рост цен заставляет потребителей задумываться, например, о покупке более экономичного автомобилей, а технологичные компании вкладывать инвестиции на создание электромобилей.

В долгосрочной перспективе спрос на нефть также непрерывно увеличивается за счет увеличения количества автомобилей и населения планеты в целом. Относительно к числу крупнейших потребителей нефти присоединились Индия и Китай. В 20 веке рост спроса на нефть уравновешивался разведкой новых нефтяных месторождений, позволяя увеличивать добычу. Уже в 21 веке большинство нефтяных месторождений могут исчерпать себя, что приведет к диспропорции между спросом и предложением, что может повлечь за собой глобальный энергетический кризис. Именно поэтому большинство экономик мира зависят от текущих цен на нефть. Далее в работе рассматривается влияние цен на нефть на экономику России и Соединенных Штатов Америки.

1.3 Нефтегазовая отрасль в России, связь с ценами на нефть

Нефтегазовая промышленность считается одной из основных частей экономики России, что в определяющей мере обеспечивает как функционирование двух отраслей, так и степень макроэкономических показателей страны. Нефтегазовая отрасль играет важнейшую роль в планомерном экономическом развитии страны, в её безопасности, энергетической независимости, сельском хозяйстве и прочих отраслях. В новейших макроэкономических условиях нефтегазовая отрасль в России оказалась в тяжелом состоянии. Запасы залежей исчерпываются, усложняются условия их добычи, уменьшаются объемы поставки и переработки нефти. На страну, доля которой в мировой добыче нефти занимает более 11% (на 2015 год), нефтегазовый кризис оказывает огромное влияние.

Более 90% добычи нефти и газа в стране приходится на 8 предприятий нефтегазового сектора Данные согласно информационному отчету компании INFOLine. Источник http://infoline.spb.ru/upload/iblock/7e7/7e7da9d58fa28891ca69071a601afcfc.pdf , среди которых одним из лидеров является «Роснефть». Компания является монополистом на данным рынке, разрабатывает стратегию развития нефтегазовой сферы и осуществляет структурную перестройку отрасли, обеспечивает потребность промышленных потребителей и населения в целом, обеспечивает бесперебойные поставки нефти и газа в государства Европейского Союза.

Нефтегазовая отрасль России характеризуется высокой степенью монополизации, недостаточной прозрачностью принятия решений, несовершенной организационной структурой управления и недостаточно раззвитой конкуренцией. Именно из-за этих проблем привлечение инвестиций, в том числе от иностранных партнеров, сдерживается целым рядом факторов, в том числе нестабильностью политических отношений между государствами.

Согласно данным Министерства финансов РФ, доля нефтегазовых доходов в бюджете страны на март 2016 года составляет 37%, что на 5% ниже соответствующего показателя годом ранее и на 15% ниже, чем в 2014 году. Также, доля нефтегазовых доходов в ВВП страны постепенно снижается. Например, если в 2010 году она достигала 25%, то к концу 2015 упала ниже 10%. Крупнейшей нефтедобывающей компанией страны является «Роснефть», на которую приходится около 40% добычи, второе место занимает «Лукойл» с 16%, далее располагаются «Газпром-нефть» и «Сургутнефтегаз» с 11% и 10% соответственно Ежегодный отчет Министертсва Финансов. Выпуск от 25.12.2015. Выборочное издание. Источник http://minfin.ru/ru/ .

Однако, если рассмотреть более подробно, доля нефтегазовой отрасли будет в несколько раз больше. Около 30% ВВП России состоит из торговли, при этом 60% товаров Россия импортирует за счет поступления от экспорта, в котором доминирует нефть и газ, что соответсвует добавлению ещё 18% к ранним 10%. Также, около 20% ВВП России составлят государственные расходы. Их источником являются доходы консолидированного бюджета, не менее 60% которых формируются за счет налога на добычу полезных ископаемых, акцизов, экспортных пошлин, НДС на импорт и других налогов нефтегазового сектора, что составляет 12%. В итоге, получается, что в исходным 10% необходимо добавить 18% и 12% соответственно. В итоге, при самом крупном рассмотрении получается, что более 40% ВВП страны является нефтезависимым. В данную оценку также не входят инвестиции в другие сектора экономики, которые идут от доходов нефтегазовой отрасли, а это ещё более 10% ВВП.

Суммарно, более 50% ВВП России зависит от нефтегазовой отрасли, что является очень внушительным показателем «Когда мы мечтали, чтобы цены выросла до $20 за баррель.» Известия от 31.03.2016. Президент Союза нефтегазопромышленников РФ. Источник http://minfin.ru/common/upload/library/2016/03/main/Materialy_SMI_31.03.16.pdf . Данная гипотеза легко подтверждается графиком (Рисунок 1), на котором представлено изменение доходов консолидированного бюджета РФ и изменение цены нефти марки WTI относительно 1998 года.

Рисунок 1, Изменение доходов бюджета РФ и цены нефти WTI во времени

Также интересно посмотреть зависимость роста ВВП России в долларах и рост цены марки WTI в процентном отношении (Рисунок 2).

Рисунок 2, Темпы роста ВВП РФ и цены на нефть WTI во времени

Исходя из графика вывод очевиден, при этом, если до 2007 года ещё были различные отклонения темпов роста ВВП от темпов роста цены на нефть, то за последние 8 лет эта зависимость только укрепилась. В итоге, можно сделать вывод, что экономика России не зависит ни от внутренней политики, ни от политического курса, ни от различных технологиеских прорывов. Единственное, что действительно влияет - цены на нефть и газ.

1.4 Развитие нефтегазовой отрасли в США

В отличии от России, нефтяная отрасль США - пример существования интегрированных гигантов и независимых производителей. При этом, если первым доступен весь производственный цикл от геологоразведочных работ до реализации самого сырья и его производных, то активы вторых сосредоточены исключительно на разведке и добыче нефти Источник: Independent Gain Prominence in Oil and Gas. U.S. Department of Energy, 1995. - Http://www.eia.doe.gov .

Независимые производители многочислены (более 8 тыс. различных компаний). Большинство из них работает на низкорентабельных скважинах. В общей сложности на такие компании приходится около 40% американской нефтедобычи. Независимые нефтегазовые компании с их высокой долей реинвестированных средств и низкими выплатами акционерам вкладывают средства в проекты с относительно низкой доходностью, зато не имея конкурентов в лице лидеров отрасли. Данный факт объясняется той рыночной нишей, которую занимают эти компании, разрабатывая трудно извлекаемые небольшие запасы нефти.

США обладает наиболее развитой нефтеперерабатывающей промышленностью, нежели любая другая страна в мире. Число нефтеперерабатывающих заводов с каждым годом сокращается, а единичные мощности отдельных предприятий возрастают. Глобально, нефтяная промышленность США подчинаеется десяти гигантским нефтегазовым монополиям во главе с корпорацией ExxonMobil. Ведущие 10 компаний управляют более 50% всех мощностей нефтеперерабатывающих заводов страны, контролируют значительную часть нефтедобычи более мелких фирм, владеют трубопроводами и имеют собственный танкерный флот.

Соединенные Штаты Америки переходят на добычу сланцевой нефти для снижения зависимости от других стран экспортеров: Саудовской Арамии, Мексики, Канады, Венесуэлы и так далее. «Shale Gas Will Rock the World» The wall street Journal, 05.2015. Источник http://www.wsj.com/public/page/energy-051010.html Начиная с 2010 года добыча собственной нефти США резко увеличилась, однако, данный рост постепенно снижается и на сегодняшний день.

Несмотря на довольно быстрое развитие сланцевой отрасли в США, на её пути стоят определенные препятствия, которые можно разделить на внутренние факторы и факторы внешней среды. К факторам внешней среды можно отнести низкие цены на углеводороы и политику ОПЕК, к внутренним - технологические, юридические, экологические проблемы. Следует отметить, что внутренние проблемы в процессе разрешения на сегодняшний день. Например, технологическая проблема заключается в отсутствии логистической сети для транспортировки нефти, и на сегодняшний день строится широкая транспортная сеть. Одним из главных препятствий является экологический вопрос, проблемой является технология гидроразрыва пласта и ущерб, который наносится окружающей среде.

Сланцевая революция началась без поддержки правительства и способна продолжиться, если это будет экономически выгодно различным инвесторам. При удачном стечении обстоятельств и активной поддержке государства в первую очередь в области экспортного и экологического законодательства можно ожидать ещё большего темпа роста данной области.

1.5 Индекс РТС, как основной показатель состояния фондового рынка России

Индекс РТС - один из основных индексов российского фондового рынка, являющийся наравне с индексом ММВБ основным показателем состояния фондового рынка России. Индекс показывает состояние рынка в целом, основываясь на акциях выбранных пятидесяти крупнейших компаний. Начальная точка расчета индекса -100 пунктов 1 сентября 1995 года. Одной из отличительных особенностей данного индекса является, что он рассчитывается не в основной валюте - рублях, а в долларах США. Индекс РТС представляет собой ценовой композитный индекс, взвешенный по рыночной капитализации, который рассчитывается на основе ликвидных акций 50 крупнейших и динамично развивающихся российских эмитентов, экономическая деятельность которых относится к основным секторам экономики.

Методика расчета индекса РТС представлена на официальном сайте Московской Биржи и рассчитывается по формуле

, (1)

где Icn - значение индекса РТС в момент n, MCcn - суммарная капитализация всех акций на момент времени n, Dcn - значение делителя в момент времени n.

Суммарная капитализация акций рассчитывается по формуле

, (2)

где Pci - цена i-той акции в долларах США, Qi - общее количество акций i одной категории одной компании, FFi - поправочный коэффициент, учитывающий объем ценных бумаг i в свободном обращении, Wi - весовой коэффициент, ограничивающий долю капитализации акции i.

Учитывая, что индекс расчитывается в долларах США, необходимо также определить, как рассчитывается курс доллара, а именно:

, (3)

где Pi - цена акции i в рублях, Kn - курс доллара США к рублю на момент времени n, равный Индикативному курсу доллара США к российскому рублю. Список компаний, которые входят в базу расчета индекса РТС представлен в Приложении 8.

1.6 Индекс S&P500, как основной показатель фондового рынка в США

Индекс S&P500, аналог индекса РТС в России - один из основных индексов фондового рынка США. Индекс позволяет инвесторам получить представление об общем движении рынка исходя из цен на акции 500 базовых компаний, торгующихся на бирже. Список компаний время от времени пересматривается в зависимости от технологического и экономического развития тех или иных компаний. Индекс постоянно изменяется рассчитывается по средневзвешенной рыночной капитализации. Индекс рассчитывается следующим образом:

, (4)

где Icn - значение индекса S&P500 в момент n, MCcn - суммарная капитализация всех акций на момент времени n, Dcn - значение делителя в момент времени n.

Суммарная капитализация акций рассчитывается по формуле

, (5)

где Pci - цена i-той акции в долларах США, Qi - общее количество акций i компании,

Коэффициент используется в основном, когда происходит фундаментальный сдвиг на рынке, либо обновляется список компаний, которые входят в базу расчета S&P500. Список компаний, которые входят в базу расчета индекса S&P500 представлен в Приложении 7.

1.7 Влияние новостного фона о компании на цену акций

Несмотря на то, что в основном, цены акции компании нейтегазовой отрасли возможно предсказать на основании индекса фондового рынка, цены на нефть и значения цены акций компании в прошлом, иногда случается явное, краткосрочное смещение баланса спроса/предложения. В основном, данное смещение возникает из-за выхода на рынок новостей, которые способны повлиять на цены тех или иных компаний на фондовом рынке. В таком случае учет новостного фона о компании может значительно улучшить качество модели.

О реагировании фондового рынка на внешние события повышением или падением котировок давно известно. В настоящее время практически весь объём данных, которые могут повлиять на ситуацию на рынке доступен в сети. Наиболее полезны оказываются финансовые новости, квартальные и годовые отчеты, мнения экспертов. Однако, большинство данных представлена в текстовом формате, что затрудняет их использование не только при построении прогнозной модели, но даже для понимания обычным человеком, не глубоко посвященным в данную область.

Наиболее частый подход заключается в том, все новости делятся на три типа: положительные, негативные и нейтральные. Предполагается, что как только новость опубликована, цены акции начнут своё движение в соответствующую сторону.

Другой подход подразумевает поиск паттернов в новостных статьях, которые могут соответствовать изменению цены акции. Архитектура такого подхода состоит в следующем: поисковый робот индексирует только что поступившие новости для конкретного списка акций. Алгоритму на вход подаются новости за некоторые период t с момента индексации. Далее, различные модули алгоритма ищут в выгруженных новостях совпадения по фразам например «цены акции Роснефть будет снижаться» со словарным запасом алгоритма, в котором эффект влияния новостей с данным паттерном уже определен на обучающем периоде. Каждая значимая фраза из новостей получает положительную, отрицательную, либо нейтральную оценку. В зависимости от этого строится прогноз по портфолио акций, названия которых содержатся в данной новости.

Вышеописанные методы используется, в основном, для высокочастотной торговли, то есть когда необходимо предсказать цену не на один день вперед, а несколько минут, максимум - часов. В данной работе целью является среднесрочное прогнозирование цен акций, поэтому было решено использовать агрегированную информацию о новостном фоне компании за один день. Было предположено, что в большинстве случаев новостной фон о компании нефтегазовой отрасли оказывает меньшее влияние, нежели цена на нефть, фондовый индекс и лаговые значения цены акции. Однако, если все остальные предикторы не способны достаточно точно предсказать цену акции компании в момент времени t, значит произошел определенный сдвиг в формировании цены акции и что-то произошло на рынке, что не учтено в модели, и в таком случае в прогнозировании цены могут помочь данные о новостном фоне компании.

В данной главе рассмотрены основные факторы, которые могут быть полезны при прогнозировании цены акции компании на фондовом рынке, а также рассмотрены региональные геополитические особенности, которые могут повлиять на результат прогнозирования цены акции компании. Далее в работе рассматриваются инструментарий и методы исследования, которые будут использованы в практической части данного исследования.

Глава 2. Инструментарий и методы исследования

В рамках данной работы производится построение моделей двух видов: эконометрических и моделей основанных на нейронных сетях. Из эконометрических моделей особый интерес предсталяют модели авторегрессии - скользящего среднего (ARMA) и модели авторегрессии - распределенного лага (ADL), описание которых приводится в данной главе.

2.1 Модель авторегрессии - скользящего среднего ARMA

Модель авторегрессии - скользящего среднего (autoregressive moving average model, ARMA) - одна из разновидностей моделей для прогнозирования стационарных временных рядов.

Временным рядом является последовательность наблюдений показателя, которые были измерены через равные промежутки времени.

Отличительной способностью временного ряда является то, что последовательность наблюдений рассматривается как последовательность статистически зависимых случайных величин .

Для практического решения задачи анализа временных рядов необходимо ограничивать классы рассматриваемых моделей, вводя определенные предположения относительно структуры и характеристики ряда.

Данная модель обобщает более простые модель - модель авторегрессии (AR) и модель скозьзящего среднего (MA).

Моделью ARMA(p,q), называется процесс генерации временного ряда такой что:

(6)

Где с - константа,

- белый шум,

,

.

Модель можно понимать как линейную модель множественной регрессии, в которой объясняющими переменными являются прошлые значения самой зависимой переменной, регрессионный остаток - скользящее среднее из элементов белого шума. Для построения ARMA модели необходимо определить порядов модели (числа p, q), а также коэффициенты модели.

Также возможно другое представление ARMA модели. Введем лаговый оператор:

(7)

В таком случае модель можно записать в следующем виде:

(8)

Если перенести авторегрессионную часть равенства налево, получим следующее уравнение:

(9)

После введения сокращенных обозначений получается следующее уравнение:

(10)

Итак, для того, чтобы процесс являлся стационарным, необходимо, чтобы корни характеристического многочлена авторегрессионной части слева лежали вне круга с радиусом один, изображенного на комплексной плоскости. Также, если процесс стационарен, его можно представить как бесконечный MA-процесс:

(11)

Интегрированная модель авторегрессии - скользящего среднего ARIMA

В случае наличия единичных корней авторегрессионного полинома процесс считается нестационарным. В таком случае анализируется на сам ряд, а его разности (обычно рассматривается разность первого порядка, гораздо реже - второго). Если значения разности временного ряда стационарны во времени, строится ARMA модель. Данная модель получила название ARIMA (интегрированная ARMA) или иногда также называют моделью Бокса-Дженкинса.

Модель ARIMA является дополнением моделей ARMA для нестационарных временных рядов, которые необходимо сделать стационарными, взяв первые или вторые разности исходного временного ряда.

Модель ARIMA(p,d,q) для нестационарного временного ряда представляется следующим образом:

(12)

Где - стационарный временной ряд,

c, , - параметры модели,

- оператор разности временного ряда

Подход Бокса-Дженкинса состоит в том, что сначала необходимо оценить стационарность временного ряда. Если исходный ряд стационарен, берется первая или вторая разность и строится ARMA модель уже для преобразованного ряда, так как полученный ряд является стационарным, в отличие от исходного нестационарного.

2.2 Модель авторегрессии и распределенного лага ADL

При изучении экономических показателей наибольший интерес представляет собой взаимозависимость различных экономических величин. Иначе говоря, текущее значение того или иного экономического показателя будет зависеть не только от его предыдущих значений, но и от текущего и предыдущих значений других, взаимосвязанных с ним показателей. Таким образом, среди регрессоров будут лаговые и текущее значения как самого показателя, так и объясняющих его величин. Данные модели называют авторегрессионными моделями с распределенными лагами.

Модель ADL (p,r) с одной экзогенной переменной имеет вид:

(13)

где p - количество лагов зависимой переменной

r - количество лагов зависимой переменной

Модель можно обобщить на случай нескольких экзогенных переменных. В таком случае следовало бы обозначать модель как ADL(p, где x - количество экзогенных переменных, - количество лагов i-ой переменной, входящих в модель. Однако, из-за громоздкой записи данной спецификации в общем случае принято считать, что все экзогенные переменные включены в модель с одинаковым количеством лагов, поэтому иногда используют обобщенное обозначение ADL(p, r; s), где p - количество лагов зависимой переменной, r- количество лагов независимых переменных, а s - количество независимых переменных.

Модель также можно представить в следующем виде:

, (14)

где:

, (15)

. (16)

Если условие стабильности временного ряда выполняется, то можно представить в виде:

, (17)

или иначе:

, где (18)

При проверке гипотезы об отсутствии автокорреляции ряда необходимо проводить тест Бройше-Годфри, так как критерий Дарбина-Уотсона не подходит из-за смещения статистики Дарбина - Уотсона в направлении d=2. В таком случае велик риск ошибиться, не отвергнув гипотезу об отсутствии автокорреляции.

При прогнозировании значений с помощью моделей ARMA (ARIMA) и ADL необходимо учитывать ограничения, которые заложены в данные типы моделей. Например, использование данных моделей возможно только при стационарности временного ряда, которая рассчитывается с помощью теста Дики-Фулера.

Стационарность. Тест Дики-Фулера

Ряд является строго стационарным, если для любого m (m < n) совместное распределение вероятностей случайных величин такое же, как и для при любых , таких что

Иными словами свойства строго стационарного временного ряда постоянны в любой системе отсчета времени.

Для проверки временного ряда на стационарность используется тест Дики-Фуллера, который был предложен в 1979 года Дэвидом Дики и Уэйном Фуллером.

При помощи данного теста проверяется значение коэффициента в авторегрессионном уравнении , где - временной ряд, а - ошибка. В случае, если a=1, то процесс имеет единичный корень, а значит временной ряд не стационарен и является интегрированным рядом первого порядка. Если |a|<1, то ряд считается стационарным.

Авторегрессионное уравнение AR(1), описанное выше, можно записать иначе

где b=a - 1, а = .

Соответственно проверка гипотезы о единичном корне в представляет собой проверку нулевой гипотезы о равенстве нулю коэффициента b. В тесте используется обычная DF-статистика для проверки значимости коэффициентов.

Тест на автокорреляцию остатков временного ряда также необходим при прогнозировании с помощью эконометрических моделей. В данной работе используется тест Бройша-Годфри.

Метод наименьших квадратов

Математический подход, основанный на минимизации суммы квадратов отклонений функции от зависимой переменной. Метод наименьших квадратов является одним из основных методов регрессионного анализа для оценки параметров модели и заключается в апроксимации функции, описывающей уравнение, более простой функцией. При нескольких вариантах апроксимирующей функции выбирается та, в которой сумма квадратов остатков разности между расчетным и фактическим значениями является наименьшей. Функция записывается в виде:

, (19)

где Yt - фактическое значение ряда в момент времени t, - рассчитанное значение в момент времени t, T - конечный момент времени.

В матричном представлении исходную задачу можно записать следующим образом:

где - вектор восстановленных значений зависимой переменной

y - вектор фактических значений зависимой переменной

S - ошибка модели

Эконометрические модели способны прогнозировать различные, в основном экономические, временные ряды. Однако, относительно недавно бурный рост в развитии приобрели модели, построенные на основе работы нейронных сетей. Далее в работе рассматриваются алгоритмы анализа данных с помощью нейронных сетей.

2.3 Нейронные сети (Artificial Neural Network)

За последние десятки лет заметен резкий взрыв интереса к нейронным сетям, применение которых можно заметить в самых разных областях - бизнесе, медицине, технике и так далее. Нейронные сети являются мощным инструментом моделирования, позволяющим искать самые сложные и трудноулавливаемые зависимости. На протяжении многих лет линейное моделирование являлось основным методов моделирования, так как для него было разработаны быстро работающие процедуры оптимизации. В задачах, где линейная аппроксимация неудовлетворительна (практически все в реальности), линейные модели показывали неудовлетворительные результаты. Также, нейронные сети отлично справляются с многоразмерными наборами данных, моделирование которых осложнено при построении линейной аппроксимации.

Нейронные сети привлекательны для научного сообщества с точки зрения их примитивной биологической модели нервных систем. Не исключается, что дальнейшее изучение нейро-биологических моделей может привести к созданию мыслящих компьютеров, искусственного интеллекта.

Впервые идея нейронных сетей была опубликована в 1943 году Норбертом Винером, основной частью работы которого является представление сложных биологических процессов математическими моделями. Далее, в течение нескольких лет публикуется множество работ, в которых нейронным сетям найдено то или иное применение. В середине 1958 года Фрэнк Розенблат предложил модель электронного устройства, названного им перцептроном (Рисунок 3) и продемонстрировал его способность решать задачи классификациии.

Рисунок 3, модель перцептрона модели Розенблата

В модели Розенблата перцептрон должен был передавать сигналы от «глаза», составленного из фотоэлементов, в блоки электромеханических ячеек памяти, которые оценивали относительную величину электрических сигналов. С тех пор перцептрон обрёл популярность -- его используют для распознавания образов, прогнозирования погоды и т. д.; в то время казалось, что уже не за горами создание полноценного искусственного интеллекта.

Однако, в 1969 года Марвин Ли Минский публикует Марвин Ли Минский выпускает книгу «Perceptrons: an introduction to computational geometry», в которой доказывает ограниченность модели перцептрона формальное доказательство ограниченности перцептрона и показывает, что он неспособен решать некоторые задачи, связанные с инвариантностью представлений. Интерес к нейронным сетям резко спадает. Только более чем через полтора десятка лет после существенного усовершенствования перцептрона и в связи с прогрессом в области обработки данных интерес к обучаемым нейронным сетям резко вырос и не угасает на сегодняшний день.

ANN (artificial neural network, далее NN или просто нейронная сеть) - искусственная нейронная сеть представляет собой модель, построенную по подобию сетей нервных клеток живого организма. Идея алгоритма сформировалась в ходе изучения работы мозга живых существ, однако, искусственная нейронная сеть, применяемая в анализе данных намного проще своего биологического прототипа, до сих пор не до конца изученного человечеством.

Благодаря разработчикам как open-source решений, так и работникам всемироно известных корпораций Google, Microsoft и др. практически каждый может реализовать нейронную сеть, не требующую огромных вычислительных ресурсов. На рисунке 4 представленна простейшая модель нейронной сети со входным слоем, состоящим из двух нейронов, скрытым слоем, состоящим из двух нейронов и одним результирующим слоем. Нейронные сети не программируются в привычном для алгоритмов смысле этого слова, они обучаются. Возможность обучения -- одно из главных преимуществ нейронных сетей перед остальными алгоритмами. Технически обучение заключается в нахождении коэффициентов (Wij) связей между нейронами (на рисунке 4).

Рисунок 4, простейшая модель нейронной сети

После суммирования взвешенных выходов из предыдущего слоя в каждом нейроне применяется функция активации, которая определяет какое значение будет являться результатом срабатывания нейрона. То есть в модели нейронной сети сами нейроны не только передают друг другу взвешенные результаты своей работы, но и способны проводить нелинейную аггрегацию благодаря различным функциям активации.

Наиболее часто популярными на сегодняшний день являются следующие функции активации:

· Identity

(20)

- в данном случае не применяется никакое преобразование обработке сигналов нейроном

· Binary step

(21)

- результат имеет только два возможных исхода. При этом границу, больше или меньше которой должны быть значения, можно менять в зависимости от поставленной задачи

· Tanh

(22)

- наиболее популярная на сегодняшний день функция активации. Она получила широкое применение благодаря области возможных значений (-1;1), причем при значения около 0 алгоритмом воспринимаются как не до конца определенные (классифицируемые)

· Logistic

(23)

- логистическая функция активации. Похожа на предыдущую функция (Tanh), но множество принмает возможных значений от 0 до 1 и имеет более слабый перепад в точке (0; 0.5).

Необходимо заметить, что функцию активации можно выбирать как по бизнес-смыслу исходных данных, так и по оценке ошибки на тестовой выборе.

В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выстраивать логику. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных или «зашумленных», частично искаженных данных.

На сегодняшний день нейронным сетям нашли применение в самых различных сферах:

· Экономика - прогнозирование цен на сырье, котировок курсов валют и различных акций, объемов продаж товаров, комплектующих, акций и прочее. Нейронные сети сделали возможным автоматизировать биржевые задачи покупки и продажи акций на основе различных показателей. Также, машинное обучение, большую часть которого занимает изучение нейронных сетей, широко применяется в банковской отрасли в части предсказания вероятности невозврата кредитов клиентов, их банкротства, вероятности покупки той или иной услуги и другие задачи, с которыми мы сталкиваемся каждый день, как клиенты той или иной организации.

· Медицина - вероятностная постановка диагноза пациенту, связанная с ней задача обработки рентгеновских снимков, мониторинг состояния пациента в течение времени, анализ влияния организма клиента на применяемые препараты

· Робототехника и авионика - автопилотирование летающих объектов, распознавание сцены перед роботом и соответствующее построение маршрута в зависимости от сцены, поддержание равновесия в воздушном пространстве и на поверхности.

· Интернет и связь - усовершенствование поисковых систем, электронные секретари (автоматическая сортировка писем, распределение по рубрикам новостной ленты, рассылка маркетинговой информации клиентам), маршрутизация пакетов связи.

· Политология и социология - предсказание результатов выборов посредством анализа социальных сетей, различных опросов. Предсказание изменения политического рейтинга. Выявление значимых для населения факторов для предвыборной рекламной кампании, кластеризация электората.

· Безопасность и охранные системы - распознавание и идентификация лиц по фотографиям камер, отпечаткам пальцев, подписи или голосу, обнаружение мошенничества, подделок и анализ данных с видео- и сенсорных датчиков.

Работа всей нейронной сети состоит из работы большого числа довольно простых элементов - нейронов, каждый из которых суммирует взвешенные входные сигналы (входные данные или сигналы от других нейронов), взвешивает сигналы по весам, определяющим интенсивность той или иной связи, и далее суммирует их. С каждым нейроном связано определенное пороговое значение. От того, превышает ли взвешенная сумма пороговое значение, будет зависеть какое число будет передано на выход от нейрона. И такая работа проводится каждым нейроном архитектуры нейронной сети. На выходе обычно стоит либо 1 нейрон в случае решения задачи регрессии, либо N нейронов, где N - количество различных классов при решении задачи классификации. На сегодняшний момент при анализе изображений применяются нейронные сети с архитектурой более 100 слоев, при анализе же числовых данных принято строить не более 3-4 слоев, так как обычно необходимо обеспечить достаточно высокую производительность при анализе новых поступивших данных.

После определения числа скрытых слоев и число нейронов в каждом из них, необходимо с помощью обучения найти значения весов и пороги для них, которые минимизировали бы ошибку прогноза сети. Благодаря заранее известным ответам в период обучения все веса и пороговые значения автоматически корректируются с целью минимизации ошибки. Процесс представляет собой подгонку модели (нейронной сети) к имеющимся обучающим данным. Одним из самых известных методов алгоритма обучения является алгоритм обратного распространения ошибки (back propagation; см. Patterson, 1996; Haykin, 1994; Fausett, 1994). В данном алгоритме вычисляется вектор градиента поверхности ошибок, который определяет направление кратчайшего спуска по поверхности из текущей точки. Соответственно, если веса и границы сдвинуть в этом направлении, ошибка модели уменьшится. Повторение этого алгоритма несколько сот раз позволит прийти к минимуму (локальному или глобальному). Увеличивая количество раз, которое запускается сеть со случайными весами, можно уменьшить риск того, что будет найден локальный, а не глобальный минимум. Тем не менее, довольно часто и локальный минимум является не самым плохим вариантом и может быть использован как промежуточный результат.

Ошибка модели определяется с помощью прогона через сеть наблюдений, по которым уже известен правильный ответ, и далее сравниваются реально выдаваемые выходные значения с фактическими значениями.

Существуют различные функции ошибок, которые лишь ненамного по смыслу отличаются друг от друга. В данной работе рассмотрены лишь некоторые из них, которые используются наиболее часто.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.