Хранилища данных

Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 25.03.2013
Размер файла 1,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

ХРАНИЛИЩА ДАННЫХ

АРХИТЕКТУРА БАЗ ДАННЫХ ДЛЯ ХРАНИЛИЩА

ВИТРИНЫ ДАННЫХ

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

ВВЕДЕНИЕ

Принципы, лежащие в основе систем поддержки принятия решений, не позволяют эффективно обрабатывать транзакции, поэтому данные, применяемые для анализа, стали выделять в отдельные базы данных. Впоследствии эти базы стали называть хранилищами данных или информационными хранилищами. В литературе используется также англоязычный термин «Data Warehouse». Отцом концепции использования хранилищ данных считают Билла Инмона. Большое влияние на разработку концепции хранилищ данных оказала американская корпорация «IBM».

Концепции хранилищ данных - это концепция подготовки данных для анализа. Она предполагает выполнение следующих положений:

1) Интеграции и согласования данных из различных источников: традиционных систем операционной обработки данных, информации из внутренних и внешних по отношению к организации электронных архивов;

2) Разделения наборов данных, используемых системами обработки транзакций и системами поддержки принятия решений.

ХРАНИЛИЩА ДАННЫХ

Концепция хранилищ данных. Архитектура баз данных для хранилищ

Одной из основных тенденций, определяющих развитие технологий реляционных баз данных и языка SQL, является стремительный рост популярности хранилищ данных и приложений для делового анализа. Процесс накопления данных позволяет проводить их статистические исследования, анализировать тенденции и перспективы развития, благодаря чему выявляются ценные сведения о взаимозависимости между действиями компании и поведением ее клиентуры. В основе организации хранилищ данных лежат реляционные СУБД.

Системы OLTP создаются для обеспечения высокого параллелизма работы пользователей, позволяя им одновременно обращаться к одному источнику данных и производить необходимую обработку данных. Системы OLTP строятся для решения разнообразных задач, в частности таких, как:

- обработка данных, генерируемых транзакциями;

- обеспечение высокого уровня точности путем избавления от избыточности данных;

- гарантирование целостности информации и данных;

- производство разовых документов и отчетов;

- увеличение эффективности работы за счет параллельной обработки и оптимизации запросов.

Выше перечисленные цели достигаются за счет хранения баз данных в третьей нормальной форме.

Системы OLAP принадлежат к категории систем поддержки принятия решений и управленческих информационных систем. Целью систем OLAP является анализ огромных объемов данных , генерирование резюме и агрегаций множеством различных способов с целью нахождения тенденций, конкурентных преимуществ и оптимизации в коммерческой деятельности.

С системами OLAP не требуют хранения реляционной базы данных в третьей нормальной форме. Понадобиться разрушить эту форму и денормализовать базу данных, привести к некоторой расширенной, допускающей избыточность, форме.

Всё это допустимо потому, что информация ,хранимая в системах OLAP, изменяется редко. Данные здесь хранятся для использования в запросах, для создания отчётов, которые могут помочь людям планировать будущее своих предприятий.

База данных превращается в пространственную базу данных(dimensional database),отвечающую особой схеме либо структуре. Базы данных OLAP используются для построения кубов данных(data cube), являющихся многомерными представлениями данных, которые обеспечивают коммерческий анализ в реальном времени и высокую скорость обработки запросов.

Отдельные изменения куба представляют собой отдельные категории для анализа коммерческих данных.Такими категориями могут являться время ,географическое положения, линейка продуктов и так далее.

Хранилище используется в самых разных отраслях.

-крупные производства- анализ тенденции в области сбыта, в частности, сезонных колебаний объемов продаж может помочь компании эффективно спланировать производство, разгрузить склады и сэкономить деньги;

-коммерция -анализ эффективности мероприятий, направленных на увеличение сбыта и изучение демографических факторов помогает выявить наиболее эффективные способы привлечения потенциальных покупателей и сэкономить на таких мероприятиях;

-телекоммуникации- анализ схемы звонков клиентов может помочь в создании более привлекательных комплексов цен и услуг и, возможно, приобрести новых клиентов из числа тех, которые пользуются услугами других компаний;

-авиакомпании - анализ схемы перемещений пассажиров является основой планирования рейсов, тарифов и объемов перевозок с целью максимального увеличения прибылей компаний;

-финансовые структуры - анализ факторов, связанных с получением и погашением кредитов клиентами, и их сравнение с данными прошлых лет позволяет делать более точные заключения о кредитоспособности клиентов.

АРХИТЕКТУРА БАЗ ДАННЫХ ДЛЯ ХРАНИЛИЩА

Структура базы данных для хранилища разрабатывается с целью максимально облегчить анализ информации. Данные должны быть удобно «разложены» по разным направлениям.

Структура такой базы данных хранилища не будет реляционной, это будет пространственная база данных(dimensional database). Главная таблица пространственной базы данных называется таблицей фактов. Ее строки именуются фактами и являются оценочными показателями активности. Измерения помогают расположить факты соответствующим образом и представить такие атрибуты, как время, товар, покупатель и его географическое местоположение. Пространственные таблицы описывают данные в таблицах фактов.

В большинстве случаев информация в базе данных хранилища может быть в виде N-мерного куба фактов, отражающих деловую активность компании в течение определенного времени.

Каждая его ячейка представляет один факт - объем продаж в долларах. Вдоль одной грани куба располагаются месяцы, в течение которых выполнялись отражаемые кубом продажи. Второе измерение составляют категории товаров. Третье- регионы продаж. В каждой ячейке содержится объем продаж за соответствующей комбинации значений по всем трем измерениям.

В реальных приложениях используются гораздо более сложные кубы с десятками и более измерений. Впрочем, хотя 12-мерный куб трудно визуализировать, принципы его организации те же, что и трехмерного. Каждое измерение представляет некую переменную величину, по которой ведется анализ. Каждой комбинации значений всех измерений соответствует одно значение некоторого параметра - факт.

Разберём работу типичного аналитического приложения на примере. Возьмем коммерческую компанию, которая продает несколько категорий товаров разных производителей и имеет несколько сотен клиентов в разных регионах страны. Руководству компании требуется провести анализ данных о динамике продаж по пяти измерениям. Анализ должен осветить имеющиеся тенденции и помочь выявить возможности увеличения сбыта. Перечислим рассматриваемые измерения, определяющие куб данных, фактами которого являются объемы продаж:

1.Категория. Категория продаваемого товара. В хранилище содержаться данные о 24 категориях товаров.

2.Производитель. Производитель конкретного товара. Компания может торговать товарами 50 разных производителей.

3.Клиент. Покупатель товаров. У компании три сотни клиентов.

4.Регион. Регион страны, в котором продаются товары. Рассматриваются три региона.

5.Месяц. Месяц, в котором были проданы товары. Для сравнительного анализа руководство компании решило ограничится хранением данных за последние 36 месяцев.

Полученный куб данных содержит 38880000 ячеек (24 категории*50 производителей*300 клиентов* 3 региона* 36 месяцев=38880000 ячеек).

Схема «звезда» является самым эффективным способом моделирования N-мерного куба фактов для фактов для большинства хранилищ данных. Рассмотрим построение пространственной базы данных для реализации задачи анализа, используя этот подход. Каждое измерение куба представлено таблицей его значений. В нашем случае таких таблиц пять: CATEGORIES, SUPPLIERS, CUSTOMERS, REGIONS и MONTHS. Для каждого значения измерения в таблице имеется отдельная строка. Например в таблице MONTHS 36 строк, по одной для каждого месяца всего периода, за который анализируются данные о продажах. А в таблице REGIONS три региона представлены тремя строками.

Таблицы измерений в схеме «звезда» часто содержат столбцы с описательной текстовой информацией или другими атрибутами, связанными с конкретным измерением (такими как имя контактного лица из фирмы - производителя, адрес и номер телефона клиента или строки контакта). Эти столбцы могут выводится в отчетах, генерируемых аналитическим приложением.

У таблицы измерения всегда имеется первичный ключ индексирующий значения этого измерения. В нашем учебном хранилище будем использовать в качестве ключевых полей настоящие значения измерений в таблице REGIONS («Запад», «Восток», и т.д.), CATEGORIES («Одежда», «Обувь» и т.д.) и MONTHS. Остальные два измерения будут индексироваться по кодам - поле CUST_CODE в таблице CUSTOMERS и поле SUPP_CODE в таблице SUPPLIERS.

Самой большой таблицей в базе данных является таблица фактов. Она - центр схемы. В нашем случае это таблица SALES. Таблица фактов содержит столбец со значениями, которые находятся в ячейках N-мерного куба. Кроме него в таблице фактов имеются столбцы с внешними ключами для всех таблиц измерений. В нашем примере их пять. Каждая строка таблицы фактов соответствует одной ячейке куба данных. Внешние ключи связывают эту таблицу со строками таблиц измерений, соответствующими позиции в кубе значения его первого столбца. В таблице фактов обычно не много столбцов, но зато очень много строк: сотни тысяч и даже миллионы - это вполне обычный размер хранилищ данных в промышленных и коммерческих компаниях. Столбец фактов почти всегда содержит числовые значения, например, денежные суммы, количество проданного товара и т.п. Подавляющее большинство отчетов, генерируемых аналитическими приложениями, содержит только итоговые данные, - суммы, средние, максимальные и минимальные значения, процентные отношения, - получаемые путем арифметических операций над числовыми значениями столбца фактов.

Таблица №1- Схема «звезда» учебного хранилища данных для реализации задачи анализа

Для получения схемы данных рассмотрим типичные запросы:

-- Показать итоговые объемы продаж одежды за

-- январь по регионам

SELECT SUM (SALES_AMOUNT), REGION

FROM SALES, REGIONS

WHERE MONTH = `Январь 2008' AND

PROD_TYPE = `ОДЕЖДА' AND SALES.REGION = REGIONS.REGION

GROUP BY REGION

ORDER BY REGION

-- Показать средний объем продаж товаров

-- каждого производителя по клиентам и по

-- месяцам

SELECT AVG (SALES_AMOUNT) . CUST_NAME,

SUPP_NAME, MONTH

FROM SALES, CUSTOMERS, SUPLIERS

WHERE SALES. CUST_CODE = CUSTOMERS. CUST_CODE

AND SALES. SUPP_CODE = SUPPLIERS. SUPP_CODE

GRUPE BY CUST_NAME, SUPP_NAME, MONTH

ORDER BY CUST_NAME, SUPP_NAME, MONTH

Другая схема пространственной базы данных называется схемой снежинки.

Таблица №2- Особенности схемы «снежинка» пространственной базы данных

В схеме снежинки множество таблиц определяют одно или более измерений. Это означает, что схема снежинки является как бы расширением звездообразной схемы с дополнительными таблицами измерений, связанными не непосредственно с таблицей фактов, а с другими таблицами измерений.

Например, данные о продажах могут накапливаться отдельно для каждого офиса, офисы располагаются в районах, а районы в регионах, данные о продажах накапливаются по месяцам, но анализировать их полезно не только по месяцам, но и по кварталам. Данные о продажах накапливаются по отдельным продуктам, а каждый продукт ассоциирован с конкретным производителем.

ВИТРИНЫ ДАННЫХ

Многомерная модель позволяет производить быстрый анализ данных, но не позволяет хранить большие объемы информации. Реляционная модель, напротив, практически не имеет ограничений по объему накапливаемы данных, однако СУБД на ее основе не обеспечивают такой скорости выполнения аналитических запросов, как МСУБД.

Ситуация, когда для анализа необходима вся информация, находящаяся в хранилище, возникает довольно редко. Обычно каждый аналитик или аналитический отдел обслуживает одно из направлений деятельности организации, поэтому в первую очередь ему необходимы данные, характеризующие именно это направление. Реальный объем этих данных не превосходит этих ограничений, присущих многомерным СУБД. Возникает идея выделить данные, которые реально нужны конкретным аналитическим приложениям, в отдельный набор. Такой набор мог бы быть реализован в многомерной БД. Источником данных для него должно быть центральное хранилище организации.

Если проводить аналогии с производством и реализацией продукции, то многомерные БД выполняют роль мелких складов. В концепции ХД их принято именовать витринами данных(Data Marts). Витрина данных - это специализированное тематическое хранилище, обслуживающее одно из направлений деятельности организации. Логическая схема СППР, использующей центральное ХД организации и витрины данных аналитических отделов.

Такая схема позволяет эффективно использовать возможности реляционных СУБД по хранению огромных объемов информации и способность многомерных СУБД обеспечивать высокую скорость выполнения аналитических запросов.

ЗАКЛЮЧЕНИЕ

хранилище данных решение база

Подготовленные данные загружаются в хранилище. Пользователи - аналитики осуществляют доступ к нему через клиентские приложения. Эти приложения могут осуществлять трансляцию запросов потребителей информации либо производить аналитическую обработку данных хранилища. В отличие от систем операционной обработки данных в СППР, использующих концепцию ХД, критерии поиска состав выдаваемой в виде отчета информации не фиксируются при ее разработке, пользователи оперируют в основном заранее не регламентированными запросами (ad-hoc query).

Использование концепции хранилища данных в системе поддержки принятия решений преследует следующие цели:

1) Своевременное обеспечение аналитиков всей информацией, необходимой для выработки решений;

2) Создание единой модели данных организации;

3) Создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующего получение одинаковых ответов на одинаковые запросы из различных аналитических подсистем.

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

1. SQL Server 2000. Программирование в 2 ч./ Р. Вьейра Часть I

2. Системы баз данных. Полный курс / Гектор Гарсиа-Молина, Джеффри Ульман, Дженнифер Уидом / 2003

3. Оптимизация производительности MySQL./ Шварц Б., Зайцев П., Ткаченко В., Заводны Дж., Ленц А., Бэллинг Д.

4. Основные концепции баз данных / Ф. Д. Ролланд / 2002

5. Проектирование структур баз данных. Книга 1 /Автор: Т. Тиори, Дж. Фрай

6. MS SQL Server 2000 /Автор: Мамаев Е./ 2000

7. Проектирование баз данных. СУБД Microsoft Access / Автор: Н. Н. Гринченко, Е. В. Гусев, Н. П. Макаров / 2004

Размещено на Allbest.ru


Подобные документы

  • Определение многомерной модели данных для удовлетворения основных информационных потребностей предприятия. Экстракция, загрузка и перенос данных из различных источников данных. Разработка собственных ETL–систем. Оптимизация работы хранилища данных.

    презентация [9,1 M], добавлен 25.09.2013

  • Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.

    лекция [15,5 K], добавлен 19.08.2013

  • Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.

    реферат [849,7 K], добавлен 16.12.2016

  • Рассмотрение OLAP-средств: классификация витрин и хранилищ информации, понятие куба данных. Архитектура системы поддержки принятия решений. Программная реализация системы "Abitura". Создание Web-отчета с использованием технологий Reporting Services.

    курсовая работа [2,7 M], добавлен 05.12.2012

  • Понятие и функциональное назначение информационного хранилища, свойства и компоненты. Проблемы интеграции данных, принципы организации хранилищ. Проектирование и анализ реляционной базы данных "Салона красоты" методом нормальных форм и "сущность-связь".

    курсовая работа [573,5 K], добавлен 21.02.2015

  • Методы построения хранилища данных на основе информационной системы реального коммерческого предприятия. Основные аналитические задачи, для решения которых планируется внедрение хранилищ данных. Загрузка процессоров на серверах. Схемы хранения данных.

    контрольная работа [401,0 K], добавлен 31.05.2013

  • Типичные "единичные" объемы данных. Проект Sun и InternetArchive в одном контейнере. Ограничения вычислительных систем, веб-приложений. Поиск закономерностей в данных. Модель предсказания вектора покупательской активности. Проектирования хранилищ данных.

    презентация [533,8 K], добавлен 18.01.2014

  • Разработка программного обеспечения для анализа полученных из хранилища данных. Система SAS Enterprise Miner и система Weka. Расчёт капитальных затрат на создание ПМК для анализа полученных из хранилища данных с использованием библиотеки XELOPES.

    дипломная работа [1,4 M], добавлен 07.06.2012

  • Принципы построения и основные компоненты хранилищ данных, общая характеристика основных требований к ним по Р. Кинболлу. Понятие и виды баз данных. Методика проектирования комплекса задач автоматизации учета по счету 02 "Амортизация основных средств".

    контрольная работа [27,8 K], добавлен 12.11.2010

  • Хранилище данных, принципы организации. Процессы работы с данными. OLAP-структура, технические аспекты многомерного хранения данных. Integration Services, заполнение хранилищ и витрин данных. Возможности систем с использованием технологий Microsoft.

    курсовая работа [1,0 M], добавлен 05.12.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.