Все о Process Mining от ProcessMi. Что такое витрина данных.

Черников сказал, что Витрина данных будет расширяться — она сможет хранить документы и предоставлять государственные услуги. Это также принесет пользу компаниям, которые хотят получать информацию о работающих водителях.

13) Учебник по Data Mart

DATA MART фокусируется на одной функциональной области компании и содержит подмножество данных, хранящихся в хранилище данных. Хранилище данных — это сжатая версия хранилища данных, предназначенная для использования конкретным отделом, подразделением или группой пользователей в организации. Например, маркетинг, продажи, управление персоналом или финансы. Часто она контролируется одним отделом в организации.

По сравнению с хранилищем данных, март данных обычно извлекает данные только из нескольких источников. Карты данных небольшие и более гибкие, чем хранилище данных.

В этом курсе вы узнаете следующее

Зачем нам нужен Data Mart?

  • Маркет данных помогает увеличить время отклика пользователя за счет уменьшения объема данных
  • Он обеспечивает легкий доступ к часто запрашиваемым данным.
  • Data mart проще внедрить по сравнению с корпоративным хранилищем данных. В то же время стоимость внедрения мартицы данных значительно ниже по сравнению с полным хранилищем данных.
  • По сравнению с хранилищем данных, Datamart отличается гибкостью. В случае изменения модели карта данных может быть создана быстрее благодаря меньшему размеру.
  • Датамарт определяется экспертом. В отличие от этого, карта данных определяется междисциплинарным МСП из нескольких областей. Следовательно, март данных более открыт для изменений по сравнению с хранилищем данных.
  • Данные сегментированы и предлагают очень подробные права доступа.
  • Данные могут быть сегментированы и храниться на различных аппаратных/программных платформах.

Существует три основных типа карт данных:

  1. Зависимые: Зависимые карты данных создаются путем получения данных непосредственно из операционных, внешних или обоих источников.
  2. Независимый: Независимые карты данных создаются самостоятельно, без использования центрального хранилища данных.
  3. Гибридный: карты данных этого типа могут получать данные из хранилищ данных или операционных систем.

Зависимая база данных

Dependent Data Vault позволяет извлекать данные компании из единого хранилища данных. Это дает преимущество централизации. Если вам нужно развернуть одно или несколько физических хранилищ данных, вы должны настроить их как зависимые хранилища данных.

Зависимые карты данных могут быть созданы двумя различными способами. Либо пользователь может получить доступ как к картам данных, так и к хранилищу данных по мере необходимости, либо доступ ограничивается только картами данных. Второй подход не является оптимальным, так как его иногда называют хранилищем данных. В хранилище данных все данные начинаются из общего источника, но отбрасываются и в основном отправляются на свалку.

Независимый Data Mart

Независимый март данных создается без использования центрального хранилища данных. Этот тип мартингала данных идеально подходит для небольших команд в организации.

Независимый маркет данных не связан с хранилищем данных предприятия или каким-либо другим маркетом данных. В независимом маркете данных данные вводятся отдельно, и анализ также проводится независимо.

Реализация независимых карт данных противоречит мотивации создания хранилища данных. Прежде всего, вам необходимо единое, централизованное хранилище бизнес-данных, которое могут анализировать множество пользователей с разными интересами, которым нужна разная информация.

Гибридные данные Mart:

Гибридная витрина данных включает в себя входные данные в дополнение к хранилищу данных. Это может быть полезно, когда вы хотите выполнить интеграцию по случаю, например, после добавления новой команды или продукта в организацию.

Он лучше всего подходит для сред с несколькими базами данных и предлагает быстрое внедрение для любой организации. Кроме того, усилия по очистке данных минимальны. Hybrid Data Mart также поддерживает большие структуры хранения и лучше всего подходит для гибких, небольших приложений, ориентированных на работу с данными.

Шаги в реализации Datamart

Внедрение Data Mart — полезный, но сложный процесс. Ниже приведены подробные шаги по внедрению мартингала данных:

Проектирование

Проектирование — это первая фаза внедрения data mart. Он охватывает все задачи, начиная с инициирования запроса на сопоставление данных и заканчивая сбором информации о требованиях. Наконец, мы создаем логический и физический дизайн мартицы данных.

Этап проектирования включает следующие задачи:

  • Сбор бизнес- и технических требований и определение источников данных.
  • Выбор подходящего подмножества данных.
  • Проектирование логической и физической структуры хранилища данных.

Данные можно разделить по следующим критериям:

  • Дата.
  • Бизнес или функциональное подразделение
  • География
  • Любая комбинация вышеперечисленного.

Данные могут быть сегментированы на уровне приложений или СУБД. Однако рекомендуется сегментация на уровне приложений, поскольку это позволяет использовать различные модели данных каждый год по мере изменения бизнес-среды.

Какие продукты и технологии вам нужны?

Достаточно простой ручки и бумаги. Инструменты, помогающие создавать диаграммы UML или ER, добавляют метаданные к логическому и физическому дизайну.

строительство

Это второй этап реализации. Это предполагает создание физической базы данных и логических структур.

Этот шаг включает в себя следующие задачи:

  • Реализация физической базы данных, разработанной на предыдущем этапе. Например, создаются объекты схемы базы данных, такие как таблицы, индексы, представления и т.д.

Какие продукты и технологии вам нужны?

Для создания хранилища данных вам понадобится реляционная система управления базами данных. РСУБД имеют несколько особенностей, которые необходимы для успешной работы март данных.

  • Управление хранением: РСУБД хранит и управляет данными для создания, добавления и удаления данных.
  • Быстрый доступ к данным: Используя SQL-запрос, вы можете легко получить доступ к данным на основе определенных условий/фильтров.
  • Резервное копирование данных: РСУБД также обеспечивают возможность восстановления после системных сбоев, таких как отключение электроэнергии. Вы также можете восстановить данные из этих резервных копий в случае сбоя жесткого диска.
  • Поддержка нескольких пользователей: РСУБД обеспечивают одновременный доступ, что означает, что несколько пользователей могут обращаться к данным и изменять их, не нарушая и не перезаписывая изменения другого пользователя.
  • Безопасность: RDMS также предоставляет возможность регулировать доступ пользователей к объектам и определенным типам функций.

Наполнение:

На третьем этапе данные вводятся в информационный центр.

Этап заполнения включает в себя следующие задачи:

  • Исходные данные для целевых данных
  • Экспорт необработанных данных
  • Задачи по вводу данных из источников данных
  • Загрузка данных во фрейм данных
  • Создание и хранение метаданных

Какие продукты и технологии вам нужны?

Выполните эти задачи интеграции с помощью инструмента ETL (Extract Transform Load). С помощью этого инструмента вы можете осуществлять поиск источников данных, выполнять сопоставление источника и назначения, извлекать, преобразовывать, очищать и загружать данные обратно в хранилище данных.

Использование хранилища данных — это один из способов хранения данных. Это отличный вариант для организаций, которым необходимо оценивать большие объемы информации из нескольких источников.

История

Появление и развитие хранилищ данных тесно связано с OLAP — технологией обработки данных. Их история (формально, а не концептуально) началась в 1993 году благодаря Теду Кодду. Однако позже стало очевидно, что эти системы не подходят в качестве посредников между транзакционными системами. Возникла необходимость в платформе, которая могла бы хранить аналитические данные. Было создано хранилище данных. Однако накопление чувствительной и конфиденциальной информации, а также географическое распределение создавали препятствия: потенциальные финансовые потери из-за несанкционированного доступа, невозможность быстрого реагирования и технического обслуживания.

Решение заключалось в создании карт данных, которые содержали необходимый объем информации из DW. Они могут пополняться в периоды низкой активности пользователей; в случае сбоя или нарушения работы все данные могут быть восстановлены благодаря желанному хранилищу.

Преимущества витрин данных:

  • Оптимизация времени отклика пользователя за счет уменьшения объема данных,
  • более легкий доступ к часто запрашиваемым данным,
  • более экономически эффективное внедрение по сравнению с полным компакт-диском,
  • высокая гибкость по сравнению с «тяжелыми» системами хранения,
  • содержимое данных «разбивается» на сегменты,
  • Нет необходимости использовать высокопроизводительную технологию,
  • Данные могут быть сегментированы и храниться на различных аппаратных/программных платформах,
  • Конструкция витрин технологически проще, чем сложных складских помещений.

Однако есть и недостатки, самым важным из которых является отсутствие гарантии целостности и непротиворечивости хранимых данных.

Типы витрин

Существуют различные типы витрин:

Источником такой витрины является хранилище данных. В этом типе все бизнес-данные могут быть объединены в одной базе данных. Если потребуется одна или несколько витрин, зависимость обеспечит согласованность и интеграцию во всех системах хранения.

Зависимые карты данных могут быть созданы двумя способами. В первом случае DW предприятия и сами витрины создаются таким образом, чтобы пользователь при необходимости мог получить доступ и к тому, и к другому. Во втором случае результаты ETL хранятся не в физической базе данных, а в кэширующей области, так что пользователь может получить доступ только к мартину данных.

Этот тип создается без использования центрального хранилища данных и рекомендуется для небольших отделов или команд в организации. Независимые витрины получают данные непосредственно из операционного/внешнего источника. Однако существует вероятность дублирования информации на нескольких витринах. Поскольку данные по магазинам не консолидируются, они не дают полного представления о деятельности компании.

В дополнение к двум классическим типам существует еще один, называемый гибридной витриной данных. Он объединяет входные данные из других источников, помимо центрального хранилища данных, и поддерживает большие структуры хранения.

Оцените статью
Бизнес блог