Что такое ETL-систем

ETL — это сокращение от Extract, Transform, Load. Это системы корпоративного класса, которые используются для ведения в один каталог и загрузки данных из нескольких разных учетных систем в DWH и EPM. Процесс ETL представляет собой программную архитектуру и инструмент автоматизации, используемый для преобразования данных из источника в формат, который может быть обработан базой данных. Инструменты хранения также используются для создания организованного хранилища данных и управления им. Узнать подробнее можно, пройдя по ссылке etl tools.

Что такое ETL-систем

Магазин инструментов обработки данных ETL также известен как инструмент ETL (Extract, Transform and Load). Эти типы инструментов помогают организациям загружать, преобразовывать и хранить данные более организованным и эффективным образом. Этот инструмент можно использовать для управления данными в хранилище, а также для обработки данных из различных источников.

Как работает ETL

С точки зрения потока данных это несколько исходных систем (обычно OLTP) и приемная система (обычно OLAP), а также пять стадий преобразования между ними:

  1. Процесс ETL используется для извлечения, преобразования и загрузки данных в хранилище данных. Инструменты ETL используются для автоматизации процесса интеллектуального анализа данных. Затем данные обрабатываются с помощью инструментов хранения для создания полезной информации.
  2. Процесс сбора данных начинается с загрузки данных в хранилище данных. Затем инструменты хранилища используются для обработки данных и создания полезной информации.
  3. Процесс проверки данных – на этом этапе данные последовательно проверяются на правильность и полноту, для исправления составляется отчет об ошибках;
  4. Процесс сопоставления данных с целевой моделью — на этом этапе в валидируемую таблицу добавляется еще n столбцов в соответствии с количеством каталогов целевой модели данных, а затем по таблицам сопоставления в каждой прикрепленной ячейке значения целевых каталогов вводятся в каждой строке. Значения можно вводить как 1:1 и *:1, так и 1:* и *:*, для настройки двух последних вариантов используются формулы и сценарии присвоения, реализованные в ETL-инструменте;
  5. Процесс агрегации данных — этот процесс необходим из-за разницы в степени детализации данных в системах OLTP и OLAP. OLAP-системы фактически представляют собой полностью денормализованную таблицу фактов и окружающие ее справочные таблицы (звезда/снежинка), максимальная детализация для OLAP-сумм — это количество перестановок всех элементов во всех энциклопедиях. И система OLTP может содержать несколько сумм для одного и того же набора эталонных элементов. Можно было бы убить OLTP-детализацию на входе в ETL, но тогда мы потеряли бы «аудиторский след». Эта трассировка необходима для построения отчета детализации, показывающего, какие строки OLTP сформировали сумму в ячейке системы OLAP. Поэтому сопоставление сначала делается на OLTP-деталях, а затем данные «сворачиваются» в отдельную таблицу для загрузки в OLAP;
    Загрузка в целевую систему — это технический процесс использования ссылки и передачи данных в целевую систему.

Зачем нужна ETL-система

Проблема, которая изначально привела к необходимости использования ETL-решений, заключается в том, что предприятиям необходимо получать надежные отчеты о беспорядке, происходящем в данных любой ERP-системы.

  • Как случайные ошибки, возникшие на уровне ввода, переноса данных, или из-за багов;
  • Как различия в справочниках и детализации данных между смежными ИТ-системами.
  • Привести все данные к единой системе значений и детализации, попутно обеспечив их качество и надежность;
  • Обеспечить аудиторский след при преобразовании (Transform) данных, чтобы после преобразования можно было понять, из каких именно исходных данных и сумм собралась каждая строчка преобразованных данных.
Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
CompSch.com