ETL — это сокращение от Extract, Transform, Load. Это системы корпоративного класса, которые используются для ведения в один каталог и загрузки данных из нескольких разных учетных систем в DWH и EPM. Процесс ETL представляет собой программную архитектуру и инструмент автоматизации, используемый для преобразования данных из источника в формат, который может быть обработан базой данных. Инструменты хранения также используются для создания организованного хранилища данных и управления им. Узнать подробнее можно, пройдя по ссылке etl tools.
Магазин инструментов обработки данных ETL также известен как инструмент ETL (Extract, Transform and Load). Эти типы инструментов помогают организациям загружать, преобразовывать и хранить данные более организованным и эффективным образом. Этот инструмент можно использовать для управления данными в хранилище, а также для обработки данных из различных источников.
Как работает ETL
С точки зрения потока данных это несколько исходных систем (обычно OLTP) и приемная система (обычно OLAP), а также пять стадий преобразования между ними:
- Процесс ETL используется для извлечения, преобразования и загрузки данных в хранилище данных. Инструменты ETL используются для автоматизации процесса интеллектуального анализа данных. Затем данные обрабатываются с помощью инструментов хранения для создания полезной информации.
- Процесс сбора данных начинается с загрузки данных в хранилище данных. Затем инструменты хранилища используются для обработки данных и создания полезной информации.
- Процесс проверки данных – на этом этапе данные последовательно проверяются на правильность и полноту, для исправления составляется отчет об ошибках;
- Процесс сопоставления данных с целевой моделью — на этом этапе в валидируемую таблицу добавляется еще n столбцов в соответствии с количеством каталогов целевой модели данных, а затем по таблицам сопоставления в каждой прикрепленной ячейке значения целевых каталогов вводятся в каждой строке. Значения можно вводить как 1:1 и *:1, так и 1:* и *:*, для настройки двух последних вариантов используются формулы и сценарии присвоения, реализованные в ETL-инструменте;
- Процесс агрегации данных — этот процесс необходим из-за разницы в степени детализации данных в системах OLTP и OLAP. OLAP-системы фактически представляют собой полностью денормализованную таблицу фактов и окружающие ее справочные таблицы (звезда/снежинка), максимальная детализация для OLAP-сумм — это количество перестановок всех элементов во всех энциклопедиях. И система OLTP может содержать несколько сумм для одного и того же набора эталонных элементов. Можно было бы убить OLTP-детализацию на входе в ETL, но тогда мы потеряли бы «аудиторский след». Эта трассировка необходима для построения отчета детализации, показывающего, какие строки OLTP сформировали сумму в ячейке системы OLAP. Поэтому сопоставление сначала делается на OLTP-деталях, а затем данные «сворачиваются» в отдельную таблицу для загрузки в OLAP;
Загрузка в целевую систему — это технический процесс использования ссылки и передачи данных в целевую систему.
Зачем нужна ETL-система
Проблема, которая изначально привела к необходимости использования ETL-решений, заключается в том, что предприятиям необходимо получать надежные отчеты о беспорядке, происходящем в данных любой ERP-системы.
- Как случайные ошибки, возникшие на уровне ввода, переноса данных, или из-за багов;
- Как различия в справочниках и детализации данных между смежными ИТ-системами.
- Привести все данные к единой системе значений и детализации, попутно обеспечив их качество и надежность;
- Обеспечить аудиторский след при преобразовании (Transform) данных, чтобы после преобразования можно было понять, из каких именно исходных данных и сумм собралась каждая строчка преобразованных данных.