Аутстаффинг data-специалистов для DWH: аналитики, инженеры, архитекторы данных

Крупная финтех-команда запускала централизованное хранилище данных. Нужно было собрать разрозненные источники в единый контур и договориться о правилах, загрузки, историзации и использования в витринах различной информации. В таких проектов «просто сложить все в DWH» не работает. Без спецификаций и модели команда упирается в противоречия и постоянные переработки.

Компания iStaff-it, занимающаяся кадровым аутстаффингом, подключила к проекту специалиста по DWH. Он закрыл аналитический слой и помог довести требования и модель до реализации потоков данных на Apache Spark.

Задачи проекта

Нужно было спроектировать DWH и выстроить корректную интеграцию/миграцию данных из систем-источников. А еще — подготовить понятные артефакты для разработки. Эксперт, работающий по договору аутстаффинга, должен был:

собрать и уточнить требования у стейкхолдеров и закрепить их в документации;
проанализировать источники: структуру, ключи связности, качество, дубли, пропуски;
провести анализ разрывов (GAP-анализ) и описать правила трансформаций;
построить модели данных (концептуальную, логическую, физическую);
спроектировать ядро DWH на Data Vault 2.0 и проверить реализуемость;
участвовать в реализации загрузок и контролировать корректность результатов.

Проектирование DWH с интеграцией данных из ряда источников потребовало детальной проработки требований, построения модели на Data Vault 2.0 и трансформации данных с учетом GAP-анализов. Наш специалист обеспечил четкое описание процессов, что позволило ускорить реализацию и минимизировать риски.

Роль нашего аутстафф-специалиста

Эксперт компании iStaff-it четко зафиксировал требования и подготовил спецификации для разработки, обеспечив согласованность действий между командами заказчиков. Он провел GAP-анализ, выявив слабые места в источниках, и определил, какие трансформации данных требуются для их интеграции в систему.

В процессе реализации специалист контролировал корректность потоков данных и их соответствие первоначальным спецификациям. Работая с девелоперами и архитектором, он обеспечил настройку процессов загрузки, что позволило избежать ошибок и ускорить вывод на этап эксплуатации.

Требования, спецификации и согласование логики

Чтобы разработка не «выдумывала правила» по ходу, эксперт сформировал управляемый контур требований:

описал бизнес-сущности и атрибуты, критерии готовности данных и граничные условия;
подготовил спецификации для разработки: маппинги, форматы, правила обновлений и историзации;
завел единый порядок управления изменениями: что считается правкой требований, как согласуем, где фиксируем.

В результате команда, которая приняла решение нанять разработчика по договору аутстаффинга, получила понятный набор артефактов. На них можно было опираться при реализации витрин и загрузок — без многочисленных повторных согласований по кругу.

Анализ систем-источников и GAP-анализ

До моделирования важно понять, что реально есть в источниках, а где ожидания бизнеса расходятся с данными. Поэтому специалист:

оценил варианты интеграции по каждому источнику (подключение, перенос, промежуточные слои);
разобрал ключи связности и «слабые места» качества: дубли, пропуски, несогласованные значения;
описал правила трансформаций и контроль качества, чтобы проблемы не переезжали в DWH «как есть».

По ходу анализа источников эксперт выявил несоответствия между данными и требованиями бизнеса. Благодаря GAP-анализу, он определил недостающие поля, слабые места в качестве данных и необходимые трансформации для корректной интеграции в DWH.

Модели данных и Data Vault 2.0

Специалист iStaff-it собрал целевую модель на трех уровнях: от концептуального до логического и физического. Ядро корпоративного хранилища данных было спроектировано в Data Vault 2.0. Эксперт:

выделил Hubs под устойчивые бизнес-ключи, Links под связи доменов, Satellites под атрибуты с историзацией;
задал единые правила трассируемости (источник записи, даты загрузки/изменения, контроль уникальности);
заложил расширяемость, чтобы подключение новых источников не ломало уже построенный слой.

Так, у заказчика, решившего взять программиста в аренду, появился надежный «каркас» DWH, который можно наращивать без постоянных переделок модели.

Реализация потоков данных на Apache Spark

На этапе внедрения специалист участвовал в реализации потоков данных и помогал держать корректность:

описывал логику преобразований в Spark (join-цепочки, фильтрации, агрегации, обработка поздних данных);
согласовывал правила инкрементальных обновлений и переобработки, чтобы не переливать данные целиком;
помогал проверять результаты загрузок (со сверкой объемов, контролем ключей и выборочными reconciliation-запросами).

Для снятия рисков часть логики проектировалась на SQL и Python (PySpark) — чтобы подтвердить маппинги и поведение преобразований до «боевых» прогонов.

Результат для заказчика

Клиент получил основу для развития централизованного DWH. В его распоряжении оказались согласованные требования и спецификации, понятная модель с Data Vault 2.0 и реализуемые потоки обработки данных на Spark. Команда смогла двигаться предсказуемо — меньше спорных трактовок и возвратов, быстрее вывод витрин.

Хотите усилить data-проект опытным аналитиком, инженером или архитектором данных? Наша компания занимается аутстаффингом кадров в IT! Подберем эксперта под ваш стек и задачи.

Аутстаффинг data-команд: аналитики, инженеры и архитекторы данных под ваш DWH-проект