IT аутстаффинг для разработки DWH: доступ к экспертам по Python, SQL, Apache Spark

Крупная финансовая организация запускала проект по разработке и DWH. В таких контурах важно не просто собрать данные в одном месте: нужно согласовать модель, правила загрузки и проверки, иначе команда утонет в правках и нестыковках между источниками.

Компания iStaff-it, занимающаяся арендой разработчиков, подключила к проекту специалиста по DWH на основании договора аутстаффинга. Эксперт закрыл аналитико-проектный контур и помог команде заказчика довести интеграцию данных до рабочих потоков на Apache Spark. Совокупный объем работ составил 967 часов.

Задача — спроектировать DWH и организовать корректную интеграцию источников

Чтобы хранилище заработало, нужно одновременно разобрать бизнес-требования, сопоставить их с реальными данными в источниках и заложить правила загрузки. Поэтому заказчик запросил специалиста, способного «и в аналитику, и в разработку». Важно, чтобы он мог:

собрать и уточнить требования к DWH у стейкхолдеров и зафиксировать их в документации;
проанализировать системы-источники и выбрать подход к интеграции/миграции данных;
провести GAP-анализ и подготовить правила трансформаций для выявления разрывов между текущим и желаемым состоянием;
спроектировать модели данных (концептуальную, логическую, физическую) и реализовать Data Vault 2.0;
принять участие в реализации потоков данных на Apache Spark и контролировать корректность загрузок.

Итогом работы эксперта iStaff-it стала понятная дорожная карта: с закрепленными требованиями и маппингами, закрытыми через GAP-анализ разрывами по источникам и подготовленной моделью Data Vault 2.0.

Роль нашего аутстафф-специалиста

Специалист iStaff-it работал на стыке бизнеса и разработки — от требований до проверки результатов. В зоне ответственности его были:

сбор требований, формализация и управление изменениями;
подготовка спецификаций и документации для разработчиков;
анализ источников данных (ключи, полнота, дубликаты и пр.);
GAP-анализ и матрицы соответствия;
моделирование данных и проектирование Data Vault 2.0;
прототипирование на SQL и Python (PySpark);
координация работ через Jira и фиксация решений в Confluence.

Такой формат работы задал единый порядок: требования и решения фиксировались в Confluence, задачи и статусы — в Jira. Организация не думала, где найти аналитика, а получала прикладные решения.

Требования, спецификации и согласование логики

Чтобы команда разработки не «догадывалась» о правилах на ходу, специалист iStaff-it структурировал требования и описал артефакты под реализацию. Он собрал бизнес-сущности, атрибуты и критерии готовности данных, зафиксировал правила расчета показателей и граничные условия и сформировал спецификации (от маппингов полей и форматов до требований к историзации и обновлениям).

Документацию вели в Confluence: спецификации, маппинги, форматы и правила историзации поддерживали актуальными по мере изменений требований и источников.

Анализ систем-источников и GAP-анализ

Перед проектированием хранилища важно понять, что реально «лежит» в источниках и где ожидания не совпадают с данными. Для этого нужно провести анализ, включающий в себя ряд работ:

Определение способа интеграции для каждого источника. Что подключаем напрямую, что переносим, где нужны промежуточные слои.
Оценка структуры данных. В частности — ключей связности и качества (в плане дублей, пропусков и несогласованных значений).
Проведение GAP-анализа. Какие поля отсутствуют, где нужны обогащение и нормализация, какие атрибуты невозможно получить без изменений в источниках.
Описание правил трансформации и контроля качества. Чтобы проблемы не «переезжали» в витрины.

Благодаря специалисту на аутстаффинге, организация получила основу для развития DWH. С согласованной моделью и прототипами, понятными правилами взаимодействия и единым контуром для любых коммуникаций. Это сократило число повторных согласований и существенно ускорило вывод витрин в работу.

Модели данных и Data Vault 2.0

Дальше специалист собрал целевую модель DWH в трех уровнях: концептуальная → логическая → физическая. Ядро хранилища спроектировали в Data Vault 2.0:

выделил Hubs под устойчивые бизнес-ключи, Links под связи доменов и Satellites под атрибуты с историзацией;
задал единые правила нагрузки и трассируемости (источник записи, даты загрузки/изменения, контроль уникальности);
обеспечил возможность расширения — добавление новых источников и сущностей без переделки уже загруженного слоя.

В результате заказчик получил устойчивый «каркас» хранилища: Data Vault 2.0 с разделением на Hubs/Links/Satellites, едиными правилами историзации и трассируемости. Это позволило подключать новые источники и сущности без ломки уже построенного слоя.

Потоки данных на Apache Spark, прототипы на SQL и Python

На этапе реализации эксперт iStaff-it участвовал в построении data-потоков и помогал держать корректность и производительность:

описывал логику загрузок и преобразований в Spark (join-цепочки, фильтрации, агрегации, обработка «поздних» данных);
согласовывал формат инкрементальных обновлений и правила переобработки, чтобы не «переливать» данные целиком;
помогал настраивать проверки результатов — со сверкой объемов, контролем ключей и выборочными reconciliation-запросами.

Чтобы ускорить принятие решений и снять риски до «боевой» реализации, специалист подготовил ряд прототипов: на SQL для проверки маппингов, связей и базовых витринных выборок и на PySpark для цепочек преобразований и тестовой загрузки.

Результат для заказчика

Проект стартовал с классической проблемы DWH: источников много, требования у разных команд расходятся, а данные в реальности «живут» по своим правилам. Организации понадобился специалист, который сведет ожидания бизнеса с возможностями инфраструктуры и поможет выстроить единый контур.

По итогам работы нашего эксперта заказчик получил:

согласованные требования и понятные спецификации для разработки DWH;
реализуемые потоки интеграции и обработки данных на Apache Spark с контролем корректности;
прозрачный процесс работ через Jira/Confluence, который можно масштабировать под новые источники и витрины.

Хотите найти бизнес-аналитика или специалиста по DWH под Oracle / Apache Spark / Python (PySpark) / SQL? iStaff-it подберет эксперта под ваш контур и задачи.

IT аутстаффинг специалистов по Python, SQL и Apache Spark для разработки DWH