IT-специалистам
IT-рекрутерам
IT-специалистам
IT-рекрутерам
Кейсы

IT аутстаффинг специалистов по Python, SQL и Apache Spark для разработки DWH

Крупная финансовая организация запускала проект по разработке и DWH. В таких контурах важно не просто собрать данные в одном месте: нужно согласовать модель, правила загрузки и проверки, иначе команда утонет в правках и нестыковках между источниками.
Компания iStaff-it, занимающаяся арендой разработчиков, подключила к проекту специалиста по DWH на основании договора аутстаффинга. Эксперт закрыл аналитико-проектный контур и помог команде заказчика довести интеграцию данных до рабочих потоков на Apache Spark. Совокупный объем работ составил 967 часов.

Задача — спроектировать DWH и организовать корректную интеграцию источников

Чтобы хранилище заработало, нужно одновременно разобрать бизнес-требования, сопоставить их с реальными данными в источниках и заложить правила загрузки. Поэтому заказчик запросил специалиста, способного «и в аналитику, и в разработку». Важно, чтобы он мог:
  • собрать и уточнить требования к DWH у стейкхолдеров и зафиксировать их в документации;
  • проанализировать системы-источники и выбрать подход к интеграции/миграции данных;
  • провести GAP-анализ и подготовить правила трансформаций для выявления разрывов между текущим и желаемым состоянием;
  • спроектировать модели данных (концептуальную, логическую, физическую) и реализовать Data Vault 2.0;
  • принять участие в реализации потоков данных на Apache Spark и контролировать корректность загрузок.
Итогом работы эксперта iStaff-it стала понятная дорожная карта: с закрепленными требованиями и маппингами, закрытыми через GAP-анализ разрывами по источникам и подготовленной моделью Data Vault 2.0.

Роль нашего аутстафф-специалиста

Специалист iStaff-it работал на стыке бизнеса и разработки — от требований до проверки результатов. В зоне ответственности его были:
  • сбор требований, формализация и управление изменениями;
  • подготовка спецификаций и документации для разработчиков;
  • анализ источников данных (ключи, полнота, дубликаты и пр.);
  • GAP-анализ и матрицы соответствия;
  • моделирование данных и проектирование Data Vault 2.0;
  • прототипирование на SQL и Python (PySpark);
  • координация работ через Jira и фиксация решений в Confluence.
Такой формат работы задал единый порядок: требования и решения фиксировались в Confluence, задачи и статусы — в Jira. Организация не думала, где найти аналитика, а получала прикладные решения.

Требования, спецификации и согласование логики

Чтобы команда разработки не «догадывалась» о правилах на ходу, специалист iStaff-it структурировал требования и описал артефакты под реализацию. Он собрал бизнес-сущности, атрибуты и критерии готовности данных, зафиксировал правила расчета показателей и граничные условия и сформировал спецификации (от маппингов полей и форматов до требований к историзации и обновлениям).
Документацию вели в Confluence: спецификации, маппинги, форматы и правила историзации поддерживали актуальными по мере изменений требований и источников.

Анализ систем-источников и GAP-анализ

Перед проектированием хранилища важно понять, что реально «лежит» в источниках и где ожидания не совпадают с данными. Для этого нужно провести анализ, включающий в себя ряд работ:
  1. Определение способа интеграции для каждого источника. Что подключаем напрямую, что переносим, где нужны промежуточные слои.
  2. Оценка структуры данных. В частности — ключей связности и качества (в плане дублей, пропусков и несогласованных значений).
  3. Проведение GAP-анализа. Какие поля отсутствуют, где нужны обогащение и нормализация, какие атрибуты невозможно получить без изменений в источниках.
  4. Описание правил трансформации и контроля качества. Чтобы проблемы не «переезжали» в витрины.
Благодаря специалисту на аутстаффинге, организация получила основу для развития DWH. С согласованной моделью и прототипами, понятными правилами взаимодействия и единым контуром для любых коммуникаций. Это сократило число повторных согласований и существенно ускорило вывод витрин в работу.

Модели данных и Data Vault 2.0

Дальше специалист собрал целевую модель DWH в трех уровнях: концептуальная → логическая → физическая. Ядро хранилища спроектировали в Data Vault 2.0:
  • выделил Hubs под устойчивые бизнес-ключи, Links под связи доменов и Satellites под атрибуты с историзацией;
  • задал единые правила нагрузки и трассируемости (источник записи, даты загрузки/изменения, контроль уникальности);
  • обеспечил возможность расширения — добавление новых источников и сущностей без переделки уже загруженного слоя.
В результате заказчик получил устойчивый «каркас» хранилища: Data Vault 2.0 с разделением на Hubs/Links/Satellites, едиными правилами историзации и трассируемости. Это позволило подключать новые источники и сущности без ломки уже построенного слоя.

Потоки данных на Apache Spark, прототипы на SQL и Python

На этапе реализации эксперт iStaff-it участвовал в построении data-потоков и помогал держать корректность и производительность:
  • описывал логику загрузок и преобразований в Spark (join-цепочки, фильтрации, агрегации, обработка «поздних» данных);
  • согласовывал формат инкрементальных обновлений и правила переобработки, чтобы не «переливать» данные целиком;
  • помогал настраивать проверки результатов — со сверкой объемов, контролем ключей и выборочными reconciliation-запросами.
Чтобы ускорить принятие решений и снять риски до «боевой» реализации, специалист подготовил ряд прототипов: на SQL для проверки маппингов, связей и базовых витринных выборок и на PySpark для цепочек преобразований и тестовой загрузки.

Результат для заказчика

Проект стартовал с классической проблемы DWH: источников много, требования у разных команд расходятся, а данные в реальности «живут» по своим правилам. Организации понадобился специалист, который сведет ожидания бизнеса с возможностями инфраструктуры и поможет выстроить единый контур.
По итогам работы нашего эксперта заказчик получил:
  • согласованные требования и понятные спецификации для разработки DWH;
  • реализуемые потоки интеграции и обработки данных на Apache Spark с контролем корректности;
  • прозрачный процесс работ через Jira/Confluence, который можно масштабировать под новые источники и витрины.
Хотите найти бизнес-аналитика или специалиста по DWH под Oracle / Apache Spark / Python (PySpark) / SQL? iStaff-it подберет эксперта под ваш контур и задачи.