Data Processing Pipeline

(Propuesta inicial)

De acuerdo a la estrategia actual de ingesta de datos desde la base de datos hacia al Data Lake, se manejan tres fases:

RAW Data: Mediante un Job se extrae la información histórica con el fin de llenar la tabla fría de Data Lake
Change Data Capture: Se extrae la información actualizada pata alimentar la Tabla Delta
Refined Data: Extracción de diferencias entre tabla delta y tabla fría para añadir en Tabla Caliente.

Las fases anteriores aplican tanto para la base de datos de accounts como la de balance, como se muestra a continuación:

(Proceso a realizarce)

De acuerdo con platicas del equipo de SPIN la ingesta de datos desde MongoDB hacia al Data Lake, se manejan tres fases:

Landing: Se sincroniza la información con Fivetran de MongoDB hacia BQ
RAW: Se hace el parsing de la información de la capa Landing
Trusted: Se hace el nombrado de las columnas de acuerdo al Estándares de Nomenclaturas de Objetos en Datalake

Zona: spin-datalake-dev-landing

dataset: spin_dev_mongo_ffss_spin_balance_mirror_db

tabla: balances

dataset: spin_dev_mongo_ffss_account_mirror_db

tabla: accounts

dataset: spin_dev_mongo_ffss_card_mirror_db

tabla: cards

Zona: spin-datalake-dev-raw

Parsing de la información

dataset:spin_dev_mongo_ffss_spin_balance_mirror_db

balances

spin_dev_mongo_ffss_account_mirror_db

accounts

spin_dev_mongo_ffss_account_mirror_db

cards

Zona: spin-datalake-dev-trusted

spin_mirror_strategy

tbl_fact_balances

tbl_fact_accounts

tbl_fact_cards