Data Processing Pipeline

(Propuesta inicial, ya no aplica)

De acuerdo a la estrategia actual de ingesta de datos desde la base de datos hacia al Data Lake, se manejan tres fases:

  1. RAW Data: Mediante un Job se extrae la información histórica con el fin de llenar la tabla fría de Data Lake

  2. Change Data Capture: Se extrae la información actualizada pata alimentar la Tabla Delta

  3. Refined Data: Extracción de diferencias entre tabla delta y tabla fría para añadir en Tabla Caliente.

Las fases anteriores aplican tanto para la base de datos de accounts como la de balance, como se muestra a continuación:

Ingesta del Data Lake desde Mongo para bases de datos de balance y accounts

 

 

(Proceso a realizar)

 

De acuerdo con platicas del equipo de SPIN la ingesta de datos desde MongoDB hacia al Data Lake, se manejan tres fases:

  1. Landing: Se sincroniza la información con Fivetran de MongoDB hacia BQ

  2. RAW: Se hace el parsing de la información de la capa Landing

  3. Trusted: Se hace el nombrado de las columnas de acuerdo al Estándares de Nomenclaturas de Objetos en Datalake

Zona: spin-datalake-dev-landing

dataset: spin_dev_mongo_ffss_spin_balance_mirror_db

tabla: balances

dataset: spin_dev_mongo_ffss_account_mirror_db

tabla: accounts

dataset: spin_dev_mongo_ffss_card_mirror_db

tabla: cards

 

Zona:  spin-datalake-dev-raw

Parsing de la información

dataset:spin_dev_mongo_ffss_spin_balance_mirror_db

balances

spin_dev_mongo_ffss_account_mirror_db

accounts

spin_dev_mongo_ffss_account_mirror_db

cards

 

Zona:  spin-datalake-dev-trusted

spin_mirror_strategy

      tbl_fact_balances

      tbl_fact_accounts

      tbl_fact_cards