Data Processing Pipeline
(Propuesta inicial, ya no aplica)
De acuerdo a la estrategia actual de ingesta de datos desde la base de datos hacia al Data Lake, se manejan tres fases:
RAW Data: Mediante un Job se extrae la información histórica con el fin de llenar la tabla fría de Data Lake
Change Data Capture: Se extrae la información actualizada pata alimentar la Tabla Delta
Refined Data: Extracción de diferencias entre tabla delta y tabla fría para añadir en Tabla Caliente.
Las fases anteriores aplican tanto para la base de datos de accounts como la de balance, como se muestra a continuación:
(Proceso a realizar)
De acuerdo con platicas del equipo de SPIN la ingesta de datos desde MongoDB hacia al Data Lake, se manejan tres fases:
Landing: Se sincroniza la información con Fivetran de MongoDB hacia BQ
RAW: Se hace el parsing de la información de la capa Landing
Trusted: Se hace el nombrado de las columnas de acuerdo al Estándares de Nomenclaturas de Objetos en Datalake
Zona: spin-datalake-dev-landing
dataset: spin_dev_mongo_ffss_spin_balance_mirror_db
tabla: balances
dataset: spin_dev_mongo_ffss_account_mirror_db
tabla: accounts
dataset: spin_dev_mongo_ffss_card_mirror_db
tabla: cards
Zona: spin-datalake-dev-raw
Parsing de la información
dataset:spin_dev_mongo_ffss_spin_balance_mirror_db
balances
spin_dev_mongo_ffss_account_mirror_db
accounts
spin_dev_mongo_ffss_account_mirror_db
cards
Zona: spin-datalake-dev-trusted
spin_mirror_strategy
tbl_fact_balances
tbl_fact_accounts
tbl_fact_cards