El siguiente diagrama hace referencia a la arquitectura requerida por una entidad Bancaria para su Proof of Concept (POC) de un Data Lake Corporativo, el cual debía incluir ingesta de datos en tiempo real.

La solución se presentó sobre la plataforma Google Cloud Platform, la cual incluye:

  • ●  Un cluster Hadoop/Spark (Cloud Dataproc) para el área de Data Quality, Data Lineage, Transformaciones con lógicas de negocio.
  • ●  Áreas de ingestas de datos y SandBox (Cloud Storage).
  • ●  Áreas disponibles para la creación de modelos de datos: Dimensional y Analytics (Big Query).
  • ●  Orquestación de procesos basado en Apache Airflow (Cloud Composer).
  • ●  Ingesta de datos en streaming (Pub/Sub – DataFlow – Big Query).