El siguiente diagrama hace referencia a la arquitectura requerida por una entidad Bancaria para su Proof of Concept (POC) de un Data Lake Corporativo, el cual debía incluir ingesta de datos en tiempo real.
![](https://www.goup.cloud/wp-content/uploads/2023/06/data_lake_1-1-1024x789.png)
La solución se presentó sobre la plataforma Google Cloud Platform, la cual incluye:
- ● Un cluster Hadoop/Spark (Cloud Dataproc) para el área de Data Quality, Data Lineage, Transformaciones con lógicas de negocio.
- ● Áreas de ingestas de datos y SandBox (Cloud Storage).
- ● Áreas disponibles para la creación de modelos de datos: Dimensional y Analytics (Big Query).
- ● Orquestación de procesos basado en Apache Airflow (Cloud Composer).
- ● Ingesta de datos en streaming (Pub/Sub – DataFlow – Big Query).
![](https://www.goup.cloud/wp-content/uploads/2023/06/datalake_2-1-1024x789.png)