DataGym | Microsoft Fabric

Change Data Feed en Delta Lake: Captura incremental de cambios para pipelines modernos en Microsoft Fabric

Kilian Baccaro Salinas — Tue, 24 Mar 2026 07:52:26 GMT

Change Data Feed es una funcionalidad de Delta Lake que registra los cambios a nivel de fila entre versiones de una tabla Delta. Al activarla, el runtime genera un evento de cambio por cada operación de escritura: inserciones, actualizaciones y eliminaciones.

Piénsalo como un CDC (Change Data Capture) nativo dentro de Delta Lake, sin necesidad de herramientas externas ni lectura de logs de base de datos. Los cambios quedan accesibles directamente vía Spark SQL o PySpark.

El esquema de eventos CDF

Al leer el CDF, obtienes las columnas de datos de tu tabla más tres columnas de metadatos automáticas:

Columna	Tipo	Descripción
`_change_type`	String	Tipo de operación: `insert`, `update_preimage`, `update_postimage`, `delete`
`_commit_version`	Long	Versión del log de Delta del commit
`_commit_timestamp`	Timestamp	Timestamp exacto del commit

Los cuatro valores posibles de _change_type son:

insert — Fila nueva insertada
update_preimage — Estado de la fila antes de la actualización
update_postimage — Estado de la fila después de la actualización
delete — Fila eliminada

Nota clave sobre updates: cada UPDATE genera dos filas: update_preimage y update_postimage. Esto es fundamental para SCD2, ya que tenemos el estado anterior y el nuevo con sus timestamps exactos.

Cómo habilitar el Change Data Feed en Fabric

CDF no está activo por defecto: debe activarse explícitamente. Además, solo captura cambios realizados después de su activación — el historial previo no queda registrado.

Hay tres formas de activarlo:

1. Al crear una tabla nueva

CREATE TABLE raw_productos (
    id       INT,
    nombre   STRING,
    precio   DECIMAL(10,2),
    stock    INT
)
TBLPROPERTIES (delta.enableChangeDataFeed = true);

2. En una tabla existente

ALTER TABLE raw_productos
SET TBLPROPERTIES (delta.enableChangeDataFeed = true);

3. Para todas las tablas nuevas de la sesión

spark.conf.set('spark.microsoft.delta.properties.defaults.enableChangeDataFeed', 'true')

Verificar que está habilitado

spark.sql("DESCRIBE DETAIL raw_productos") \
     .select('name', 'properties') \
     .show(truncate=False)

Resultado esperado en Fabric:

{delta.enableChangeDataFeed -> true, delta.stats.extended.collect -> true, ...}

Lectura de cambios

Puedes consultar los cambios por rango de versiones o por rango de timestamps. Ambos extremos del rango son inclusivos.

Spark SQL

-- Por rango de versiones
SELECT * FROM table_changes('raw_productos', 0, 10);

-- Desde una versión hasta la última disponible
SELECT * FROM table_changes('raw_productos', 0);

-- Por rango de timestamps
SELECT * FROM table_changes('raw_productos',
    '2026-01-01 00:00:00',
    '2026-03-05 09:30:55');

PySpark

# Por versiones
df = (spark.read
    .format('delta')
    .option('readChangeFeed', 'true')
    .option('startingVersion', 0)
    .option('endingVersion', 10)
    .table('raw_productos'))

# Por timestamps
df = (spark.read
    .format('delta')
    .option('readChangeFeed', 'true')
    .option('startingTimestamp', '2026-03-05 09:30:05')
    .option('endingTimestamp',   '2026-03-05 09:30:55')
    .table('raw_productos'))

# Desde una versión hasta la última disponible
df = (spark.read
    .format('delta')
    .option('readChangeFeed', 'true')
    .option('startingVersion', 0)
    .table('raw_productos'))

Ejemplo de salida real con una tabla de productos:

Almacenamiento de los datos de cambio

Delta Lake almacena los registros de cambio para operaciones UPDATE, DELETE y MERGE en la carpeta _change_datadentro del directorio de la tabla Delta en OneLake. Sin embargo, existen situaciones donde Delta Lake optimiza el proceso y no genera archivos en esta carpeta:

Operaciones de solo inserción (INSERT): los cambios se calculan directamente desde el transaction log.
Eliminaciones completas de partición: igualmente calculables sin archivos adicionales.

Los archivos en _change_data siguen la misma política de retención de la tabla. Si ejecutas VACUUM con el período de retención por defecto (7 días), también se limpiarán estos registros de cambio.

Caso de uso 1: Sincronización Silver → Gold

El primer caso de uso es el más frecuente en arquitecturas Medallion: propagar cambios desde la capa Silver a Gold procesando únicamente las filas que han cambiado.

Datos iniciales

Disponemos de dos tablas de productos (productos_silver y productos_gold) con los siguientes datos:

Y se generan los siguientes cambios sobre la tabla de silver:

# Actualizar precio del Laptop (bajada de precio)
spark.sql("""
    UPDATE productos_silver
    SET precio = 849.99, stock = 45
    WHERE producto_id = 1
""")

# Añadir nuevo producto al catálogo
nuevo = spark.createDataFrame([
    Row(5, 'Webcam HD', 'Perifericos', Decimal('59.99'), 180)
], schema)
nuevo.write.format('delta').mode('append').saveAsTable('productos_silver')

# Eliminar producto descatalogado
spark.sql("DELETE FROM productos_silver WHERE producto_id = 4")

Punto de partida: detectar la versión CDF inicial

Un problema práctico es saber desde qué versión empezar a leer el CDF. Consultar el historial de la tabla y buscar cuándo se habilitó delta.enableChangeDataFeed resuelve esto de forma robusta:

def get_cdf_start_version(table_name: str) -> int:
    """
    Obtiene la primera versión donde CDF fue habilitado en la tabla,
    consultando DESCRIBE HISTORY y buscando en operationParameters
    la propiedad delta.enableChangeDataFeed = true.
    """
    history_df = spark.sql(f"DESCRIBE HISTORY {table_name}")
    cdf_versions = []

    for row in history_df.collect():
        operation = row['operation'] or ''
        params    = row['operationParameters'] or {}

        if operation not in ('SET TBLPROPERTIES', 'CREATE TABLE',
                             'CREATE OR REPLACE TABLE AS SELECT'):
            continue

        raw_props = params.get('properties', '{}')
        try:
            props = json.loads(raw_props)
        except (json.JSONDecodeError, TypeError):
            props = {}

        if props.get('delta.enableChangeDataFeed') == 'true':
            cdf_versions.append(row['version'])

    if not cdf_versions:
        raise ValueError(
            f"CDF no está habilitado en '{table_name}'. "
            f"Ejecuta: ALTER TABLE {table_name} "
            f"SET TBLPROPERTIES (delta.enableChangeDataFeed = true)"
        )

    return min(cdf_versions)

El proceso de sincronización completo

Con los datos de Silver cargados y los cambios simulados (update de precio, insert de nuevo producto, delete de producto descatalogado), el proceso completo es:

from delta.tables import DeltaTable
from pyspark.sql import functions as F
from pyspark.sql.window import Window

# Obtener versión inicial del CDF
cdf_start_version = get_cdf_start_version('productos_silver')

# Leer todos los cambios
cambios_cdf = (spark.read
               .format('delta')
               .option('readChangeFeed', 'true')
               .option('startingVersion', cdf_start_version)
               .table('productos_silver'))

# Filtrar update_preimage (nos quedamos con el estado final)
cambios_filtrados = cambios_cdf.filter(
    F.col('_change_type') != 'update_preimage'
)

# Quedarse con la última operación por producto (en caso de múltiples cambios)
window = Window.partitionBy('producto_id').orderBy(F.col('_commit_version').desc())
ultimos_cambios = (cambios_filtrados
    .withColumn('rn', F.row_number().over(window))
    .filter(F.col('rn') == 1)
    .drop('rn'))

# Aplicar MERGE a Gold
gold   = DeltaTable.forName(spark, 'productos_gold')
upserts = ultimos_cambios.drop('_commit_version', '_commit_timestamp')

gold.alias('gold').merge(
    upserts.alias('silver'),
    'gold.producto_id = silver.producto_id'
).whenMatchedDelete(
    condition="silver._change_type = 'delete'"
).whenMatchedUpdateAll(
    condition="silver._change_type = 'update_postimage'"
).whenNotMatchedInsert(
    condition="silver._change_type = 'insert'",
    values={
        'producto_id': 'silver.producto_id',
        'nombre':      'silver.nombre',
        'categoria':   'silver.categoria',
        'precio':      'silver.precio',
        'stock':       'silver.stock',
    }
).execute()

El MERGE discrimina por _change_type dentro de cada cláusula whenMatched / whenNotMatched, propagando correctamente inserts, updates y deletes a Gold. Con row_number() resuelve el caso en que el mismo registro cambia varias veces entre dos ejecuciones — nos quedamos únicamente con su estado final.

select * from productos_gold

Puedes ver el notebook completo aquí: NB_cdf_sample.ipynb

Caso de uso 2: SCD Tipo 2 con CDF

El segundo caso de uso es más sofisticado: implementar Slowly Changing Dimension Type 2 (SCD2) aprovechando el preimage/postimage que proporciona CDF.

En SCD2, cada cambio genera una nueva fila en lugar de sobreescribir la existente, manteniendo el historial completo con columnas valid_from, valid_to e is_current.

CDF es ideal para SCD2 porque nos da exactamente lo que necesitamos: el estado anterior (update_preimage) y el nuevo (update_postimage) con el timestamp exacto del cambio.

Inicialización: snapshot inicial de Silver

En la primera ejecución no hay historial CDF que procesar — construimos Gold desde el snapshot de Silver en la versión donde se habilitó CDF:

SILVER_TABLE = 'productos_silver_scd2'
GOLD_TABLE   = 'productos_gold_scd2'

gold_exists = spark.catalog.tableExists(GOLD_TABLE)
cdf_start_version, cdf_start_timestamp = get_cdf_start_info(SILVER_TABLE)

if not gold_exists:
    # Primera ejecución: leemos el snapshot de silver exactamente en la versión
    # donde se habilitó CDF, usando Delta Time Travel. Así obtenemos el estado
    # inicial de la tabla sin depender de tipos de eventos CDF.
    silver_snapshot = (spark.read
                        .format('delta')
                        .option('versionAsOf', cdf_start_version)
                        .table(SILVER_TABLE))

    gold_df = (silver_snapshot
               .withColumn('valid_from', F.lit(cdf_start_timestamp).cast('timestamp'))
               .withColumn('valid_to',   F.lit(None).cast('timestamp'))
               .withColumn('is_current', F.lit(True)))

    gold_df.write.format('delta').mode('overwrite').saveAsTable(GOLD_TABLE)

    # Guardar watermark: la versión de silver que acabamos de procesar
    spark.sql(f"""
        ALTER TABLE {GOLD_TABLE}
        SET TBLPROPERTIES ('scd2.last_processed_version' = '{cdf_start_version}')
    """)

    print(f"[INIT] Tabla '{GOLD_TABLE}' creada desde snapshot v{cdf_start_version} ({cdf_start_timestamp}).")

else:
    print(f"[SKIP] Tabla '{GOLD_TABLE}' ya existe. Ejecuta el proceso incremental.")

display(spark.table(GOLD_TABLE).orderBy('producto_id'))

Patrón watermark: almacenar la última versión procesada como propiedad de la propia tabla Gold (scd2.last_processed_version) es una buena técnica — el estado del pipeline viaja junto con los datos, sin necesidad de tablas de control externas.

Simular cambios en Silver

# Actualizar precio del Laptop (bajada de precio)
spark.sql("""
    UPDATE productos_silver_scd2
    SET precio = 849.99, stock = 45
    WHERE producto_id = 1
""")

# Añadir nuevo producto al catálogo
nuevo = spark.createDataFrame([
    Row(5, 'Webcam HD', 'Perifericos', Decimal('59.99'), 180)
], schema)
nuevo.write.format('delta').mode('append').saveAsTable('productos_silver_scd2')

# Eliminar producto descatalogado
spark.sql("DELETE FROM productos_silver_scd2 WHERE producto_id = 4")

Proceso incremental SCD2

Una vez existe la tabla gold, el proceso incremental lee el CDF de silver desde la versión siguiente al watermark almacenado como propiedad de la tabla gold (scd2.last_processed_version).

Por cada lote de cambios aplica la lógica SCD2 en dos pasos:

Cerrar registros activos (is_current = True) en gold para los registros que han sido actualizados (update_preimage) o eliminados (delete) — se les asigna valid_to = _commit_timestamp e is_current = False mediante un MERGE.
Insertar nuevas versiones en gold para los registros nuevos (insert) o actualizados (update_postimage) — con valid_from = _commit_timestamp, valid_to = null e is_current = True.

Al finalizar, el watermark se actualiza con la última versión procesada.

SILVER_TABLE = 'productos_silver_scd2'
GOLD_TABLE   = 'productos_gold_scd2'

# Leer watermark: última versión de silver ya procesada
gold_props        = spark.sql(f"DESCRIBE DETAIL {GOLD_TABLE}").collect()[0]['properties']
last_version      = int(gold_props['scd2.last_processed_version'])
next_version      = last_version + 1

# Versión más reciente disponible en silver
silver_latest     = spark.sql(f"DESCRIBE HISTORY {SILVER_TABLE} LIMIT 1").collect()[0]['version']

if next_version > silver_latest:
    print(f"[SKIP] No hay cambios nuevos en silver desde la versión {last_version}.")
else:
    print(f"Procesando versiones {next_version} – {silver_latest} de silver...")

    cambios_df = (spark.read
                   .format('delta')
                   .option('readChangeFeed', 'true')
                   .option('startingVersion', next_version)
                   .table(SILVER_TABLE)
                   .cache())

    max_version = cambios_df.agg(F.max('_commit_version')).collect()[0][0]

    # ── Paso 1: cerrar registros activos en gold ──────────────────────────────
    # Para cada UPDATE (preimage) y DELETE buscamos el registro con is_current=True
    # y le ponemos valid_to = timestamp del commit en que dejó de ser válido.
    to_close = (cambios_df
                .filter(F.col('_change_type').isin(['update_preimage', 'delete']))
                .select('producto_id', '_commit_timestamp')
                .distinct())

    (DeltaTable.forName(spark, GOLD_TABLE).alias('gold')
     .merge(
         to_close.alias('c'),
         'gold.producto_id = c.producto_id AND gold.is_current = true'
     )
     .whenMatchedUpdate(set={
         'valid_to':   'c._commit_timestamp',
         'is_current': F.lit(False)
     })
     .execute())

    # ── Paso 2: insertar nuevas versiones en gold ─────────────────────────────
    # UPDATE postimage → nueva versión activa del registro modificado.
    # INSERT           → registro completamente nuevo en silver.
    new_records = (cambios_df
                   .filter(F.col('_change_type').isin(['update_postimage', 'insert']))
                   .withColumn('valid_from', F.col('_commit_timestamp'))
                   .withColumn('valid_to',   F.lit(None).cast('timestamp'))
                   .withColumn('is_current', F.lit(True))
                   .drop('_change_type', '_commit_version', '_commit_timestamp'))

    new_records.write.format('delta').mode('append').saveAsTable(GOLD_TABLE)

    # ── Paso 3: actualizar watermark ──────────────────────────────────────────
    spark.sql(f"""
        ALTER TABLE {GOLD_TABLE}
        SET TBLPROPERTIES ('scd2.last_processed_version' = '{max_version}')
    """)

    cambios_df.unpersist()
    print(f"[OK] Versiones {next_version}–{max_version} procesadas.")

display(spark.table(GOLD_TABLE).orderBy('producto_id', 'valid_from'))

Simular múltiples cambios sobre el mismo registro

El proceso incremental anterior funciona cuando cada producto cambia una sola vez por batch. Pero si el mismo producto_id recibe varios UPDATEs entre dos ejecuciones, el MERGE simple falla: después de cerrar el primer registro activo, el segundo preimage no encontrará ningún is_current = True y la cadena de versiones quedará rota.

Simulamos ese caso: dos bajadas de precio consecutivas sobre el producto 1 y un ajuste de stock en el producto 3, los tres en el mismo batch incremental.

# Primera bajada de precio del Laptop (commit independiente)
spark.sql("""
    UPDATE productos_silver_scd2
    SET precio = 799.99, stock = 30
    WHERE producto_id = 1
""")

# Segunda bajada de precio del Laptop (otro commit independiente)
spark.sql("""
    UPDATE productos_silver_scd2
    SET precio = 749.99, stock = 20
    WHERE producto_id = 1
""")

# Ajuste de stock en el Teclado
spark.sql("""
    UPDATE productos_silver_scd2
    SET stock = 180
    WHERE producto_id = 3
""")

Proceso incremental SCD2 con varias versiones

La solución al problema de múltiples cambios por producto es usar lead() sobre _commit_version en lugar del MERGE doble.

Lógica en dos pasos:

Cerrar el registro activo en gold usando el timestamp del primer evento del batch para ese producto (mínimo _commit_timestamp de preimages/deletes). Esto cierra exactamente una vez independientemente de cuántos cambios haya.

cambios_df = (spark.read
                .format('delta')
                .option('readChangeFeed', 'true')
                .option('startingVersion', next_version)
                .table(SILVER_TABLE)
                .cache())

max_version = cambios_df.agg(F.max('_commit_version')).collect()[0][0]

first_event = (cambios_df
                .filter(F.col('_change_type').isin(['update_preimage', 'delete']))
                .groupBy('producto_id')
                .agg(F.min('_commit_timestamp').alias('first_change_ts')))

(DeltaTable.forName(spark, GOLD_TABLE).alias('gold')
     .merge(
         first_event.alias('c'),
         'gold.producto_id = c.producto_id AND gold.is_current = true'
     )
     .whenMatchedUpdate(set={
         'valid_to':   'c.first_change_ts',
         'is_current': F.lit(False)
     })
     .execute())

display(cambios_df.orderBy('_commit_timestamp'))

display(first_event)

Construir todas las nuevas filas SCD2 a partir de los eventos update_postimage e insert, ordenados por _commit_version. Con lead(_commit_timestamp) calculamos el valid_to de cada fila: es el timestamp del siguiente evento para ese mismo producto_id. Si no hay siguiente evento (lead = null) es la versión activa (is_current = True). Los eventos delete se incluyen en la ventana para propagar su timestamp como valid_to de la última postimage, pero no generan fila propia.

w = Window.partitionBy('producto_id').orderBy('_commit_version')

new_rows = (cambios_df
            .filter(F.col('_change_type').isin(['insert', 'update_postimage', 'delete']))
            .withColumn('next_ts', F.lead('_commit_timestamp').over(w))
            .filter(F.col('_change_type') != 'delete')
            .withColumn('valid_from', F.col('_commit_timestamp'))
            .withColumn('valid_to',   F.col('next_ts'))
            .withColumn('is_current', F.col('next_ts').isNull())
            .drop('_change_type', '_commit_version', '_commit_timestamp', 'next_ts'))

new_rows.write.format('delta').mode('append').saveAsTable(GOLD_TABLE)

display(new_rows.orderBy('producto_id', 'valid_from'))

Resultado final

Reconstrucción completa de gold desde silver

En lugar de mantener el proceso incremental, a veces es útil (o necesario) reconstruir la tabla gold desde cero a partir de todo el historial CDF de silver.

La clave es que los eventos del CDF (insert, update_postimage, delete) forman una línea de tiempo ordenada por _commit_version para cada producto_id. Aplicando lead(_commit_timestamp) sobre esa ventana obtenemos directamente el valid_to de cada versión sin necesidad de MERGE ni watermark:

insert / update_postimage → generan una fila en gold con valid_from = _commit_timestamp y valid_to = siguiente evento del mismo producto
delete → no genera fila, pero su timestamp se propaga como valid_to de la última postimage gracias al lead()
update_preimage → descartado (es el espejo del postimage anterior, no aporta información nueva)

El resultado es idéntico al que produce el proceso incremental acumulado, pero calculado en un único scan del CDF.

SILVER_TABLE    = 'productos_silver_scd2'
GOLD_TABLE_FULL = 'productos_gold_scd2_full'

cdf_start_version, _ = get_cdf_start_info(SILVER_TABLE)

# Leer todo el historial CDF desde la versión inicial
all_events = (spark.read
               .format('delta')
               .option('readChangeFeed', 'true')
               .option('startingVersion', cdf_start_version)
               .table(SILVER_TABLE))

# Ventana por producto ordenada por versión de commit (orden real de los cambios)
w = Window.partitionBy('producto_id').orderBy('_commit_version')

gold_full_df = (all_events
    # Conservamos insert, update_postimage y delete.
    # delete entra en la ventana para que su timestamp llegue como valid_to
    # de la última postimage/insert, pero no generará fila propia.
    .filter(F.col('_change_type').isin(['insert', 'update_postimage', 'delete']))
    # valid_to = timestamp del siguiente evento para este producto_id (o null si es el último)
    .withColumn('next_ts', F.lead('_commit_timestamp').over(w))
    # Eliminar los delete (no generan fila en gold)
    .filter(F.col('_change_type') != 'delete')
    .withColumn('valid_from', F.col('_commit_timestamp'))
    .withColumn('valid_to',   F.col('next_ts'))
    .withColumn('is_current', F.col('next_ts').isNull())
    .drop('_change_type', '_commit_version', '_commit_timestamp', 'next_ts'))

gold_full_df.write.format('delta').mode('overwrite').saveAsTable(GOLD_TABLE_FULL)

print(f"Tabla '{GOLD_TABLE_FULL}' generada con {gold_full_df.count()} filas.")
display(spark.table(GOLD_TABLE_FULL).orderBy('producto_id', 'valid_from'))

Puedes ver el notebook completo aquí: NB_cdf_scd2.ipynb

VACUUM y CDF: una convivencia que hay que gestionar

Una de las operaciones de mantenimiento más habituales en Delta Lake es VACUUM, que elimina los archivos físicos que ya no son necesarios para la versión actual de la tabla. En tablas con CDF activo, esta operación tiene consecuencias criticas que hay que entender bien antes de ejecutarla.

⚠️El problema central

VACUUM elimina tanto los archivos de datos de versiones antiguas como los archivos de la carpeta changedata. Una vez ejecutado, es imposible recuperar esos cambios: no existe ninguna operacion de rollback para datos fisicamente borrados.

CDF y VACUUM compiten directamente: CDF necesita el historial para ser util; VACUUM lo elimina para ahorrar almacenamiento.

Que ocurre si VACUUM elimina versiones que necesita CDF

# Despues de ejecutar VACUUM, esta lectura puede FALLAR:
spark.read \
    .format('delta') \
    .option('readChangeFeed', 'true') \
    .option('startingVersion', 0) \
    .table('productos_silver')

# Error: Error getting change data for range [0, 5].
# The provided starting version 0 is older than the
# earliest available version for this table.

Controlar la retención: dos propiedades clave

Delta Lake tiene dos propiedades distintas que controlan la retención. Ambas deben estar alineadas: si solo amplias el log pero no los archivos fisicos, el log registrara versiones para las que ya no existen datos:

# Ver la configuracion actual
spark.sql('DESCRIBE DETAIL productos_silver') \
     .select('properties') \
     .show(truncate=False)

# Ampliar retencion a 90 dias
spark.sql("""
    ALTER TABLE productos_silver
    SET TBLPROPERTIES (
        delta.logRetentionDuration         = 'interval 90 days',
        delta.deletedFileRetentionDuration = 'interval 90 days'
    )
""")

# delta.logRetentionDuration      -> conserva entradas del transaction log
# delta.deletedFileRetentionDuration -> conserva archivos fisicos eliminados incluida la carpeta _change_data)

Validar la versión disponible antes de leer CDF

Es recomendable comprobar que la versión de inicio del CDF sigue disponible antes de lanzar el pipeline, especialmente en entornos donde VACUUM se ejecuta de forma automática:

def get_oldest_available_version(table_name: str) -> int:
    """
    Devuelve la version mas antigua disponible en el historial.
    Util para detectar si VACUUM ha eliminado parte del historial CDF.
    """
    history_df = spark.sql(f'DESCRIBE HISTORY {table_name}')
    return history_df.agg({'version': 'min'}).collect()[0][0]


oldest = get_oldest_available_version('productos_silver')
print(f'Version mas antigua disponible: {oldest}')

if cdf_start_version < oldest:
    raise ValueError(
        f'La version de inicio del CDF ({cdf_start_version}) ya no esta disponible. '
        f'La version mas antigua en el historial es {oldest}. '
        f'Es posible que VACUUM haya eliminado parte del historial.'
    )

Recomendaciones y buenas prácticas

1. Activa CDF desde el inicio del ciclo de vida de la tabla

CDF no captura el historial previo a su activación. Actívalo al crear la tabla o lo antes posible. En Fabric, usa la configuración global de sesión para que todas las tablas nuevas lo hereden:

spark.conf.set('spark.microsoft.delta.properties.defaults.enableChangeDataFeed', 'true')

O bien pásalo como opción al escribir:

df.write.format('delta').option('delta.enableChangeDataFeed', 'true').saveAsTable('mi_tabla')

2. Usa siempre `startingVersion`, no `startingTimestamp`, en procesos incrementales

Los timestamps pueden tener problemas de zona horaria o precisión. La versión del log de Delta es determinista e inequívoca. Guarda el watermark como número de versión.

3. Verifica siempre si hay cambios nuevos antes de leer el CDF

Antes de llamar a readChangeFeed, comprueba que realmente hay versiones nuevas:

silver_latest = spark.sql(f"DESCRIBE HISTORY {SILVER_TABLE} LIMIT 1").collect()[0]['version']
if next_version > silver_latest:
    print("[SKIP] No hay cambios nuevos.")

Esto evita errores cuando no hay nada que procesar.

4. Filtra `update_preimage` lo antes posible

En la mayoría de casos de uso (sincronización simple, upserts), el update_preimage no es necesario. Filtrarlo lo antes posible reduce el volumen de datos que Spark tiene que manejar. En SCD2 sí lo necesitas, pero solo para extraer el timestamp del primer evento.

5. Usa `cache()` cuando el DataFrame de CDF se lee múltiples veces

En el proceso SCD2, el DataFrame de cambios se usa en dos pasos (cerrar registros + insertar nuevos). Cachearlo evita releer el CDF dos veces:

cambios_df = (spark.read
               .format('delta')
               .option('readChangeFeed', 'true')
               .option('startingVersion', next_version)
               .table(SILVER_TABLE)
               .cache())

# resto de código

cambios_df.unpersist()

6. Usa el patrón `lead()` para manejar múltiples cambios en el mismo batch

El MERGE simple de SCD2 solo funciona cuando cada registro cambia una vez por batch. Para el caso general, el patrón con lead(_commit_timestamp) sobre una ventana ordenada por _commit_version es la solución correcta y escalable.

7. Ten en cuenta el coste de almacenamiento

CDF genera archivos adicionales de cambios en _change_data/ dentro del directorio de la tabla. En tablas con alta frecuencia de escritura, esto puede aumentar el almacenamiento significativamente. Evalúa si necesitas CDF en todas las tablas o solo en las que son fuente de otros procesos.

8. CDF y VACUUM: precaución con la retención

Si ejecutas VACUUM con una retención baja, puedes perder archivos de cambios que todavía no has procesado. Asegúrate de que la retención de VACUUM sea mayor que el intervalo máximo entre ejecuciones de tu pipeline.

Cómo usar Workspace Identity para la autenticación en Microsoft Fabric

Kilian Baccaro Salinas — Thu, 05 Mar 2026 08:56:00 GMT

Workspace Identity es una identidad gestionada automáticamente que Microsoft Fabric asocia a un workspace. Es esencialmente un service principal que se crea en Microsoft Entra ID (Azure AD) sin que tengas que gestionar manualmente credenciales, secretos o certificados.

Ventajas principales

✅ Sin gestión de credenciales: No hay contraseñas, secretos ni certificados que mantener
✅ Sin expiración: Las credenciales no caducan, evitando interrupciones en pipelines productivos
✅ Mayor seguridad: Elimina el riesgo de fugas de credenciales en código o configuraciones
✅ Autenticación unificada: Usa Microsoft Entra ID para todos los servicios compatibles

Cómo crear Workspace Identity

Ve a tu workspace en Fabric y haz clic en el icono de engranaje (⚙️) para abrir Workspace Settings

Selecciona la pestaña Workspace identity y haz clic en + Workspace identity

¿Qué ocurre en segundo plano?

Al crear la Workspace Identity, Fabric automáticamente:

Registra una aplicación empresarial (Enterprise Application) en Microsoft Entra ID
El service principal se crea con el mismo nombre que tu workspace
Puedes encontrarlo en Azure Portal → Microsoft Entra ID → Enterprise Applications

⚠️ Importante: La creación del service principal NO otorga permisos automáticos sobre ningún recurso de Azure. Debes configurar los permisos manualmente para cada servicio.

El flujo de trabajo completo

Caso de uso 1: Azure Storage Account

Escenario

Quieres leer datos en un Azure Data Lake Storage Gen2 (ADLS Gen2) desde tus pipelines de Fabric.

Paso 1: Crear Workspace Identity

Ya cubierto en la sección anterior.

Paso 2: Asignar permisos en Azure Storage

Ve a tu Storage Account en Azure Portal
En el menú lateral, selecciona Access Control (IAM)
Haz clic en + Add → Add role assignment
Selecciona el rol apropiado:
- Storage Blob Data Reader: Solo lectura
En la pestaña Members, haz clic en + Select members
Busca tu workspace por nombre (el service principal tiene el mismo nombre)
Selecciónalo y haz clic en Select
Haz clic en Review + assign

Paso 3: Creación de la conexión

Una vez asignados los permisos, se debe de crear la conexión en Fabric.

Ve a Manage connections and gateways
Haz clic en + New connection → Cloud
Selecciona Azure Data Lake Storage Gen2
Completa los datos:
- Connection name: Nombre descriptivo (ej: "ADLS-WorkspaceIdentity")
- Account name or URL: Tu storage account URL (https://mystorageaccount.dfs.core.windows.net)
- Authentication method: Selecciona Workspace identity
1. Haz clic en Create

Paso 4: Usar Workspace Identity en una Pipeline

En tu Pipeline:

Crea una actividad "Copy data"
En Source:
- Connection: Selecciona la conexión creada anteriormente
- File path: Container y carpeta (ej: contoso-csv-1m/product.csv)
En Destination:
- Selecciona tu Lakehouse
- Tabla destino (Nueva o ya existente)
Ejecuta el pipeline

Bonus: OneLake Shortcut con Workspace Identity

Ve a tu Lakehouse en Fabric
Haz clic en New shortcut
Selecciona Azure Data Lake Storage Gen2
Selecciona la conexión creada anteriormente
Haz clic en Create

Ahora puedes navegar por los datos del storage como si estuvieran en tu Lakehouse, sin moverlos físicamente.

Caso de uso 2: Azure SQL Database

Paso 1: Crear Workspace Identity

Ya cubierto anteriormente.

Paso 2: Dar permisos en Azure SQL Database

Debes crear un usuario de base de datos que represente al service principal y asignarle los permisos necesarios.

Conectar a la base de datos

Usa SQL Server Management Studio (SSMS), Azure Data Studio o el Query Editor de Azure Portal para conectarte a tu base de datos con una cuenta de administrador.

Ejecutar comandos SQL

-- Crear el usuario para el service principal
-- El nombre debe coincidir EXACTAMENTE con el nombre de tu workspace
CREATE USER [DataGym] FROM EXTERNAL PROVIDER;

-- Asignar roles de base de datos
-- Para solo lectura:
ALTER ROLE db_datareader ADD MEMBER [DataGym];

-- Para ejecutar stored procedures:
GRANT EXECUTE TO [DataGym];

-- Verificar que el usuario se creó correctamente
SELECT name, type_desc, authentication_type_desc 
FROM sys.database_principals 
WHERE name = 'DataGym';

💡 Tip: Si el nombre de tu workspace contiene caracteres especiales, asegúrate de usar corchetes [] alrededor del nombre.

Paso 3: Crear conexión

En Fabric, ve a Manage connections and gateways
Haz clic en + New connection → Cloud
Selecciona SQL Server
Completa:
- Connection name: "AzureSQL-WorkspaceIdentity"
- Server: myserver.database.windows.net
- Database: Nombre de tu base de datos
- Authentication method: Workspace identity
Haz clic en Create

Paso 4: Usar Workspace Identity en una Pipeline

En tu Pipeline:

Crea una actividad "Copy data"
En Source:
- Connection: Selecciona la conexión creada anteriormente
En Destination:
- Selecciona tu Lakehouse
- Tabla destino (Nueva o ya existente)

Ejecuta el pipeline

Gestión Avanzada

Ver todas las Workspace Identities del tenant

Ve a Admin Portal en Fabric
Selecciona Fabric identities
Aquí verás todas las identidades creadas y podrás:
- Ver detalles del service principal
- Eliminar identidades (⚠️ acción irreversible)

Auditoría

Los eventos de creación y eliminación de Workspace Identities se registran en Microsoft Purview Audit Log:

Evento de creación: WorkspaceIdentityCreated
Evento de eliminación: WorkspaceIdentityDeleted

Asignar rol al área de trabajo para automatizaciones

Desde el 27 de julio de 2025, las nuevas Workspace Identities ya no tienen el rol Contributor asignado automáticamente sobre el workspace.

Impacto: Si necesitas que la Workspace Identity tenga permisos dentro del workspace de Fabric (por ejemplo, para automatización), debes asignarlos explícitamente:

Ve a Workspace Settings → Manage access
Haz clic en + Add people or groups
Busca el nombre de tu workspace (el service principal)
Asigna el rol apropiado (Viewer, Contributor, etc.)

Conclusión

Workspace Identity simplifica radicalmente la autenticación en Microsoft Fabric al:

Eliminar la gestión manual de credenciales
Centralizar la autenticación en Microsoft Entra ID
Reducir riesgos de seguridad

El flujo es siempre el mismo:

Crear la Workspace Identity en Fabric
Asignar permisos al service principal en Azure/servicios externos
Utilizar en tus conexiones seleccionando "Workspace identity"

A medida que Microsoft expande el soporte a más conectores y artefactos, Workspace Identity se está convirtiendo en el método de autenticación estándar para entornos productivos de Fabric.

Referencias

Identidad del área de trabajo - Microsoft Fabric | M icrosoft Learn

Autenticación con la identidad del área de trabajo de Microsoft Fabric - Microsoft Fabric | Microsoft Learn

Introducción a los conectores - Microsoft Fabric | Microsoft Learn

Comparativa de Consumo de CUs: Por qué elegir el artefacto incorrecto puede costarte miles de euros al año

Kilian Baccaro Salinas — Wed, 18 Feb 2026 10:19:45 GMT

Microsoft Fabric utiliza un modelo de consumo basado en Capacity Units (CUs) para medir y facturar el uso de recursos computacionales. Comprender cómo diferentes artefactos y escenarios de ingesta de datos impactan en el consumo de CUs es fundamental para optimizar costos y seleccionar la herramienta más eficiente para cada caso de uso.

Este artículo presenta una comparativa práctica y detallada del consumo de CUs en Microsoft Fabric al cargar datos desde diferentes orígenes y formatos utilizando los principales artefactos disponibles en la plataforma. Los objetivos específicos son:

Medir el consumo real de CUs en escenarios de ingesta de datos
Comparar el rendimiento de diferentes artefactos: Notebooks (PySpark y Python), Pipelines, Copy Jobs y Dataflows Gen2
Evaluar el impacto del tamaño de archivo en el consumo de recursos
Analizar las diferencias entre datos estructurados (SQL Server) y ficheros
Calcular el coste económico real de cada operación

Metodología

Para cada escenario se han capturado las siguientes métricas mediante la aplicación Microsoft Fabric Capacity Metrics:

CUs consumidas: Total de Capacity Units utilizadas en la operación
Duración: Tiempo de ejecución en segundos
Coste: Coste económico calculado en base a la duración y el precio de la capacidad

⚠

Importante: Todas las pruebas realizadas corresponden a cargas completas (full load) de datos desde el origen hasta el Lakehouse de Microsoft Fabric, sin ningún tipo de optimización de carga. No se han utilizado técnicas de carga incremental, Change Data Capture (CDC), filtrado de datos ni transformaciones de ningún tipo. El objetivo es medir el coste base del movimiento de datos puro entre origen y destino, lo que representa el escenario más comparable y reproducible entre artefactos.

Configuración de la Capacidad

Para estas pruebas se ha utilizado una capacidad F2 en modo Pay-as-you-go en la región Spain Central, con un precio de €0.323/hora según la página oficial de Microsoft Fabric - Pricing | Microsoft Azure.

Cálculo del coste:

Coste (€) = (Duración en segundos × €0.323) / 3600

Escenario 1: Ingesta de Fichero CSV

Dataset utilizado

Archivo de ventas (sales.csv)

Características:

Ubicación: Lakehouse de Microsoft Fabric
Nombre del archivo: sales.csv
Tamaño del archivo: 189 MB
Tipo: Datos de ventas en formato CSV

Operación realizada: Lectura de todos los ficheros CSV y escritura en tabla Delta sin transformaciones ni limpiezas. Operación pura de lectura y escritura para medir el consumo base.

Artefactos probados

Notebook (PySpark)
Notebook Python
Pipeline
Copy job
Dataflow Gen2

Resultados

Revisando el informe de Microsoft Fabric Capacity Metrics:

Coste económico

El impacto económico para archivos pequeños es mínimo en términos absolutos, pero las diferencias porcentuales son significativas:

Pipeline: €0.0035 por ejecución - El más económico por tiempo
Notebook Python: €0.0038 por ejecución - 9% más que Pipeline
Copy Job: €0.0042 por ejecución - 20% más que Pipeline
Dataflow Gen2: €0.0047 por ejecución - 34% más que Pipeline
Notebook PySpark: €0.0060 por ejecución - 71% más que Pipeline

Consumo de CUs y tiempos de ejecución

💡

En archivos pequeños, Notebook Python es el más eficiente en CUs (76% menos que Pipeline), mientras que Pipeline es el más rápido (9% más rápido que Python).

Comparativa PySpark vs Python (Pandas)

Es importante destacar la diferencia entre los dos tipos de Notebooks:

Característica	Notebook PySpark	Notebook Python	Diferencia
Motor de procesamiento	Apache Spark (distribuido)	Pandas (single-node)	-
CUs consumidas	267.81	85.15	-68% ✅
Tiempo de ejecución	66.95s	42.58s	-36% ✅
Throughput	169.18 MB/min	266.01 MB/min	+57% ✅
Coste	€0.0060	€0.0038	-37% ✅
Overhead inicial	Alto (inicialización Spark)	Bajo (ejecución directa)	-
Mejor para archivos	> 5 GB	< 1 GB	-
Paralelización	Automática multi-nodo	Single-threaded	-
Escalabilidad	Excelente	Limitada por memoria	-

Para archivos pequeños, Python/Pandas es claramente superior en todos los aspectos medibles: CUs, tiempo, throughput y coste. El overhead de inicialización y coordinación de Spark (sesión, workers, distribución de tareas) solo se justifica con volúmenes grandes donde su capacidad de procesamiento distribuido paralelo compensa estos costes iniciales.

Escenario 2: Ingesta de fichero CSV de gran volumen

Dataset utilizado

Archivo unificado de CMS (cms_unificado.csv)

Características:

Ubicación: Lakehouse de Microsoft Fabric
Nombre del archivo: cms_unificado.csv
Tamaño del archivo: 83.76 GB
Tipo: Datos de CMS consolidados en formato CSV

Operación realizada: Lectura del fichero CSV de gran volumen y escritura en tabla Delta sin transformaciones ni limpiezas. Operación pura de lectura y escritura para medir el consumo base en escenarios de producción con grandes volúmenes.

Artefactos probados

Los mismos que en el escenario anterior:

Notebook (PySpark)
Notebook Python
Pipeline (Copy data activity)
Copy job
Dataflow Gen2

Resultados

Revisando el informe de Microsoft Fabric Capacity Metrics:

El notebook de python no se ha podido evaluar debido al siguiente error:

❌ ERROR - Forced-process termination

Error exit code: -9 (Forced-process termination. 
This is often caused by insufficient memory causing the process to be killed. 
Please check memory usage)

Análisis del error: Pandas opera en un único nodo cargando todo el dataset en memoria RAM. Con un archivo de 83.76 GB, la memoria disponible en la capacidad F2 es insuficiente, resultando en la terminación forzada del proceso por el sistema operativo (OOM - Out Of Memory).

Coste económico

El impacto económico en archivos grandes es sustancial y debe ser considerado seriamente:

Notebook PySpark: €0.0610 por ejecución - El más económico 💰
Pipeline: €0.3135 por ejecución - 5.14x más caro que PySpark
Copy Job: €0.3158 por ejecución - 5.18x más caro que PySpark
Dataflow Gen2: €0.3748 por ejecución - 6.15x más caro que PySpark

Consumo de CUs y tiempos de ejecución

⚠

En archivos grandes, PySpark es el campeón absoluto: consume 87% menos CUs, es 5x más rápido y cuesta 5x menos que Pipeline.

Con archivos de gran volumen, las diferencias en consumo de CUs y tiempos de ejecución se vuelven dramáticamente significativas

El Notebook PySpark consume menos de 1/8 de las CUs del Pipeline y menos de 1/25 del Dataflow Gen2. Además, completa la carga en 11 minutos, mientras que los demás artefactos tardan entre 58 y 70 minutos (alrededor de 1 hora).

Conclusiones del escenario

Notebook de Python no aplicable

El Notebook Python/Pandas no es escalable para grandes volúmenes. Su eficiencia en archivos pequeños no se traslada a escenarios con datasets grandes.

Superioridad de PySpark en grandes volúmenes de datos

El Notebook PySpark demuestra su verdadero valor en archivos grandes, invirtiendo completamente los resultados del Escenario 1:

🏆 Ventajas decisivas de PySpark:

Arquitectura distribuida: Distribuye el procesamiento entre múltiples workers en paralelo
Procesamiento lazy: Solo carga en memoria lo necesario en cada momento
Particionamiento automático: Divide el archivo en chunks procesables independientemente
Optimización nativa para Delta: Escritura optimizada a formato Delta Lake
Gestión eficiente de memoria: Spill to disk cuando es necesario sin fallar

El overhead de Spark en archivos pequeños (inicialización, coordinación) se convierte en una ventaja masiva en archivos grandes gracias a su capacidad de distribución y paralelización.

Análisis crítico del Dataflow Gen2 en grandes volúmenes de datos

El Dataflow Gen2 muestra un rendimiento completamente inaceptable para archivos grandes:

🚫 Consumo no apto para producción

24.54x más CUs que PySpark (63,980 CUs de diferencia)
6.15x más tiempo que PySpark (casi 70 minutos vs 11 minutos)
€0.3138 más por ejecución (+515% de coste)

Proyección anual con carga diaria:

Coste PySpark: €22.27/año
Coste Dataflow Gen2: €136.80/año
Sobrecoste: €114.53/año (para un solo archivo)

Problemas estructurales de Dataflow Gen2 con grandes volúmenes:

Motor no optimizado: Power Query mashup engine no está diseñado para Big Data
Procesamiento ineficiente: Operaciones fila por fila en lugar de vectorizadas
Sin paralelización efectiva: No aprovecha arquitectura distribuida
Alto overhead de memoria: Gestión ineficiente de grandes datasets
Serialización costosa: Múltiples conversiones de formato internas

⚠️ Advertencia:

Aunque Dataflow Gen2 ofrece una interfaz visual atractiva y fácil de usar, su uso en producción con archivos grandes es técnicamente inadecuado y económicamente inviable. La facilidad de uso no justifica un sobrecosto del 515% y un tiempo de ejecución 6x superior.

Consecuencias de una mala elección del artefacto

Saturación de capacidad: Consumo de CUs puede exceder la capacidad disponible
Throttling: Fabric puede ralentizar o pausar trabajos
Fallos en SLA: Procesos no completan en ventana de tiempo
Costes desorbitados: Necesidad de capacidades superiores (F4, F8...)
Impacto en otros procesos: Otros workloads en la misma capacidad sufren degradación

Escenario 3: Ingesta desde Azure SQL Database

Este escenario evalúa el consumo de CUs al cargar datos desde una base de datos relacional estructurada en Azure SQL Database hacia tablas Delta en Microsoft Fabric.

Operación realizada: Lectura completa de tablas desde Azure SQL Database y escritura en tablas Delta sin transformaciones. Operación de extracción pura (full load) para medir el consumo base en conexiones a bases de datos cloud.

Dataset utilizado

Se han evaluado dos tablas de diferentes tamaños para analizar el comportamiento escalable:

Tabla 1: Customer (Pequeña)

Características:

Nombre de tabla: customer
Número de registros: 1,679,846
Tamaño: 679.47 MB

Tabla 2: Sales (Mediana-Grande)

Características:

Nombre de tabla: sales
Número de registros: 23,719,935
Tamaño: 2,989 GB

Resultados

Revisando el informe de Microsoft Fabric Capacity Metrics:

Tabla customer

Coste económico:

Pipeline: €0.0047 - El más económico por tiempo
Notebook PySpark: €0.0050 - Prácticamente igual (+6%)
Copy Job: €0.0052 - Similar (+11%)
Dataflow Gen2: €0.0116 - 147% más caro que Pipeline

Consumo de CUs y tiempos de ejecución

💡

En tablas SQL pequeñas, tanto Pipeline como PySpark son opciones válidas con diferencias mínimas. PySpark es más eficiente en CUs, Pipeline ligeramente más rápido.

Tabla sales

Coste económico:

Notebook PySpark: €0.0082 - El más económico
Copy Job: €0.0173 - 2.11x más caro
Pipeline: €0.0236 - 2.88x más caro
Dataflow Gen2: €0.0667 - 8.13x más caro

Consumo de CUs y tiempos de ejecución

La diferencia se amplifica: PySpark consume 3x menos de las CUs de Pipeline y menos de 23x del Dataflow Gen2. PySpark no solo consume menos CUs, sino que es casi 3 veces más rápido que Pipeline.

Conclusión final

La elección del artefacto correcto en Microsoft Fabric es una decisión estratégica que impacta:

💰 Costes operativos (diferencias del 400-700% en grandes volúmenes)
⚡ Tiempos de ejecución (diferencias del 500-800% en grandes volúmenes)
📊 Capacidad disponible (eficiencia permite capacidades más pequeñas)
👥 Productividad del equipo (menos tiempo esperando procesos)

Lecciones aprendidas:

El tamaño importa exponencialmente: Una diferencia del 9% en archivos pequeños se convierte en 500% en archivos grandes
El origen importa: Azure SQL es más eficiente que CSV para todos los artefactos
PySpark es el rey indiscutible en producción: Para cualquier volumen >1 GB, PySpark es superior en todos los aspectos medibles
Dataflow Gen2 no escala: Su facilidad de uso no justifica sobrecostos del 500-700% en producción
La formación se paga sola: Invertir en formación de PySpark se amortiza en semanas con el ahorro en CUs

La interfaz visual y facilidad de uso tienen un precio en Capacity Units. En archivos o tablas pequeñas, ese precio puede ser aceptable. En archivos o tablas grandes, ese precio es prohibitivo.

El potencial de ahorro de cientos o miles de euros anuales (dependiendo del volumen de cargas) justifica ampliamente:

La inversión en formación del equipo
El tiempo de migración de procesos existentes
El establecimiento de buenas prácticas y estándares

Cómo recuperar objetos eliminados de tu Lakehouse en Microsoft Fabric

Kilian Baccaro Salinas — Fri, 30 Jan 2026 08:27:02 GMT

¿Has eliminado accidentalmente una tabla Delta crítica o un archivo importante de tu lakehouse? No entres en pánico. Microsoft Fabric implementa un mecanismo de "soft delete" que mantiene tus objetos eliminados disponibles para recuperación durante 7 días. En este artículo te mostraré cómo aprovechar esta característica usando la librería semantic-link-labs.

El problema: Eliminaciones accidentales

Trabajar con lakehouses implica gestionar grandes volúmenes de datos y múltiples artefactos. Es fácil cometer errores:

Eliminar una tabla Delta pensando que era de desarrollo cuando era de producción
Borrar un archivo de configuración crítico durante una limpieza
Ejecutar un script que elimina carpetas completas por error
Sobrescribir datos importantes durante un proceso ETL

Hasta hace poco, estos errores podían significar pérdida permanente de datos o recurrir a backups externos. Ahora, con el soft delete de OneLake, tienes una red de seguridad de 7 días.

¿Qué es Soft Delete en OneLake?

OneLake, el sistema de almacenamiento subyacente de Microsoft Fabric, implementa soft delete similar a Azure Blob Storage. Cuando eliminas un objeto:

El objeto no se borra físicamente de inmediato
Se marca como "eliminado" y se oculta de las vistas normales
Permanece accesible para recuperación durante 7 días
Después de 7 días, se elimina permanentemente

Esta funcionalidad aplica a todo el contenido de un lakehouse:

Tablas Delta completas (incluyendo sus archivos Parquet y logs de transacciones)
Archivos individuales en la sección Files
Carpetas completas con toda su estructura
Esquemas con múltiples tablas

Instalación de semantic-link-labs

La librería semantic-link-labs extiende las capacidades de Fabric con funciones avanzadas para lakehouses, semantic models y más. Para instalarla en tu notebook:

%pip install semantic-link-labs

Explorando objetos eliminados

Antes de recuperar nada, es fundamental identificar qué objetos están disponibles para restauración. La función list_blobs() nos permite listar todos los objetos, incluidos los eliminados.

Listar todos los blobs

import sempy_labs.lakehouse as lake

# Listar todos los objetos del lakehouse
all_blobs = lake.list_blobs(
    lakehouse=None,  # None usa el lakehouse del notebook
    workspace=None   # None usa el workspace del notebook
)

print(f"Total de blobs encontrados: {len(all_blobs)}")
all_blobs.head()

Filtrar objetos eliminados

El DataFrame resultante incluye una columna Is Deleted que podemos usar para filtrar:

deleted_objects = all_blobs[all_blobs['Is Deleted'] == True]

print(f"Objetos eliminados: {len(deleted_objects)}")

if len(deleted_objects) > 0:
    print("\nObjetos disponibles para recuperación:")
    print("-" * 80)
    for _, obj in deleted_objects.iterrows():
        print(f"📁 {obj['Blob Name']}")
        print(f"   Eliminado: {obj['Deleted Time']}")
        print(f"   Días restantes: {obj['Remaining Retention Days']}")
        print(f"   Tamaño: {obj['Content Length']} bytes")
        print()
else:
    print("✓ No hay objetos eliminados en este lakehouse")

Filtrar por tipo de contenedor

Puedes especificar si quieres listar solo objetos de Tables o Files:

# Solo tablas eliminadas
deleted_tables = lake.list_blobs(
    lakehouse=None,  # None usa el lakehouse del notebook
    workspace=None,   # None usa el workspace del notebook
    container="Tables"
)
deleted_tables = deleted_tables[deleted_tables['Is Deleted'] == True]

# Solo archivos eliminados
deleted_files = lake.list_blobs(
    lakehouse=None,  # None usa el lakehouse del notebook
    workspace=None,   # None usa el workspace del notebook
    container="Files"
)
deleted_files = deleted_files[deleted_files['Is Deleted'] == True]

print(f"Tablas eliminadas: {len(deleted_tables)}")
print(f"Archivos eliminados: {len(deleted_files)}")

Recuperando objetos

Una vez identificado el objeto a recuperar, el proceso es muy simple usando recover_lakehouse_object().

import sempy_labs.lakehouse as lake

lake.recover_lakehouse_object(
    file_path='ruta/del/objeto',
    lakehouse=None,  # Nombre o ID del lakehouse
    workspace=None   # Nombre o ID del workspace
)

Ejemplo 1: Recuperar una Tabla Delta

Las tablas Delta son estructuras complejas con múltiples archivos Parquet y un transaction log. La recuperación restaura toda la estructura:

# Recuperar tabla en el nivel raíz
lake.recover_lakehouse_object(
    file_path='Tables/green_tripdata_2022',
    lakehouse="000xxx-xxxx-xxxx-xxxx-xxx000",
    workspace="000xxx-xxxx-xxxx-xxxx-xxx000"
)

Ejemplo 2: Recuperar archivos individuales

Los archivos en la sección Files se recuperan de la misma manera:

lake.recover_lakehouse_object(
    file_path='Files/Maestros/MaestroFechas.xlsx',
    lakehouse=None,
    workspace=None
)

Ejemplo 3: Recuperar carpetas completas

Puedes recuperar carpetas enteras con todo su contenido:

# Recuperar carpeta completa
lake.recover_lakehouse_object(
    file_path='Files/Maestros',
    lakehouse=None,
    workspace=None
)

Importante: Al recuperar una carpeta, se restauran recursivamente todos los archivos y subcarpetas que contenía.

Limitaciones y consideraciones

⏱️ Ventana de recuperación

7 días es el límite absoluto. Después de este período:

Los objetos se eliminan permanentemente de OneLake
No hay forma de recuperarlos sin un backup externo
El contador comienza en el momento de la eliminación

Recomendación: Implementa alertas automáticas para objetos próximos a expirar.

📂 Estructura de Paths

Los paths deben seguir la estructura exacta:

✓ Correcto:
  - Tables/FactSales
  - Tables/sales/FactSales
  - Files/raw/data.csv
  - Files/configs/app.json

✗ Incorrecto:
  - FactSales (falta el contenedor)
  - Tables\FactSales (barra invertida)
  - tables/FactSales (minúsculas)

🔄 Tablas Delta y consistencia

Al recuperar una tabla Delta:

Se restaura el estado exacto en el momento de eliminación
El transaction log se recupera completo
Todas las particiones y archivos Parquet se restauran
Los metadatos del Hive Metastore pueden requerir sincronización

⚠️ Conflictos de nombres

Si existe un objeto con el mismo nombre que el que intentas recuperar:

La operación puede fallar
Puede sobrescribirse el objeto actual (según configuración)
Es mejor renombrar o mover el objeto actual antes de recuperar

🔐 Permisos requeridos

Para recuperar objetos necesitas:

Permisos de escritura en el lakehouse
Permisos de administrador para carpetas del sistema
El rol de Contributor o superior en el workspace

💾 Impacto en el almacenamiento

Los objetos en soft delete cuentan para tu cuota de almacenamiento de OneLake. No se libera espacio hasta la eliminación permanente.

Cómo recuperar Workspaces eliminados en Microsoft Fabric

Kilian Baccaro Salinas — Fri, 16 Jan 2026 09:03:42 GMT

¿Alguna vez has eliminado accidentalmente un workspace en Microsoft Fabric y has sentido ese momento de pánico? No te preocupes, Microsoft ha incorporado una API de administración que te permite restaurar workspaces eliminados. En este artículo te mostraré cómo hacerlo usando un notebook de PySpark directamente en Fabric.

¿Por qué es importante esta funcionalidad?

Los workspaces en Microsoft Fabric son contenedores cruciales que almacenan todos tus artefactos: lakehouse, notebooks, pipelines, datasets y más. Una eliminación accidental puede significar la pérdida de horas o días de trabajo. Afortunadamente, Microsoft Fabric ofrece una API administrativa que permite recuperar estos workspaces antes de que se eliminen permanentemente.

Requisitos previos

Antes de comenzar, asegúrate de cumplir con estos requisitos:

Permisos de Fabric Administrator: Esta operación requiere privilegios administrativos a nivel de tenant
Alcance delegado: Tenant.ReadWrite.All
Un workspace eliminado: Necesitas el ID (UUID) del workspace que deseas recuperar
ID del nuevo administrador: Usuario o service principal que será el admin del workspace restaurado

Importante: La API tiene un límite de 10 peticiones por minuto, así que planifica tus operaciones en consecuencia.

La API de Restauración

Microsoft Fabric expone un endpoint REST específico para esta tarea:

POST https://api.fabric.microsoft.com/v1/admin/workspaces/{workspaceId}/restore

Esta API acepta dos parámetros principales:

newWorkspaceName: El nombre que tendrá el workspace restaurado (obligatorio para "My workspace")
newWorkspaceAdminPrincipal: El principal que será administrador del workspace restaurado

El principal puede ser de varios tipos:

User: Un usuario de Microsoft Entra
ServicePrincipal: Un service principal de Microsoft Entra
Group: Un grupo de seguridad

Implementación con PySpark

Configuración de parámetros

Define los parámetros necesarios para la restauración:

WORKSPACE_ID = "000xxx-xxxx-xxxx-xxxx-xxx000"
NEW_WORKSPACE_NAME = "Workspace Restored"
NEW_ADMIN_ID = "000xxx-xxxx-xxxx-xxxx-xxx000"
PRINCIPAL_TYPE = "User"

Nota importante: El NEW_ADMIN_ID es el Object ID del usuario o service principal, que puedes encontrar en Azure Portal:

Para usuarios: Azure Active Directory > Users > [seleccionar usuario] > Object ID
Para service principals: Azure Active Directory > Enterprise applications > [seleccionar aplicación] > Object ID

Listar Workspaces eliminados

Antes de restaurar, puede ser útil obtener una lista de todos los workspaces eliminados disponibles. Aquí te muestro cómo hacerlo:

def list_deleted_workspaces():
    """
    Lista los workspaces eliminados disponibles para restauración
    """

    url = "https://api.fabric.microsoft.com/v1/admin/workspaces"
    headers = {
        "Authorization": f"Bearer {token}",
        "Content-Type": "application/json"
    }

    # Filtrar workspaces eliminados
    params = {
        "state": "Deleted"
    }

    try:
        response = requests.get(url, headers=headers, params=params)
        if response.status_code == 200:
            workspaces = response.json()
            print(f"Se encontraron {len(workspaces.get('value', []))} workspaces eliminados:")
            for ws in workspaces.get('value', []):
                print(f"  - {ws.get('displayName')} (ID: {ws.get('id')})")
            return workspaces
        else:
            print(f"Error al listar workspaces: {response.status_code}")
            return None
    except Exception as e:
        print(f"Excepción: {e}")
        return None

Esta función te permite:

Ver todos los workspaces que pueden ser restaurados
Obtener los IDs necesarios para la restauración
Verificar el nombre original del workspace antes de restaurarlo

Es especialmente útil cuando no recuerdas el ID exacto del workspace que necesitas recuperar.

Llamada a la API

import requests

WORKSPACE_ID = "000xxx-xxxx-xxxx-xxxx-xxx000"
NEW_WORKSPACE_NAME = "Workspace Restored"
NEW_ADMIN_ID = "000xxx-xxxx-xxxx-xxxx-xxx000"
PRINCIPAL_TYPE = "User"

url = f"https://api.fabric.microsoft.com/v1/admin/workspaces/{WORKSPACE_ID}/restore"

headers = {
    "Authorization": f"Bearer {token}",
    "Content-Type": "application/json"
}

body = {
    "newWorkspaceName": NEW_WORKSPACE_NAME,
    "newWorkspaceAdminPrincipal": {
        "id": NEW_ADMIN_ID,
        "type": PRINCIPAL_TYPE
    }
}

response = requests.post(url, headers=headers, json=body)

Importante: La restauración del workspace no solo recupera el contenedor, sino también todos los artefactos que contenía en el momento de su eliminación (notebooks, lakehouses, pipelines, datasets, etc.). El usuario o service principal especificado en newWorkspaceAdminPrincipal se convertirá automáticamente en el administrador del workspace restaurado, con permisos completos sobre él y todos sus artefactos.

Solución completa

He preparado un notebook completo que encapsula toda esta funcionalidad en funciones reutilizables. El código incluye:

Autenticación automática con manejo de errores
Función list_deleted_workspaces() para listar workspaces disponibles para restauración
Función restore_workspace() parametrizable y reutilizable
Validación de respuestas con mensajes descriptivos
Logging detallado para depuración
Documentación inline con todos los detalles importantes

El flujo de trabajo típico sería:

Ejecutar list_deleted_workspaces() para ver qué workspaces están disponibles
Identificar el workspace que necesitas restaurar
Copiar su ID y ejecutar restore_workspace() con los parámetros apropiados

Puedes encontrar el código completo en mi GitHub: notebook

Casos de Uso Prácticos

Esta solución es especialmente útil en varios escenarios:

Recuperación de emergencia: Restaurar workspaces eliminados accidentalmente por error humano
Automatización: Integrar en pipelines de governance que detecten y restauren workspaces críticos
Migraciones: Crear scripts de recuperación masiva durante reorganizaciones de tenant
Testing: Eliminar y restaurar workspaces en entornos de desarrollo de forma programática

Limitaciones y Consideraciones

Ten en cuenta estas limitaciones de la API:

Estado de preview: Esta API está en preview y puede cambiar
Rate limiting: Máximo 10 peticiones por minuto
Ventana de recuperación: Los workspaces eliminados solo están disponibles durante un período limitado
Permisos requeridos: Solo usuarios con rol de Fabric Administrator pueden ejecutar esta operación

Recursos adicionales

Sparkwise: Optimización Inteligente para Apache Spark en Microsoft Fabric

Kilian Baccaro Salinas — Fri, 09 Jan 2026 16:57:13 GMT

Si trabajas con Apache Spark en Microsoft Fabric, probablemente te hayas enfrentado a la complejidad de optimizar configuraciones, reducir costos y mejorar el rendimiento de tus workloads. Sparkwise es una librería de Python diseñada específicamente para resolver estos desafíos, actuando como un especialista automatizado en ingeniería de datos que te ayuda a lograr el mejor equilibrio entre precio y rendimiento.

¿Qué es Sparkwise?

Sparkwise es una herramienta de diagnóstico y optimización para Apache Spark que proporciona análisis inteligentes, recomendaciones de configuración y perfilado completo de sesiones. Su objetivo es hacer que la optimización de Spark sea simple, efectiva y hasta divertida, eliminando la necesidad de ser un experto en configuraciones complejas.

¿Por qué usar Sparkwise?

La optimización de Spark en Microsoft Fabric puede ser costosa y compleja. Sparkwise aborda estos problemas ofreciendo:

💰 Optimización de costos: Detecta configuraciones que desperdician capacidad y aumentan el tiempo de ejecución
⚡ Maximización del rendimiento: Habilita optimizaciones específicas de Fabric como Native Engine, V-Order y perfiles de recursos
🎓 Aprendizaje simplificado: Asistente interactivo de Q&A para 133 configuraciones de Spark, Delta Lake y Fabric
🔍 Comprensión de workloads: Perfilado exhaustivo de sesiones, ejecutores, jobs y recursos
⏱️ Ahorro de tiempo: Detecta bloqueadores de Starter Pool para evitar cold-starts de 3-5 minutos
📊 Decisiones basadas en datos: Recomendaciones priorizadas con análisis de impacto

Puedes leer todas las características que incluye aquí: sparkwise · PyPI

Sparkwise en acción

Instalación y configuración

En tu notebook de Fabric, ejecuta:

%pip install sparkwise

Verificar la instalación

import sparkwise
print(f"Sparkwise versión: {sparkwise.__version__}")

Importar módulos necesarios

from sparkwise import (
    diagnose, 
    ask, 
    profile, 
    predict_scalability,
    analyze_efficiency,
    detect_skew
)

Análisis exhaustivo de la sesión actual

diagnose.analyze()

¿Qué verás?

El diagnóstico te mostrará 5 categorías de análisis:

Native Execution Engine: ¿Está usando Velox para acelerar queries?
Spark Compute: ¿Estás en Starter Pool o Custom Pool?
Data Skew: ¿Hay tareas desequilibradas?
Delta Optimizations: ¿Están habilitadas V-Order, Optimize Write?
Runtime Tuning: ¿Está habilitado AQE (Adaptive Query Execution)?

Interpretar los resultados

Supongamos que obtienes esta salida:

Esto significa:

Native Engine deshabilitado: Tu workload no está aprovechando Velox, el motor de ejecución nativo de Fabric que puede acelerar consultas entre 3-8x. Esto es especialmente crítico para operaciones de agregación, filtrado y joins.
AQE crítico: Sin Adaptive Query Execution, Spark no puede ajustar dinámicamente el plan de ejecución basándose en estadísticas reales. Estás perdiendo optimizaciones automáticas como:
- Coalescing de particiones pequeñas
- Optimización de joins sesgados
- Mejor paralelización dinámica
Tamaño de partición subóptimo: Con ejecutores de 56GB, particiones de 128MB son demasiado pequeñas. Esto genera overhead innecesario al procesar muchas particiones pequeñas en lugar de menos particiones más grandes y eficientes.

Resumen consolidado

Al final del diagnóstico, Sparkwise muestra un resumen consolidado que te permite ver de un vistazo el estado de tu configuración:

Cómo leer esta tabla:

Status: Indica el estado general de cada categoría
- ✅ Good: Configuración óptima sin problemas críticos
- ⚠️ Issues: Hay problemas que requieren atención
- ❌ Critical: Problemas graves que afectan significativamente el rendimiento
Critical Issues: Número de configuraciones con prioridad CRITICAL que deben solucionarse inmediatamente
Recommendations: Total de recomendaciones de mejora (incluye todos los niveles de prioridad)

Tabla de recomendaciones priorizadas

Después del resumen, Sparkwise presenta una tabla detallada con todas las recomendaciones ordenadas por prioridad:

Prioridades explicadas:

🔴 CRITICAL: Problemas que impactan significativamente el rendimiento o costos. Deben aplicarse inmediatamente.
- Ejemplo: AQE deshabilitado puede causar 30-50% más de tiempo de ejecución
🟡 HIGH: Optimizaciones importantes con impacto medible y claro.
- Ejemplo: Native Engine puede acelerar queries 3-5x
🔵 MEDIUM: Mejoras relevantes para casos de uso específicos.
- Ejemplo: V-Order beneficia principalmente a workloads de lectura intensiva
⚪ LOW: Ajustes finos y optimizaciones menores.
- Ejemplo: Ajustes de tamaño de partición para ejecutores específicos

Predicción de escalabilidad y costos

Una de las características más valiosas de Sparkwise es su capacidad para predecir costos y recomendar la configuración óptima de infraestructura. Después de ejecutar tu workload, puedes usar predict_scalability() para obtener un análisis detallado de costos y rendimiento.

# Predecir costos si ejecutas este job 100 veces al mes
predict_scalability(runs_per_month=100)

Obtendrás:

Comparación entre Starter Pool vs Custom Pool
VCore-horas mensuales
Costos estimados
Recomendación de configuración óptima

El resultado que me ha dado a mi ha sido este… tendré que probarlo más a fondo porque no realiza bien las comparativas.

Analizar eficiencia de cómputo

analyze_efficiency(runs_per_month=100)

Verás:

Tiempo de cómputo activo vs desperdiciado
Costo del desperdicio en VCore-horas
Score de eficiencia (0-100%)
Estrategia de reducción de desperdicios

Análisis avanzado de tus sesiones

Analizar la sesión completa

from sparkwise import profile, profile_executors, profile_jobs, profile_resources

profile.profile()

Analizar ejecutores, jobs y recursos

print("⚡ Perfil de Ejecutores:")
profile_executors.profile()

print("🚀 Perfil de Jobs:")
profile_jobs.profile()

print("💾 Perfil de Recursos:")
profile_resources.profile()

Entender configuraciones con el asistente Q&A

Preguntar sobre configuraciones

Si no entiendes alguna configuración, usa el asistente:

# Preguntar sobre perfiles de recursos
ask.config('spark.fabric.resourceProfile')

Obtendrás:

Qué hace la configuración
Valores recomendados para tu workload
Ejemplos de uso
Configuraciones relacionadas

Buscar configuraciones por tema

# Buscar todas las configuraciones relacionadas con "optimize"
ask.search('optimize')

Detección y solución de Data Skew

Detectar Skew Básico

skew_results = detect_skew()

Identificarás:

Tareas que tardan mucho más que otras
Particiones desbalanceadas
Joins problemáticos

Análisis avanzado de Skew en DataFrames

Para un análisis más profundo a nivel de partición, usa AdvancedSkewDetector:

from sparkwise.core.advanced_skew_detector import AdvancedSkewDetector
detector = AdvancedSkewDetector()
detector.analyze_partition_skew(your_df, ["key_column"])

El análisis muestra dos secciones clave:

📊 Partition Size Distribution

Qué significa:

Mean Size: Tamaño promedio por partición (1 fila) - extremadamente bajo
Max Size: La partición más grande tiene 2.8M filas
Min Size: La partición más pequeña tiene solo 1 fila
Std Dev: Desviación estándar de 1,119 indica alta variabilidad

🎯 Skew Metrics (Métricas de Sesgo)

Skew Ratio: 1963143.87x 🔴
- La partición más grande es casi 2 millones de veces más grande que la más pequeña
- Esto es EXTREMADAMENTE CRÍTICO
- Umbrales típicos:
  - < 3x: ✅ Aceptable
  - 3-10x: ⚠️ Moderado
  - 10-100x: 🔴 Alto
  - 100x: 🔴 CRÍTICO (tu caso: 1.9M x)
Variation: 77601.48%
- Hay una variabilidad del 77,601% entre particiones
- Indica que los datos están completamente desbalanceados
Severity: CRITICAL
- Requiere acción inmediata
- Este nivel de skew puede causar:
  - 1 tarea tomando horas mientras las demás terminan en segundos
  - Out of Memory (OOM) en el ejecutor con la partición grande
  - Subutilización masiva de recursos (99% de ejecutores ociosos)

Impacto en el rendimiento

Con un skew de 1.9M x:

Escenario sin skew: 10 ejecutores × 100 tareas = todas terminan en ~5 minutos
Escenario con tu skew: 9 ejecutores terminan en 5 segundos (procesar 1 fila) 1 ejecutor tarda 2+ horas (procesar 2.8M filas)
Resultado:
- 99% de recursos desperdiciados esperando
- Runtime total = tiempo del ejecutor más lento
- Costo = 10 ejecutores × 2 horas (aunque 9 están ociosos)

Estrategias de mitigación

Sparkwise te proporciona 4 estrategias ordenadas por efectividad para este caso:

🔴 Estrategia 1: Salting (MÁS RECOMENDADA para skew crítico)

El salting distribuye artificialmente las claves sesgadas

Impacto esperado:

Reducción de runtime: 80-95%
Distribución: En lugar de 1 partición con 2.8M filas, tendrás 20 particiones con ~140K filas cada una
Utilización de recursos: Pasarás de 1 ejecutor trabajando a 10-20 ejecutores en paralelo

¿Por qué funciona?

Convierte 1 clave problemática en 20 claves diferentes
Spark puede distribuir esas 20 claves entre múltiples ejecutores
Todos los ejecutores procesan cargas similares (~140K filas)

⚠️ Estrategia 2: Filter Before Join

Reduce el volumen de datos antes de operaciones costosas

Impacto:

Reducción de 30-70% en tiempo de procesamiento
Menos shuffle de datos
Solo útil si puedes filtrar sin perder datos necesarios

🔄 Estrategia 3: Repartition by Multiple Columns

Distribuye por múltiples dimensiones para mejor balance

Cuándo usar:

Cuando tienes otra columna con buena cardinalidad
Para operaciones posteriores de groupBy por múltiples columnas
Menos efectivo que salting para skew extremo como en este ejemplo

📡 Estrategia 4: Use Broadcast Join for Small Tables

Si estás haciendo join con una tabla pequeña

Limitación:

Solo funciona si una tabla es pequeña (<100MB por defecto)
No resuelve el skew dentro de una tabla, solo evita shuffle en joins

Optimización de almacenamiento

Análisis completo de almacenamiento

# Analizar tabla Delta completa
sparkwise.analyze_storage("Tables/green_taxi_location_analysis")

Esto ejecuta 3 análisis:

Detección de archivos pequeños
ROI de VACUUM
Efectividad de particiones

Solucionar problema de archivos pequeños

Primero, detectar el problema

sparkwise.check_small_files("Tables/green_taxi_location_analysis", threshold_mb=10)

Seguir recomendaciones de optimización

spark.sql("OPTIMIZE delta.`Tables/green_taxi_location_analysis`")

# Habilitar auto-optimización para el futuro
spark.conf.set("spark.databricks.delta.optimizeWrite.enabled", "true")
spark.conf.set("spark.databricks.delta.autoCompact.enabled", "true")

Calcular ROI de VACUUM

Analizar beneficio de limpiar versiones antiguas

sparkwise.vacuum_roi("Tables/green_taxi_location_analysis", retention_hours=168)

Analizar efectividad de particiones

sparkwise.check_partitions("Tables/green_tripdata_2017")

Análisis de planes de consulta SQL

from sparkwise import analyze_query

df = spark.sql("""
    SELECT VendorID, payment_type, 
           SUM(fare_amount) as total_fare,
           AVG(trip_distance) as avg_distance
    FROM delta.`Tables/green_tripdata_2017`
    WHERE fare_amount > 10
    GROUP BY VendorID, payment_type
""")

# Analizar el plan de ejecución
analyze_query(df)

Detectarás:

Productos cartesianos accidentales
Full table scans innecesarios
Shuffles excesivos
Compatibilidad con Native Engine

Conclusión

Sparkwise transforma la compleja tarea de optimizar Apache Spark en Microsoft Fabric en un proceso guiado, automatizado y basado en datos. Ya seas ingeniero de datos, científico de datos o administrador de plataforma, esta librería te proporciona las herramientas necesarias para maximizar el rendimiento, minimizar costos y tomar decisiones informadas sobre tu infraestructura de datos.

Con su combinación de diagnósticos automatizados, análisis avanzados, optimización de almacenamiento y un asistente interactivo de configuración, sparkwise se posiciona como una herramienta esencial en el toolkit de cualquier profesional que trabaje con Spark en Fabric.

Agradecimiento especial

Un sincero agradecimiento a Santhosh Ravindran. Ha construido una herramienta que democratiza la optimización de Apache Spark, haciendo accesible para ingenieros de datos de todos los niveles lo que antes requería años de experiencia especializada.

¿Qué es la deduplicación de datos y por qué es tan importante?

Kilian Baccaro Salinas — Mon, 15 Dec 2025 18:22:25 GMT

En el universo de los datos, la presencia de duplicados es casi una garantía. Desde registros de clientes que se repiten hasta transacciones que aparecen más de una vez, los datos duplicados son un problema silencioso que puede socavar la fiabilidad de tus análisis, inflar tus costos y ralentizar tus operaciones. Aquí es donde entra en juego la deduplicación de datos, una práctica esencial en la gestión de cualquier conjunto de datos.

¿Qué es exactamente la deduplicación de datos?

En términos sencillos, la deduplicación de datos es el proceso de identificar y eliminar registros duplicados de un conjunto de datos. El objetivo principal es asegurar la unicidad y la precisión de la información, manteniendo solo una versión "verdadera" o "maestra" de cada entidad o evento.

Piensa en una tabla de clientes: si tienes a "Cliente1" con su información dos veces, la deduplicación se encargaría de dejar solo una versión del cliente, que será la más reciente o no dependiendo el método de deduplicación que utilicemos.

¿Por qué es tan importante la deduplicación de datos?

La importancia de la deduplicación de datos tiene un impacto directo en la calidad de los datos, la eficiencia operativa y la toma de decisiones.

1. Mejora la calidad y fiabilidad de los datos

Los datos duplicados sesgan los resultados. Si un cliente aparece cinco veces, tus informes de ventas o marketing lo contarán cinco veces, dándote una visión inflada y errónea. La deduplicación asegura que tus análisis reflejen la realidad.
Basar decisiones estratégicas en datos imprecisos puede llevar a resultados desastrosos. Con datos deduplicados, los insights que obtengas serán más fiables, permitiéndote tomar decisiones informadas y con mayor confianza.

2. Optimiza el rendimiento y reduce costos

Menor consumo de almacenamiento: Los datos duplicados ocupan espacio valioso. Eliminar las copias innecesarias reduce los requisitos de almacenamiento, lo que se traduce directamente en ahorros de costos.
Procesamiento de Datos más Rápido: Procesar menos datos significa que tus pipelines de ETL, tus consultas de bases de datos y tus modelos de machine learning se ejecutarán de forma más eficiente y rápida, ahorrando tiempo y recursos computacionales.

3. Facilita la Gobernanza de Datos

Coherencia de Datos: La deduplicación ayuda a mantener la coherencia en todo tu ecosistema de datos, asegurando que todos los sistemas utilicen la misma versión de la verdad.

¿Cómo se realiza la deduplicación de datos?

A continuación veremos como realizar la deduplicación de datos con PySpark en Microsoft Fabric. Utilizaremos unos datos de ejemplo sobre productos.

# Datos de ejemplo con duplicados
data = [
    (1, "Producto1", 9.99, datetime.strptime("2025-01-01 00:00:00", "%Y-%m-%d %H:%M:%S")),
    (2, "Producto2", 25.00, datetime.strptime("2025-02-10 11:30:00", "%Y-%m-%d %H:%M:%S")),
    (1, "Producto1", 9.99, datetime.strptime("2025-01-01 00:00:00", "%Y-%m-%d %H:%M:%S")), # Duplicado exacto
    (3, "Producto3", 42.35, datetime.strptime("2025-05-01 14:00:00", "%Y-%m-%d %H:%M:%S")),
    (2, "Producto2", 25.00, datetime.strptime("2025-03-01 15:32:58", "%Y-%m-%d %H:%M:%S")), # Duplicado de Producto2, con fecha posterior
    (4, "Producto4", 59.99, datetime.strptime("2025-05-27 16:00:00", "%Y-%m-%d %H:%M:%S")),
    (1, "Producto1", 12.99, datetime.strptime("2025-03-21 09:00:00", "%Y-%m-%d %H:%M:%S")), # Duplicado de Producto1, con fecha más reciente
    (5, "Producto2", 25.00, datetime.strptime("2025-03-01 15:32:58", "%Y-%m-%d %H:%M:%S")) # Duplicado exacto de Producto2 (ID diferente pero mismos datos clave)
]

schema = StructType([
    StructField('id', IntegerType(), True),
    StructField('product_name', StringType(), True),
    StructField('price', DoubleType(), True),
    StructField('last_updated', TimestampType(), True)
])

df = spark.createDataFrame(data, schema=schema)

print("DataFrame Original:")
df.show()
print(f"Número de registros original: {df.count()}")

Existen varias maneras de abordar la deduplicación. Las más comunes son:

Deduplicación exacta

Filas que son completamente idénticas en todas sus columnas, o en un subconjunto específico de columnas que actúan como "clave". En pyspark se suelen utilizar estas dos funciones:

dropDuplicates(): La forma más sencilla de eliminar filas completamente idénticas o basándose en un conjunto específico de columnas.
distinct(): Similar a dropDuplicates() sin argumentos, elimina filas idénticas.

# Deduplicación basada en todas las columnas
df_deduplicated_all = df.dropDuplicates()

print("DataFrame Deduplicado (Todas las columnas):")
df_deduplicated_all.show()

print(f"Número de registros deduplicados (todas las columnas): {df_deduplicated_all.count()}")

Como se puede ver, realizando la deduplicación de datos sobre todas las columnas solo elimina aquellos duplicados idénticos, que en este caso es el id 1 con precio 9.99.

Veamos que ocurre si utilizamos la misma función pero especificando la clave primaria.

df_deduplicated_subset = df.dropDuplicates(subset=["id"])

print("\nDataFrame Deduplicado (Basado en id):")
df_deduplicated_subset.show()

print(f"Número de registros deduplicados (id): {df_deduplicated_subset.count()}")

En esta ocasión podemos ver como no hay ids duplicados, pero, ¿la información que tenemos es precisa? spoiler: no.

Si nos fijamos en los datos del id = 1, tenemos tres registros. Con la operación de deduplicación anterior basada en la columna id, hemos eliminado los duplicados pero quedándonos con el primer valor, lo que nos hace tener información no válida para nuestros análisis (aquí no tenemos en cuenta las dimensiones lentamente cambiantes tipo 2).

En el caso que necesitemos eliminar los duplicados pero obteniendo el registro con los datos más actualizados, deberemos de utilizar otra forma de deduplicación.

Deduplicación por Prioridad/Versión:

Es la forma de deduplicación más robusta y la que se suele utilizar en los proyectos.

¿Qué busca? Varias versiones del mismo registro de entidad, donde no todas las columnas son idénticas, pero se refieren a la misma "cosa" (por ejemplo, el mismo producto con información ligeramente diferente o con distintas fechas de actualización). Se aplica una lógica de negocio para elegir la "mejor" versión.

Uso de funciones de ventana (Window functions) junto con row_number(), rank(), dense_rank() para seleccionar un registro preferido (ej. el más reciente).

Ejemplo de uso con PySpark

Para definir la ventana utilizaremos Window particionando por la clave primaria (columna id) y ordenamos de manera descendente por la columna last_updated para obtener el registro más actualizado primero.

Asignamos un número de fila para cada registro dentro de su partición por clave primaria.

from pyspark.sql.functions import col, row_number, to_timestamp
from pyspark.sql.window import Window

window_spec_pk = Window.partitionBy("id").orderBy(col("last_updated").desc())

df_ranked_pk = df.withColumn("row_num", row_number().over(window_spec_pk))

print("\nDataFrame con número de fila (para priorización por id):")
df_ranked_pk.show()

El resultado que obtenemos es que para el producto 1 y 2 tenemos varías versiones, quedando la más reciente con el row_num a 1.

Si filtramos para mantener solo los registros más recientes (row_num = 1), obtenemos los datos deduplicados.

df_deduplicated_pk_priority = df_ranked_pk.filter(col("row_num") == 1).drop("row_num")

print("\nDataFrame Deduplicado por Clave Primaria (id) - Prioridad (más reciente):")
df_deduplicated_pk_priority.show()

print(f"Número de registros deduplicados por PK (prioridad): {df_deduplicated_pk_priority.count()}")

Ejemplo de uso con SparkSQL

df.createOrReplaceTempView("productos")

df = spark.sql("""
WITH dedupes AS
(
    SELECT *, ROW_NUMBER() OVER(PARTITION BY id ORDER BY last_updated DESC) AS row_num
    FROM productos
)
SELECT *
FROM dedupes
""")

df.show()

df = spark.sql("""
WITH dedupes AS
(
    SELECT *, ROW_NUMBER() OVER(PARTITION BY id ORDER BY last_updated DESC) AS row_num
    FROM productos
)
SELECT
    id,
    product_name,
    price,
    last_updated
FROM dedupes
WHERE row_num = 1
""")

df.show()

Conclusión

La deduplicación es una práctica esencial en el procesamiento de datos, y PySpark en Microsoft Fabric ofrece las herramientas robustas para realizarla de manera eficiente. Este proceso mejora la calidad de los datos, optimiza el rendimiento de las consultas y análisis, y reduce los costos de almacenamiento.

Deletion Vectors en Delta Lake: Funcionamiento interno, impacto en el rendimiento y recomendaciones prácticas

Kilian Baccaro Salinas — Thu, 04 Dec 2025 11:38:56 GMT

Los Deletion Vectors (DV) son una de las funcionalidades más relevantes en Delta Lake para acelerar las operaciones de modificación de datos.

¿Cómo funcionan los Deletion Vectors?

Tradicionalmente, Delta Lake utiliza un enfoque Copy-on-Write:
cuando se elimina, actualiza o mergea una fila dentro de un archivo Parquet, el archivo completo debe reescribirse, excluyendo las filas afectadas. Esto es costoso en E/S, especialmente para archivos grandes o modificaciones puntuales.

Con los Deletion Vectors, Delta introduce un modelo Merge-on-Read:

Los archivos Parquet originales no se reescriben.
Las filas eliminadas se registran en un archivo auxiliar comprimido (un .bin).
Durante la lectura, el motor aplica el vector de eliminación y descarta esas posiciones lógicamente.
El coste de reescritura total se pospone a operaciones posteriores como OPTIMIZE o REORG TABLE ... APPLY (PURGE).

Este enfoque reduce de manera drástica la E/S asociada a las operaciones de DELETE/UPDATE/MERGE.

🛠️ Ejemplo Práctico en Microsoft Fabric

A continuación definimos dos tablas Delta:
una sin Deletion Vectors (Copy-on-Write) y otra con DV habilitado (Merge-on-Read).

Preparación y creación de tablas

Primero, creamos los datos base y luego las dos tablas, una sin la propiedad Deletion Vectors y otra con esta propiedad habilitada.

data = [
    (1, "Ana", "Ventas"), 
    (2, "Luis", "IT"), 
    (3, "Marta", "Marketing"), 
    (4, "Carlos", "Ventas"), 
    (5, "Elena", "IT")
]
columns = ["id", "nombre", "departamento"]
df = spark.createDataFrame(data, columns)

# --- Tabla SIN Deletion Vectors (Comportamiento Predeterminado) ---
print("Creando tabla SIN Deletion Vectors...")
df.coalesce(1).write.format("delta").mode("overwrite").saveAsTable("tabla_sin_dv")

# --- Tabla CON Deletion Vectors ---
print("Creando tabla CON Deletion Vectors...")
df.coalesce(1).write.format("delta").mode("overwrite") \
  .option("overwriteSchema", "true") \
  .option("delta.enableDeletionVectors", "true") \
  .saveAsTable("tabla_con_dv")

Puedes verificar la configuración de cada tabla con:

SHOW TBLPROPERTIES tabla_sin_dv;
SHOW TBLPROPERTIES tabla_con_dv;

📂 Comportamiento SIN Deletion Vectors (Copy-on-Write)

Antes del DELETE, la tabla contiene un único Parquet.

Se puede ver que existe un único fichero parquet y un commit en la carpeta _delta_log. Tras ejecutar:

spark.sql(f"DELETE FROM tabla_sin_dv WHERE id = 3")

Delta:

marca el archivo original como remove en _delta_log,
genera un archivo Parquet nuevo con 4 filas,
registra el add correspondiente.

Ejemplo mínimo del commit JSON:

{
    ...
        "operationMetrics": {
            "numRemovedFiles": "1",
            "numCopiedRows": "4",
            "numDeletionVectorsAdded": "0",
            "numDeletionVectorsRemoved": "0",
            "numAddedChangeFiles": "0",
            "numDeletionVectorsUpdated": "0",
            "numDeletedRows": "1",
            "numAddedFiles": "1",
            ...
        ...
}
{
    "remove": {
        "path": "part-00000-ff53dcfe-e9ee-44c5-ae25-c9e90ba6ff46-c000.snappy.parquet",
        "deletionTimestamp": 1764081601227,
        ...
    }
}
{
    "add": {
        "path": "part-00000-3c93366e-b599-49fe-99e0-f2087490b294-c000.snappy.parquet",
        "modificationTime": 1764081601092,
        ...
    }
}

📂 Comportamiento CON Deletion Vectors (Merge-on-Read)

Antes del DELETE, la tabla también tiene un único Parquet.

Se puede ver que también existe un único fichero parquet y un commit en la carpeta _delta_log. Tras ejecutar:

spark.sql(f"DELETE FROM tabla_con_dv WHERE id = 3")

Haciendo el mismo borrado pero para la tabla con Deletion Vectors habilitado, el contenido de la carpeta es el siguiente:

Delta:

mantiene el archivo Parquet tal cual,
añade un archivo deletion_vector_....bin con la posición invalidada,
actualiza el commit indicando el DeletionVector aplicado.

Nuestro nuevo commit contendría lo siguiente, donde se elimina la referencia al archivo Parquet existente y se añade un puntero al mismo archivo Parquet con un vector de eliminación:

{
    ...
        "operationMetrics": {
            ...
            "numRemovedFiles": "0",
            "numCopiedRows": "0",
            "numDeletionVectorsAdded": "1",
            "numDeletionVectorsRemoved": "0",
            "numAddedChangeFiles": "0",
            "numDeletionVectorsUpdated": "0",
            "numDeletedRows": "1",
            "numAddedFiles": "0",
            ...
        },
        ...
}
{
    "add": {
        "path": "part-00000-67be0c96-23bd-48e4-97a1-c0b43f615ad3-c000.snappy.parquet",
        ...
        "deletionVector": {
            "storageType": "u",
            "pathOrInlineDv": "5+[vtVR%EkPn{Xs}UU8<",
            "offset": 1,
            "sizeInBytes": 34,
            "cardinality": 1
        }
    }
}
{
    "remove": {
        "path": "part-00000-67be0c96-23bd-48e4-97a1-c0b43f615ad3-c000.snappy.parquet",
        ...
    }
}

Resumen de los dos comportamientos

Tabla	Cambios en archivos	Comportamiento
`tabla_sin_dv`	Hay 2 archivos Parquet: el original se marca como eliminado en el Log Delta, y se escribe un archivo Parquet nuevo y más pequeño (el Copy-on-Write).	Se reescribe el archivo afectado.
`tabla_con_dv`	Se mantienen los archivos Parquet originales y un nuevo archivo con la extensión `.bin` (el Deletion Vector).	Se escribe solo el Deletion Vector. El archivo Parquet original NO se reescribe, solo se marca la posición de la fila eliminada.

📊 Análisis del impacto en rendimiento

Ahora que comprendemos cómo funcionan conceptualmente los vectores de eliminación, veamos el impacto real en el rendimiento.

Para ello, he utilizado un conjunto de datos idéntico de 100 millones de filas en dos tablas Delta diferentes, una con vectores de eliminación habilitados y otra sin. Las pruebas que he realizado para medir el impacto en el rendimiento son:

Borrado de un registro
Borrado del 25% de la tabla
Actualización del 5% de la tabla
MERGE de un nuevo dataset que contiene 2 millones de filas (2%) en la tabla existente
SELECT COUNT(1) WHERE
SELECT SUM()
OPTIMIZE
VACUUM

Las operaciones se han hecho en el mismo orden que aparecen en el listado y los resultados han sido los siguientes:

⏱️ Resultados principales

DELETE (1 fila): La tabla con Deletion Vectors realiza el borrado 6.2x más rápido
DELETE (25M): La tabla con Deletion Vectors realiza el borrado 3.2x más rápido
UPDATE (5M): La tabla con Deletion Vectors realiza el update 3.5x más lento
MERGE (2M): rendimiento similar, ligera penalización con DV
OPTIMIZE: Deletion Vectors es 208x más rápido
VACUUM: Deletion Vectors es 1.6x más rápido
SELECT COUNT(1): DV es 5.9x más lento
SELECT SUM(price): DV es 1.8x más lento

Esto nos lleva a un punto clave:
el beneficio de DV es enorme en escritura, pero las lecturas pueden penalizarse seriamente.

🔍 ¿Por qué las lecturas son más lentas con Deletion Vectors?

La causa no es el DV en sí, sino el modelo Merge-on-Read, donde el lector debe:

Leer los archivos Parquet originales
Leer los vectores de eliminación asociados
Combinar ambas fuentes
Filtrar las filas inválidas
Reconstruir el dataset resultante.

Cuantos más deletes/updates acumula una tabla, más trabajo deben hacer los lectores.

📈 El efecto se amplifica si no se ejecuta OPTIMIZE

En las pruebas:

SELECT COUNT(1) → 5.9x más lento
SELECT SUM() → 1.8x más lento

Esto se debe a que el motor debe leer más datos de los necesarios, incluyendo registros ya invalidados.

🧹 El remedio: compactación

Después de un:

OPTIMIZE

REORG TABLE  APPLY (PURGE)

la tabla queda físicamente limpia y las lecturas vuelven a ser rápidas.

🧭 ¿Cuándo habilitar Deletion Vectors?

✔️ Casos recomendados

1. Capas Bronze y Silver

Ideal cuando:

hay ingestas frecuentes
existen deletes/updates parciales
se realizan merges incrementales
la prioridad es la velocidad de ingestión.

2. Workloads MoR donde la E/S es el cuello de botella

DV evita reescrituras costosas en Parquet.

3. Cuando hay una estrategia de optimización establecida

Es imprescindible:

Programar OPTIMIZE o REORG ... APPLY (PURGE)
Ejecutar VACUUM periódicamente

❌ Casos NO recomendados

1. Tablas con pocas escrituras y muchas lecturas

Ejemplos:

tablas Gold
modelos de agregación
capas analíticas puras
dashboards con baja latencia
Power BI Direct Lake

Aquí CoW suele ser más eficiente.

2. Problemas de compatibilidad

DV requiere:

Delta Lake 2.3+
Reader version ≥ 3
Writer version ≥ 7

3. Fabric Copy Data Activity (limitación temporal)

Copy Data ignora Deletion Vectors → pueden reaparecer filas “borradas”.
Esto se resolverá (si no se ha resuelto ya) cuando Fabric actualice el soporte a esta funcionalidad.

💡 Conclusión

Los Deletion Vectors representan una innovación clave en Delta Lake que mejora la eficiencia de las operaciones de escritura y reduce la E/S del sistema de forma drástica. Sin embargo, su adopción implica entender claramente las implicaciones del modelo Merge-on-Read, especialmente en términos de rendimiento de lectura.

En escenarios con cargas frecuentes y actualizaciones parciales —especialmente en capas Bronze y Silver— los DV proporcionan mejoras significativas. En contrapartida, en modelos orientados a lectura intensiva como las capas Gold, puede ser preferible mantener el enfoque tradicional Copy-on-Write o aplicar un mantenimiento regular que elimine los vectores acumulados.

En resumen:

DV aceleran la escritura
Penalizan las lecturas si no hay mantenimiento
Ofrecen el mejor rendimiento total cuando se combinan con OPTIMIZE.

Análisis del precio de las criptomonedas en tiempo real con Microsoft Fabric – Parte 4: Data Activator

Kilian Baccaro Salinas — Mon, 24 Nov 2025 18:34:47 GMT

⚡ Data Activator - Alertas en tiempo real

En esta sección exploraremos cómo utilizar Data Activator en Microsoft Fabric para monitorizar datos en tiempo real y generar alertas automáticas basadas en condiciones definidas sobre nuestras tablas, vistas o flujos de eventos.

Data Activator nos permite reaccionar inmediatamente ante cambios en los datos, enviando notificaciones, disparando workflows o activando acciones cuando se cumplen determinadas condiciones.

🎯 Objetivo

Aprender a configurar alertas en tiempo real con Data Activator usando dos enfoques distintos:

Método 1: Conectar un Eventstream a un Activator y definir reglas automáticas de compra/venta basadas en el precio.
Método 2: Crear una alerta directamente sobre un visual del dashboard en tiempo real, sin necesidad de utilizar el Eventstream dentro del Activator.

🟦 Método 1: Crear alertas conectando el Eventstream a un Activator

Este método permite trabajar con los datos directamente en tiempo real, incluso antes de que se almacenen en una tabla. Las alertas se aplican sobre los eventos que llegan en streaming, lo que ofrece la mayor inmediatez posible.

🔌 1. Conectar el Eventstream a Data Activator

Abre tu Eventstream donde recibes los datos de Binance.
Añade un nuevo destino y selecciona Activator.
Une el eventstream es_Crypto con el destino Activator.
En el menú derecho, asigna un nombre descriptivo y crea un nuevo Activator. En este ejemplo lo llamamos: act_Crypto
Publica los cambios. El Eventstream debería verse así:

A partir de este momento, cada evento que llega al Eventstream se envía automáticamente al Activator en tiempo real.

🧩 2. Crear las reglas automáticas

Una vez creado el Activator, ábrelo para comenzar a configurar las reglas.

En el explorador lateral verás el Eventstream recibido y un gráfico de ejemplo con los eventos en tiempo real.

🔔 Regla 1: Comprar BTCEUR si el precio ≤ 70.000€

En Data Activator, selecciona New rule en el menú superior.
Selecciona el flujo de eventos recibido, en este caso: es_Crypto-stream.
En Condition, definimos lo siguiente:
- Condition1
  - Operation: Text state --> Is equal to
  - Column: tickerInfo.symbol
  - Value: BTCEUR
  - Default type: None

Añade una segunda condición pulsando Add condition.

Condition2
- Operation: Numeric state --> Is less than or equal to
- Column: tickerInfo.price
- Value: 70000
- Default type: None

Configura la acción clicando en Edit action.
Renombra la regla a Compra BTCEUR

🔔 Regla 2: Vender BTCEUR si el precio ≥ 100.000€

Crea una nueva regla.
Define la condición: symbol == "BTCEUR" and price >= 100000
Configura la acción de igual forma que se ha realizado en la regla anterior.

🎯 Resultado

Tras crear ambas reglas:

Si BTCEUR baja a 70.000€ o menos → Se dispara una alerta de compra.
Si BTCEUR sube a 100.000€ o más → Se dispara una alerta de venta.

Todo esto ocurre en tiempo real, directamente desde los eventos del Eventstream.

🟦 Método 2: Crear alertas desde un visual del dashboard en tiempo real

Este método es más directo y muy útil cuando ya dispones de un dashboard publicado y quieres generar alertas sin necesidad de conectar el Eventstream al Activator.

📊 ¿Cómo funciona?

Data Activator detecta automáticamente los datos que alimentan un visual y permite crear una alerta vinculada a ese visual concreto.

🔧 Pasos para crear la alerta desde el dashboard

Abre el dashboard en tiempo real rd_Crypto.
Selecciona el visual de Nº de criptomonedas de la página principal. Puedes crear la alerta clicando en el icono del rayo o en los tres puntos y seleccionando Set Alert.
Define la alerta en el menú lateral derecho de la siguiente forma:
- Run query every: 1 hour
- Condition: Is not equal
- Value: 2794
- Action: Send me an email
- Save location: selecciona el Activator creado anteriormente (act_Crypto).

Crea la alerta.
Vuelve a abrir el artefacto act_Crypto y verás un nuevo flujo de datos proveniente del dashboard con la alerta recién creada.
Aquí podrás editar, mejorar o añadir acciones adicionales a la alerta.

Conclusión

Gracias a Data Activator, puedes monitorizar precios de criptomonedas en tiempo real y generar alertas tanto desde el propio Eventstream como desde los visuales del dashboard.

Análisis del precio de las criptomonedas en tiempo real con Microsoft Fabric – Parte 3: Visualización de datos

Kilian Baccaro Salinas — Thu, 06 Nov 2025 14:02:29 GMT

En esta sección abordaremos la fase de análisis y visualización de nuestro proyecto en tiempo real.
El objetivo es transformar los datos procesados en la arquitectura Medallion en insights visuales que faciliten la toma de decisiones rápidas y basadas en datos.

Objetivo

Crear un dashboard en tiempo real que muestre métricas clave del mercado de criptomonedas, aprovechando las consultas KQL y las capacidades de visualización de Microsoft Fabric.

Estructura del Dashboard en Tiempo Real

Nuestro dashboard en Microsoft Fabric estará compuesto por dos páginas principales, cada una con un propósito bien definido:

Página	Descripción	Tipo de análisis
🏠 Principal	Muestra las métricas globales del mercado de criptomonedas	Agregaciones generales y KPIs
💡 Detalles	Profundiza en una criptomoneda específica	Análisis individual, histórico y variaciones

Creando un Dashboard en Tiempo Real

Crear el dashboard

En el workspace de Microsoft Fabric, selecciona New > Real-Time Dashboard.
Asigna un nombre y crea el dashboard.
Ábrelo: verás que aparece con una única página y la opción de añadir un tile para comenzar a visualizar datos.

Configuración inicial de la página

Renombra la página como Principal.
Haz clic en Add tile para añadir la primera visualización.

Al no tener todavía orígenes de datos conectados, aparecerá un aviso. Procedemos entonces a configurarlo.

Conectar el origen de datos

Haz clic en Data source y selecciona Eventhouse / KQL Database.
Selecciona la base de datos KQL creada previamente (por ejemplo: eh_Crypto).
Deja los valores por defecto y confirma para añadir el origen de datos.

Ahora ya podemos escribir consultas KQL para construir visuales.

Crear el primer visual: última fecha de actualización

En el editor, escribe la siguiente consulta para obtener la última fecha registrada:
```
 vwCrypto
 | top 1 by serverTime
 | project serverTime
```
Ejecuta la consulta para obtener el resultado.
Haz clic en Add visual para darle formato al resultado en lugar de mostrarlo como tabla.

Configurar el visual

En el panel de configuración a la derecha, aplica los siguientes ajustes:

Tile name: Última actualización
Visual type: Stat
Value column: serverTime

Haz clic en Apply changes para confirmar.

Ya tenemos el primer visual en nuestro dashboard en tiempo real.

Visual 2: Número total de criptomonedas

Para mostrar cuántas criptomonedas distintas tenemos registradas:

Para añadir un nuevo visual, se necesita añadir un nuevo tile

En el editor del tile, escribe la siguiente consulta:

 materialized_view('mvCryptoGoldLatest')
 | summarize Cryptocurrencies = count_distinct(symbol)

Haz clic en Add visual.
Configura el visual:
- Tile name: Nº de criptomonedas
- Visual type: Stat
- Value column: Cryptocurrencies

Resultado: un contador en tiempo real del número de criptomonedas disponibles.

Visual 3: Top 5 criptomonedas por precio (EUR)

Este visual permite identificar rápidamente las criptomonedas más valiosas en euros.

Añade una nueva consulta en el dashboard:

  materialized_view('mvCryptoGoldLatest')
  | where symbol endswith "EUR"
  | top 5 by price

Haz clic en Add visual.
Configura el visual con estos parámetros:
- Tile name: Top 5 criptomonedas por precio (EUR)
- Visual type: Column chart
- X axis: symbol
- Y axis: price

Con esto obtendremos un gráfico de barras que muestra las 5 criptomonedas con mayor precio en EUR.

Visual 4: Distribución por rango de precios

Para analizar cómo se distribuyen las criptomonedas en función de su precio, agrupamos en rangos.

Escribe la consulta:

  materialized_view('mvCryptoGoldLatest')
  | extend priceRange = case(
      price < 1, "< 1€",
      price < 100, "1€ - 100€",
      price < 1000, "100€ - 1000€",
      "> 1000€"
  )
  | summarize count() by priceRange

Haz clic en Add visual.
Configura el visual con estos parámetros:
- Tile name: Distribución por rango de precios
- Visual type: Pie chart
- Category column: priceRange
- Numeric column: count_
- Tooltip: value

De esta manera obtenemos un gráfico circular que refleja qué proporción de criptomonedas se encuentra en cada rango de precios y si nos posicionamos en el gráfico, nos muestra el conteo de criptomonedas que hay en cada rango de precios.

Visual 5: Logo Binance

Para personalizar el dashboard y hacerlo más identificable con la temática del proyecto, añadiremos el logo de Binance en la parte superior.

En el dashboard en tiempo real, haz clic en "New text tile".

En el editor del texto, inserta el siguiente código Markdown:

 ![Binance](https://th.bing.com/th/id/R.92d4f7ef666ddb42051d90f0333df1cf?rik=Rw5e3HhVIbBAng&riu=http%3a%2f%2ffreelogopng.com%2fimages%2fall_img%2f1681906406binance-icon-png.png&ehk=zKWRuKmvAqHAESxhJN0LnJWOczq0vpRcKTKxNrZMaZQ%3d&risl=&pid=ImgRaw&r=0 "Binance")

Ajusta el alineamiento y el tamaño del tile para que el logo se vea correctamente.

📑 Página de Detalles por criptomoneda

Hasta ahora hemos construido la página principal con métricas globales del mercado.
El siguiente paso es crear una página de Detalles, donde podremos profundizar en la información de una criptomoneda específica.

🔧 Creando la página de Detalles

Dentro del Real-Time Dashboard, haz clic en Add page.
Asigna el nombre Detalles.
En esta nueva página, los visuales estarán filtrados por una única criptomoneda.

Creando un parámetro de filtrado

Para permitir seleccionar qué criptomoneda analizar (y también habilitar el drillthrough desde la página principal):

En el menú superior del dashboard, selecciona Manage > Parameters.
En el menú lateral del dashboard, selecciona Add.
Configura el parámetro con las siguientes opciones:
- Label: Criptomoneda
- Parameter type: Single selection
- Variable name: Criptomoneda
- Data type: string
- Show on page: Detalles
- Source: Query
  - Data source: Selecciona el eventhouse eh_Crypto
  - Query: kql materialized_view('mvCryptoGoldLatest') distinct symbol
  - Value column: symbol
- Default value: BTCEUR

Creando los visuales

🪙 Logo Binance

Al igual que en la página principal, comenzamos añadiendo un encabezado visual para mantener la coherencia del dashboard y reforzar la identidad del proyecto.

Visual: Nombre de la criptomoneda seleccionada

El objetivo de este visual es mostrar dinámicamente el nombre de la criptomoneda seleccionada en la página de detalles.

Crea un nuevo tile en el dashboard.
Escribe la siguiente consulta KQL para mostrar el símbolo de la criptomoneda seleccionada:
```
 materialized_view('mvCryptoGoldLatest')
 | where symbol == Criptomoneda
 | project symbol
```
🔧 Criptomoneda es el parámetro dinámico del dashboard que hemos configurado anteriormente.
Haz clic en Add visual y configura el visual con estos parámetros:
- Hide Tile name
- Visual type: Stat

Haz clic en Apply changes para guardar el visual.

Visual: Valor máximo del rango de tiempo

Este visual muestra el precio máximo alcanzado por la criptomoneda seleccionada dentro del rango de tiempo actual.

Escribe la consulta:
```
 vwCrypto
 | where symbol == Criptomoneda
 | where serverTime between (_startTime .. _endTime)
 | summarize max(price)
```
🔧 Criptomoneda corresponde a la criptomoneda seleccionada. _startTime y _endTime son los parámetros automáticos del dashboard para el rango de tiempo.
Haz clic en Add visual.
Configura el visual con estos parámetros:
- Tile name: Precio máximo
- Visual type: Stat

Visual: Valor mínimo del rango de tiempo

Este visual muestra el precio mínimo alcanzado por la criptomoneda seleccionada dentro del rango de tiempo actual.

Escribe la consulta:
```
 vwCrypto
 | where symbol == Criptomoneda
 | where serverTime between (_startTime .. _endTime)
 | summarize min(price)
```
🔧 Criptomoneda corresponde a la criptomoneda seleccionada. _startTime y _endTime son los parámetros automáticos del dashboard para el rango de tiempo.
Haz clic en Add visual.
Configura el visual con estos parámetros:
- Tile name: Precio mínimo
- Visual type: Stat

Visual: Precio actual

Este visual muestra el precio más reciente (actual) de la criptomoneda seleccionada.

Escribe la consulta:

 mvCryptoGoldLatest
 | where symbol == Criptomoneda
 | top 1 by serverTime desc
 | project current_price = price

Haz clic en Add visual.
Configura el visual con estos parámetros:
- Tile name: Precio actual
- Visual type: Stat

Visual: Variación porcentual entre valor máximo y mínimo

Este visual muestra la variación porcentual entre el valor máximo y el valor mínimo de la criptomoneda en el rango de tiempo seleccionado.

Escribe la consulta:

 vwCrypto
 | where symbol == Criptomoneda
 | where serverTime between (_startTime.._endTime)
 | summarize 
    max_price = max(price),
    min_price = min(price)
 | extend variation_pct = ((max_price - min_price) / min_price) * 100
 | project variation_pct

Haz clic en Add visual.
Configura el visual con estos parámetros:
- Tile name: Variación % (Máx vs Mín)
- Visual type: Stat
- Text size: Small

Visual: Variación porcentual entre el valor actual y el último valor del rango de tiempo

Este visual calcula la variación porcentual entre el precio actual (obtenido desde la vista materializada) y el último valor registrado dentro del rango de tiempo seleccionado.

Esto permite ver si la criptomoneda ha subido o bajado recientemente.

Escribe la consulta:

 let current_price = 
    mvCryptoGoldLatest
    | where symbol == Criptomoneda;
 let last_historical = 
    vwCrypto
    | where symbol == Criptomoneda
    | where serverTime between (_startTime .. _endTime)
    | top 1 by serverTime asc
    | project lh_symbol = symbol, lh_serverTime = serverTime, lh_price = price;
 current_price
 | join kind=inner last_historical on $left.symbol == $right.lh_symbol
 | extend variation_pct = ((price - lh_price) / price) * 100
 | project variation_pct

Haz clic en Add visual.
Configura el visual con estos parámetros:
- Tile name: Variación % (Actual vs Último)
- Visual type: Stat
- Text size: Small

🎨 Aplicando Formato Condicional a los Visuales

El formato condicional permite destacar visualmente los cambios en las métricas clave, ayudando a identificar tendencias positivas o negativas de un vistazo.

En el caso de los precios o variaciones porcentuales de criptomonedas, aplicar color en función del resultado mejora la interpretación inmediata del dashboard.

Formato condicional en el visual “Variación % (Actual vs Último)

Selecciona el visual “Variación % (Actual vs Último)”.
Desplázate hasta la sección Conditional formatting (Formato condicional) y asegúrate que está habilitada.
Añade una regla:
- Color style: Light
- Column: variation_pct
- Operator: >
- Value: 0
- Color: Green
- Icon: ⬆️

Haz clic en guardar.
Crea dos reglas más:
- Valor == 0: Con color Azul sin icono.
- Valor < 0: Con color Rojo y con el icono de la felcha hacia abajo.

Realiza el mismo ejercicio para el visual Variación % (Actual vs Último).

El dashboard debería de quedar así:

🔄 Configurar el Auto Refresh

Una de las grandes ventajas de los dashboards en tiempo real de Microsoft Fabric es su capacidad para actualizar automáticamente los datos sin intervención manual. Esto garantiza que las métricas y visuales reflejen siempre la información más reciente procedente de las vistas materializadas o tablas KQL.

⚙️ Pasos para configurar el Auto Refresh

En la barra superior, haz clic en Manage y selecciona Auto refresh.

Activa la opción Enable y define:

Minimun time interval: Allow all refresh intervals
Default refresh rate: Continuous^

Haz clic en Apply para aplicar los cambios.

Una vez configurado el auto refresh, todos los visuales del dashboard se actualizarán automáticamente con los últimos datos disponibles.

Análisis del precio de las criptomonedas en tiempo real con Microsoft Fabric – Parte 2: Transformación y preparación analítica de datos

Kilian Baccaro Salinas — Fri, 24 Oct 2025 10:11:22 GMT

🎯 Objetivo

En esta fase abordaremos la transformación, limpieza y preparación analítica de los datos obtenidos en la capa Bronze.
El propósito es construir las capas Silver y Gold dentro de nuestra arquitectura Medallion, garantizando datos consistentes, enriquecidos y optimizados para el análisis.

🥈 Capa Silver - Transformación y enriquecimiento de datos

La capa Silver representa el siguiente paso tras la ingestión de datos crudos en la base de datos KQL. Su objetivo es transformar, limpiar, enriquecer y estructurar los datos provenientes de la capa RAW para que estén listos para análisis más complejos o visualizaciones.

En esta etapa se aplican transformaciones como:

Conversión de formatos de fecha/hora.
Extracción de campos anidados (por ejemplo, desde JSON).
Tipado correcto de columnas (por ejemplo, price como real).
Enriquecimiento de datos con campos adicionales.
Eliminación de duplicados.

Además, gracias a las Update Policies, estas transformaciones se ejecutan de forma automática y en tiempo real, cada vez que nuevos datos se insertan en la tabla RAW.

🔁 Transformaciones en tiempo real con Update Policies

🧠 ¿Qué son las Update Policies?

Las Update Policies en KQL permiten definir reglas que se ejecutan automáticamente cuando una tabla origen recibe nuevos datos. Estas reglas aplican transformaciones predefinidas y almacenan los resultados en una tabla destino, facilitando la creación de capas como Silver o Gold.

Son especialmente útiles para:

Automatizar procesos de transformación.
Aplicar lógica de negocio sin depender de pipelines externos.
Mantener capas sincronizadas sin esfuerzo adicional.

📚 Documentación oficial

Para poder lanzar consultas kql, utilizaremos un nuevo artefacto llamado KQL Queryset. Este artefacto lo podemos crear en nuestra área de trabajo o utilizar el que viene por defecto cuando creamos el Eventhouse.

1. Crear la tabla destino (`Crypto_Silver`)

.create table Crypto_Silver (
    serverTime: datetime,
    symbol: string,
    price: real
) 
with (folder = "Silver")

2. Crear una función de transformación

Esta función convierte el serverTime desde milisegundos Unix a datetime, analiza el campo JSON tickerInfo y extrae el symbol y el price como columnas limpias.

.create-or-alter function LoadCryptoToSilver {
    Crypto_RAW
    | extend serverTime = unixtime_milliseconds_todatetime(serverTime), j = parse_json(tickerInfo)
    | extend symbol = tostring(j.symbol), price = toreal(j.price)
    | project serverTime, symbol, price
}

3. Crear y activar la Update Policy

Con esta política, cualquier nuevo dato que entre en Crypto_RAW activará automáticamente la función anterior y los resultados se escribirán en Crypto_Silver.

.alter table Crypto_Silver policy update 
```[
    {
        "IsEnabled": true,
        "Source": "Crypto_RAW",
        "Query": "LoadCryptoToSilver",
        "IsTransactional": true,
        "PropagateIngestionProperties": false
    }
]```

✅ Validación

Una vez configurado:

Puedes consultar la tabla Crypto_Silver para ver los datos limpios, convertidos y estructurados.
La transformación ocurre en tiempo real sin intervención manual.

🥇 Capa Gold - Agregación y preparación analítica

La capa Gold representa la última fase de nuestra arquitectura Medallion, enfocada en proveer datos listos para análisis, visualización y toma de decisiones.

En esta etapa, trabajamos sobre los datos transformados y enriquecidos de la capa Silver, y generamos entidades optimizadas para responder a necesidades analíticas específicas.

En nuestro proyecto, vamos a seguir un doble enfoque:

Vista materializada → para obtener de forma optimizada el último valor de cada criptomoneda cuyo precio sea mayor a 0.
Función y tabla silver → para consultar el histórico filtrado y así poder analizar la evolución de precios y tendencias.

¿Qué es una vista materializada?

Una vista materializada en Kusto (KQL) es una estructura optimizada que almacena físicamente los resultados de una consulta. A diferencia de una vista tradicional —que recalcula los datos en cada ejecución—, la vista materializada mantiene los resultados precalculados y actualizados automáticamente según los cambios en la tabla origen.

✅ Ventajas

Rendimiento optimizado en consultas frecuentes o complejas.
Datos precalculados listos para su uso en dashboards o KPIs.
Menor carga de procesamiento sobre las tablas base.

📚 Documentación oficial - Vista materializada

Vista materializada: Último valor por criptomoneda

Para optimizar el acceso a los precios más recientes, creamos una vista materializada llamada mvCryptoGoldLatest que devuelve el último registro disponible de cada criptomoneda con precio superior a 0.

.create-or-alter materialized-view with (backfill = true) mvCryptoGoldLatest on table Crypto_Silver
{
    Crypto_Silver
    | where price > 0
    | summarize arg_max(serverTime, *) by symbol
}

backfill=true: rellena la vista con los datos históricos existentes.
arg_max(serverTime, *): selecciona el registro con la fecha más reciente (serverTime) para cada símbolo (symbol).

🔹 Casos de uso:

Obtener la foto actual del mercado de criptomonedas.
Mostrar los últimos valores en tarjetas o KPIs dentro de dashboards.
Evitar valores nulos o sin precio.

Función: Histórico filtrado

Para análisis históricos y estudios de tendencias, creamos una vista normal llamada vwCrypto que devuelve todas las criptomonedas cuyo precio sea mayor a 0.

.create-or-alter function with(view=true) vwCrypto()
{
    Crypto_Silver
    | where price > 0
}

🔹 Casos de uso:

Analizar la evolución temporal del precio de una criptomoneda.
Calcular métricas de volatilidad, medias móviles o comparativas históricas.

📊 Consultando los datos en tiempo real

En la capa Gold, disponemos de tres formas principales de acceder a los datos:

Directamente desde la tabla Silver
Mediante vista materializada (mvCryptoGoldLatest)
A través de la función (vwCrypto)

🔍 Formas de consultar una vista materializada

En Kusto, existen dos maneras de consultar una vista materializada, dependiendo de tus necesidades de rendimiento o consistencia de datos:

Consultar toda la vista

Puedes consultar la vista materializada directamente por su nombre, como si fuera una tabla normal:

mvCryptoGoldLatest

Esta consulta combina automáticamente:

La parte materializada (ya precalculada y almacenada).
Los registros recientes de la tabla de origen que aún no han sido materializados (.delta).

✅ Ventajas:

Siempre devuelve los datos más actualizados, incluyendo los registros recién ingeridos.

⚠️ Consideraciones:

Puede tener menor rendimiento, ya que necesita materializar parte del delta en tiempo de consulta.
El rendimiento depende de la antigüedad de la vista y de los filtros aplicados.

Consultar solo la parte materializada

También puedes usar la función materialized_view() para consultar únicamente la parte ya materializada:

materialized_view('mvCryptoGoldLatest')

✅ Ventajas:

Ofrece el mejor rendimiento posible, al leer solo los datos ya materializados.
Ideal para dashboards en tiempo real o escenarios de telemetría, donde prima la rapidez.

⚠️ Consideraciones:

No garantiza que se incluyan los registros más recientes aún no materializados.
Puede haber una ligera latencia entre la ingesta de datos y su aparición en los resultados.

📚 Documentación oficial - Consultas sobre vistas materializadas

Vista normal para histórico

La vista vwCrypto() permite consultar todo el histórico de precios de criptomonedas con un valor mayor a 0. Es ideal para analizar la evolución temporal, tendencias o realizar cálculos estadísticos como variaciones porcentuales, medias móviles o volatilidad

vwCrypto

🔍 Formas de consultar una vista normal (función KQL)

A diferencia de las vistas materializadas, las vistas normales o funciones con view=true no almacenan físicamente los datos, sino que ejecutan la consulta en tiempo real cada vez que se utilizan.

Esto las hace muy útiles para escenarios donde se requiere flexibilidad y actualización continua, aunque con un pequeño coste en rendimiento frente a las materializadas.

Consultar directamente la vista

Puedes invocar la vista simplemente escribiendo su nombre o función, como cualquier tabla:

vwCrypto

vwCrypto()

✅ Ventajas:

Siempre devuelve los datos más recientes desde la tabla de origen.
Permite aplicar filtros, joins o agregaciones de forma dinámica.
Ideal para análisis exploratorios o consultas personalizadas en dashboards.

⚠️ Consideraciones:

Cada ejecución vuelve a procesar la lógica definida en la vista.
Puede tener un mayor coste computacional en vistas con transformaciones complejas.

Integrar la vista dentro de otras consultas KQL

Una práctica muy común es usar la vista vwCrypto() como fuente de datos dentro de consultas más complejas o cálculos derivados:

vwCrypto()
| where symbol == "BTCEUR"
| summarize avgPrice = avg(price) by bin(serverTime, 1h)

✅ Ventajas:

Permite encadenar transformaciones y análisis sobre los datos ya filtrados.
Simplifica la lectura del código al reutilizar lógica definida en una única vista.

⚠️ Consideraciones:

Al no estar materializada, cada ejecución recalcula los resultados.
En escenarios de alto volumen de datos o consultas frecuentes, puede ser preferible usar una vista materializada.

Análisis del precio de las criptomonedas en tiempo real con Microsoft Fabric – Parte 1: Ingesta de datos con un Eventstream

Kilian Baccaro Salinas — Thu, 16 Oct 2025 18:54:27 GMT

🎯 Objetivo

En este primer paso diseñaremos la arquitectura general del proyecto, crearemos los elementos necesarios en Microsoft Fabric para recibir y almacenar datos en tiempo real, y desarrollaremos un script en Python para capturar datos de criptomonedas desde la API pública de Binance.

🧱 Arquitectura del proyecto

A continuación, se muestra un esquema de alto nivel de la solución:

Componentes principales:

Eventstream: canal de ingesta en tiempo real que recibe eventos externos.
Eventhouse: base de datos KQL optimizada para almacenar eventos.
Script Python: encargado de consultar la API de Binance y enviar eventos al Eventstream.

⚙️ Crear los componentes en Microsoft Fabric

1. Crear un Eventstream y configurarlo

Ve a tu workspace en Microsoft Fabric.
Haz clic en Nuevo > Eventstream.
Asigna un nombre, por ejemplo: es_Crypto.
En la pantalla principal, selecciona el origen de datos Custom endpoint. Este tipo de origen permite recibir datos desde fuentes personalizadas a través de protocolos compatibles como Azure Event Hub, Kafka o AMQP.
Asigna un nombre al origen (por ejemplo, binance-input) y añádelo.
Publica los cambios del eventstream.

2. Crear un Eventhouse

En el mismo workspace, selecciona Nuevo > Eventhouse. Este será el destino donde se almacenarán los eventos recibidos desde el Eventstream.
Dale un nombre, como eh_Crypto.
No es necesario crear manualmente una tabla aún, ya que se generará automáticamente al conectar el Eventstream en el siguiente paso.

🐍 Script Python para obtener y enviar datos

Este script permite simular eventos financieros en tiempo real conectándose a la API pública de Binance y enviando datos a un Azure Event Hub.

Cada segundo realiza las siguientes acciones:

🔄 Consulta los datos de precios (ticker/price) y la hora del servidor desde Binance.
🧱 Reestructura los datos en formato JSON incluyendo symbol, price y serverTime.
📤 Agrupa los eventos en lotes y los envía al Azure Event Hub especificado.
🛡️ Maneja errores de red, datos incompletos o problemas al construir lotes.
🔁 Ejecuta estas acciones de manera continua dentro de un bucle asincrónico (asyncio).

💡 Ideal para pruebas o demostraciones de ingesta de datos en tiempo real desde una fuente externa.

🔒 Asegúrate de actualizar las variables EVENT_HUB_NAME y EVENT_HUB_CONNECTION_STR con los valores proporcionados por Fabric al crear el custom endpoint.

Al configurar el origen del eventstream, Microsoft Fabric genera automáticamente:

El nombre del Event Hub
El Connection string (primary key) con autenticación SAS Key

📦 Prerequisitos

pip install azure-eventhub

El script lo tienes disponible aquí:

import urllib.request
from urllib.error import URLError, HTTPError
import json
import asyncio
from azure.eventhub import EventData
from azure.eventhub.aio import EventHubProducerClient
import time
from datetime import datetime

# --- Configuración ---
# URLs de la API de Binance
ticker_price_url = "https://api.binance.com/api/v3/ticker/price"
server_time_url = "https://api.binance.com/api/v3/time"

# --- Configuración de Azure Event Hubs ---
# **IMPORTANTE:** Reemplaza estos valores con tu cadena de conexión y nombre de Event Hub.
EVENT_HUB_NAME = "es_XXX"
EVENT_HUB_CONNECTION_STR = "Endpoint=sb://XXX.servicebus.windows.net/;SharedAccessKeyName=key_XXX;SharedAccessKey=XXX;EntityPath=es_XXX"

# --- Configuración del Intervalo ---
# Define cada cuántos segundos quieres ejecutar el proceso
SEND_INTERVAL_SECONDS = 1

# --- Función para obtener datos de la API ---
def fetch_api_data(url):
    """Obtiene datos de una URL y los decodifica como JSON."""
    try:
        # print(f"Fetching data from: {url}") # Descomentar si necesitas logs detallados
        with urllib.request.urlopen(url, timeout=10) as response:
            if response.status == 200:
                return json.loads(response.read().decode('utf-8'))
            else:
                print(f"Error: Received status code {response.status} from {url}")
                return None
    except (HTTPError, URLError) as e:
        print(f"Error fetching data from {url}: {e}")
        return None
    except Exception as e:
        print(f"An unexpected error occurred while fetching data from {url}: {e}")
        return None


# --- Función principal asíncrona para procesar y enviar datos (sin cambios) ---
async def process_and_send_data(producer):
    # 1. Obtener la hora del servidor y los precios
    server_time_data = fetch_api_data(server_time_url)
    ticker_price_data = fetch_api_data(ticker_price_url)

    # Validar que se obtuvieron los datos
    if not server_time_data or 'serverTime' not in server_time_data:
        print("Error: No se pudo obtener la hora del servidor de Binance.")
        return False
    if not ticker_price_data or not isinstance(ticker_price_data, list):
        print("Error: No se pudieron obtener los datos de precios o el formato es incorrecto.")
        return False

    server_time = server_time_data['serverTime']
    # print(f"Server time obtained: {server_time}") # Log menos verboso
    # print(f"Number of tickers received: {len(ticker_price_data)}")

    # 2. Reestructurar los datos
    events_to_send = []
    for ticker in ticker_price_data:
        if 'symbol' in ticker and 'price' in ticker:
            restructured_event = {
                "serverTime": server_time,
                "tickerInfo": {
                    "symbol": ticker['symbol'],
                    "price": ticker['price']
                }
            }
            events_to_send.append(restructured_event)
        # else: # No loguear cada ticker inválido para no llenar la consola
            # print(f"Skipping invalid ticker data: {ticker}")

    if not events_to_send:
        print("No valid events were restructured to be sent in this cycle.")
        return False # Considerar esto un éxito parcial o fallo según el caso; aquí lo marcamos como no exitoso

    # print(f"Successfully restructured {len(events_to_send)} events.")

    # 3. Enviar datos a Event Hub usando el productor existente
    try:
        # El productor se crea y gestiona en main_loop
        event_data_batch = await producer.create_batch()
        event_count_in_batch = 0

        for event_payload in events_to_send:
            event_body_str = json.dumps(event_payload)
            event_data = EventData(event_body_str)
            try:
                event_data_batch.add(event_data)
                event_count_in_batch += 1
            except ValueError: # Batch full
                if event_count_in_batch > 0:
                    # print(f"Batch full ({event_count_in_batch} events). Sending batch...")
                    await producer.send_batch(event_data_batch)
                    # print("Batch sent.")
                else:
                     print(f"Warning: Single event is too large to fit in a batch: {len(event_body_str)} bytes.")
                     # Decide si quieres saltar este evento o manejarlo de otra forma
                     continue # Saltar este evento y continuar con el siguiente

                # Crear nuevo lote y añadir el evento actual
                event_data_batch = await producer.create_batch()
                event_data_batch.add(event_data)
                event_count_in_batch = 1

        # Enviar el último lote si contiene eventos
        if event_count_in_batch > 0:
            # print(f"Sending final batch ({event_count_in_batch} events)...")
            await producer.send_batch(event_data_batch)
            # print("Final batch sent.")

        print(f"Successfully sent {len(events_to_send)} events to Event Hub '{EVENT_HUB_NAME}'.")
        return True

    except Exception as e:
        print(f"An error occurred during Event Hub send: {e}")
        # Aquí podrías añadir lógica para reintentar o manejar errores específicos de Event Hubs
        return False


# --- Bucle principal asíncrono ---
async def main_loop():
    """Bucle principal que ejecuta el proceso cada X segundos."""

    # Crear el productor una vez fuera del bucle para reutilizar la conexión
    producer = EventHubProducerClient.from_connection_string(
        conn_str=EVENT_HUB_CONNECTION_STR,
        eventhub_name=EVENT_HUB_NAME
    )

    while True:
        start_time = time.time()
        print(f"--- [{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}] Starting data fetch and send cycle ---")

        try:
            # Pasar el productor a la función
            success = await process_and_send_data(producer)
            if success:
                print(f"--- Cycle finished successfully ---")
            else:
                print(f"--- Cycle finished with errors (check logs above) ---")

        except Exception as e:
            # Captura errores inesperados en el ciclo principal
            print(f"--- FATAL ERROR in cycle: {e} ---")
            # Podrías decidir salir del bucle o reintentar crear el productor aquí
            # Por ahora, solo logueamos y continuamos esperando el intervalo

        end_time = time.time()
        elapsed_time = end_time - start_time
        wait_time = max(0, SEND_INTERVAL_SECONDS - elapsed_time) # Calcular cuánto esperar realmente

        print(f"--- Cycle duration: {elapsed_time:.2f} seconds. Waiting for {wait_time:.2f} seconds before next cycle ---")
        await asyncio.sleep(wait_time) # Esperar el tiempo restante del intervalo

# --- Punto de entrada ---
if __name__ == "__main__":
    if EVENT_HUB_CONNECTION_STR == "TU_CADENA_DE_CONEXION_EVENT_HUB" or EVENT_HUB_NAME == "TU_NOMBRE_DE_EVENT_HUB":
        print("ERROR: Por favor, actualiza las variables EVENT_HUB_CONNECTION_STR y EVENT_HUB_NAME con tus valores reales.")
    else:
        try:
            print(f"Starting continuous data sending every {SEND_INTERVAL_SECONDS} seconds...")
            print(f"Target Event Hub: {EVENT_HUB_NAME}")
            print("Press Ctrl+C to stop.")
            asyncio.run(main_loop())
        except KeyboardInterrupt:
            print("\nExecution stopped by user (Ctrl+C).")
        except Exception as e:
            print(f"\nAn unexpected error stopped the execution: {e}")
            exit(1)

🚀 Ejecución del script y conexión con el Eventstream

▶️ Ejecución del script en local

Una vez configurado correctamente el script, se puede ejecutar desde consola:

python src/scripts/binance-api-ticker-price.py

El script comenzará a realizar ciclos cada segundo, extrayendo datos de la API pública de Binance y enviándolos al Azure Event Hub configurado. Se mostrará información por consola sobre los ciclos y el número de eventos enviados.

✅ Comprobación de recepción de eventos en Microsoft Fabric

Para comprobar que los datos están llegando correctamente:

Accede a tu Eventstream en Microsoft Fabric.
En el menú superior, haz clic en "En directo / Live".
Deberías comenzar a ver eventos con la siguiente estructura:

🔗 Conexión del Eventstream con un Eventhouse (KQL database)

Para persistir y consultar los datos, se puede conectar el Eventstream con un Eventhouse de la siguiente manera:

En el Eventstream, haz clic en "Add destination". Lo puedes hacer desde el menú superior o desde la interfaz gráfica.
Selecciona Eventhouse.
Configuramos el destino:
- Data ingestion mode: Direct ingestion
- Destination name: Crypto-Eventhouse
- Seleccionamos el workspace y eventhouse creado previamente.
Guarda la configuración.
Publica los cambios del eventstream.

Una vez se hayan publicado los cambios, aparecerá el destino Eventhouse en rojo indicando que no está configurado.
Clicamos en configurar.
Creamos una nueva tabla con el nombre Crypto_RAW
En la siguiente ventana, veremos una previsualización de los datos y como serán almacenados en la tabla del Eventhouse.

Si cambiamos el valor de Nested levels a 2, podemos ver como los datos que vienen en formato JSON son extraídos correctamente, es decir, el precio de la criptomoneda por un lado y el identificador de la criptomoneda por otro. Además, el valor de serverTime también se ha convertido automaticamente a formato datetime.

Esto es interesante conocerlo porque supone una modificación de los datos en tiempo real conforme se van recibiendo para almacenarlos correctamente en el Eventhouse. En nuestro caso, queremos almacenar los datos en crudo para limpiarlos y modificarlos más adelante en la capa silver.
Volvemos a modificar el valor de Nested Levels a 1
Clicamos en el icono del lápiz de la esquina derecha para modificar las columnas.
Configuramos de la siguiente forma:
Aplicamos los cambios.
Finalizamos la configuración.

A partir de este momento, todos los eventos que lleguen al Eventstream se almacenarán en la tabla definida dentro del Eventhouse.

📊 Visualización de los datos en el Eventhouse

Una vez conectado el Eventstream con un Eventhouse y creada la tabla, es fundamental validar que los datos se están recibiendo y almacenando correctamente. Esto puede hacerse fácilmente mediante una consulta KQL desde la base de datos.

Desde el área de trabajo de Microsoft Fabric:

Accede a tu KQL Database (Eventhouse).
Selecciona la tabla Crypto_RAW.
Verificamos que los datos se están almacenando correctamente desde la previsualización.

Actualiza el environment de tus notebooks de manera programática

Kilian Baccaro Salinas — Mon, 08 Sep 2025 17:13:01 GMT

Cuando trabajamos con muchos notebooks en Microsoft Fabric, mantener actualizado el environment asociado puede ser tedioso si tenemos que hacerlo manualmente uno por uno.

Por suerte, gracias a la librería Semantic-Link-Labs, podemos automatizar esta tarea y actualizar el environment de nuestros notebooks de manera sencilla y programática.

Semantic-Link-Labs nos ofrece varias funciones muy útiles para esta tarea:

list_notebooks → lista los notebooks dentro de un área de trabajo.
list_environments → muestra los entornos definidos en el workspace (o en otro que especifiques).
get_notebook_definition → obtiene la definición completa de un notebook.
update_notebook_definition → actualiza un notebook con los cambios que necesitemos.

Para la prueba, tengo en un área de trabajo un environment y un notebook asociado a este

Lo primero es instalar la librería en nuestro notebook:

%pip install semantic-link-labs

Obteniendo la definición del notebook

Utilizamos la función get_notebook_definition para ver el contenido del notebook:

import sempy_labs as labs

labs.get_notebook_definition(notebook_name="Notebook 1", format="ipynb")

La salida será un JSON parecido a este:

{
    "cells": [
        {
            "cell_type": "code",
            "source": [
                "# Welcome to your new notebook\\n",
                "# Type here in the cell editor to add code!\\n"
            ],
            "outputs": [],
            "execution_count": null,
            "metadata": {
                "microsoft": {
                    "language": "python",
                    "language_group": "synapse_pyspark"
                }
            },
            "id": "9e2b1999-7e8f-4163-a6cd-33a4fe23ffff"
        }
    ],
    "metadata": {
        "kernel_info": {
            "name": "synapse_pyspark"
        },
        "kernelspec": {
            "name": "synapse_pyspark",
            "display_name": "synapse_pyspark"
        },
        "language_info": {
            "name": "python"
        },
        "microsoft": {
            "language": "python",
            "language_group": "synapse_pyspark",
            "ms_spell_check": {
                "ms_spell_check_language": "en"
            }
        },
        "nteract": {
            "version": "nteract-front-end@1.0.0"
        },
        "spark_compute": {
            "compute_id": "/trident/default",
            "session_options": {
                "conf": {
                    "spark.synapse.nbs.session.timeout": "1200000"
                }
            }
        },
        "dependencies": {
            "environment": {
                "environmentId": "49277563-ad74-49a1-b791-247964afa14a",
                "workspaceId": "69445ea5-e0e6-456d-810b-a291e9b8cae9"
            }
        }
    },
    "nbformat": 4,
    "nbformat_minor": 5
}

La parte que nos interesa está dentro de dependencies, donde se encuentra el environment asignado al notebook.
Si tuvieras un Lakehouse vinculado, también aparecería aquí.

Eliminando el environment

Si lo que queremos es cambiar el environment al predeterminado, basta con eliminar la referencia actual:

import sempy_labs as labs
import json

notebook_name = "Notebook 1"

definition = labs.get_notebook_definition(notebook_name=notebook_name, format="ipynb")
definition = json.loads(definition)

if (
    "metadata" in definition and
    "dependencies" in definition["metadata"] and
    "environment" in definition["metadata"]["dependencies"]
):
    print(f"Actualizando notebook: {notebook_name}")
    definition["metadata"]["dependencies"]["environment"] = {}

    updated_definition_str = json.dumps(definition)

    labs.update_notebook_definition(name =notebook_name, notebook_content =updated_definition_str, format="ipynb")

Al abrir el notebook de nuevo, verás que aparece el environment por defecto.

Asignando un nuevo environment

También podemos cambiar el notebook para que apunte a otro environment (incluso en otra área de trabajo):

notebook_name = "Notebook 1"
environment_id = "38d5bb5e-897e-44d7-927c-e902590da88c"
workspace_id = "e42acae6-20f9-4929-a0b8-345b096b0217"

definition = labs.get_notebook_definition(notebook_name=notebook_name, format="ipynb")
definition = json.loads(definition)

if (
    "metadata" in definition and
    "dependencies" in definition["metadata"] and
    "environment" in definition["metadata"]["dependencies"]
):
    print(f"Actualizando notebook: {notebook_name}")

    definition["metadata"]["dependencies"]["environment"] = {"environmentId": environment_id, "workspaceId": workspace_id}
    updated_definition_str = json.dumps(definition)

    labs.update_notebook_definition(name =notebook_name, notebook_content =updated_definition_str, format="ipynb")

Al reabrir el notebook, verás el nuevo environment asignado.

¿Cómo puedo obtener el environmentId?

Con la función list_environments podemos listar fácilmente todos los entornos disponibles:

Si no pasamos ningún parámetro, se buscarán los environments en el área de trabajo actual.
También podemos especificar otro workspace si queremos reutilizar environments definidos en otro lugar.

Automatización para todos los notebooks de un área de trabajo

Si trabajamos en proyectos grandes con decenas o cientos de notebooks, lo ideal es automatizar el proceso. Con este ejemplo, actualizamos en bloque todos los notebooks de un área de trabajo:

notebooks_df = labs.list_notebooks()

for _, row in notebooks_df.iterrows():
    notebook_id = row["Notebook Id"]
    notebook_name = row["Notebook Name"]
    print(f"{notebook_id} - {notebook_name}")

    definition = labs.get_notebook_definition(notebook_name=notebook_name, format="ipynb")
    definition = json.loads(definition)

    if (
        "metadata" in definition and
        "dependencies" in definition["metadata"] and
        "environment" in definition["metadata"]["dependencies"]
    ):
        print(f"Actualizando notebook: {notebook_name}")

        definition["metadata"]["dependencies"]["environment"] = {}
        updated_definition_str = json.dumps(definition)

        labs.update_notebook_definition(
            name =notebook_name,
            notebook_content =updated_definition_str,
            format="ipynb"
        )
    else:
        print("Este notebook no tiene environment definido.")

¿Cuántos datos están siendo almacenados en mi OneLake?

Kilian Baccaro Salinas — Mon, 12 May 2025 16:47:57 GMT

Si estás metido en el mundo de Microsoft Fabric, seguro que ya conoces OneLake. Piensa en él como el "OneDrive de tus datos": un sitio único y para todos donde guardar la información de la empresa. Suena genial, ¿verdad? Centralizarlo todo facilita un montón la vida para organizar, compartir y no tener datos repetidos por todas partes. Pero claro, a medida que metes más y más proyectos y datos, te empiezas a preguntar: ¿Cuánto espacio estoy usando realmente y qué es lo que más pesa?

Y ojo, que responder a eso tiene su miga. Con un montón de workspaces, cada uno con sus cosas (Lakehouses, Warehouses, Modelos Semánticos, Bases de Datos KQL...), saber exactamente qué ocupa cada cosa es un pequeño lío.

Para abordar este desafío, he desarrollado un notebook de PySpark dentro de Microsoft Fabric que nos permite automatizar este proceso, ofreciendo una visión detallada del uso del almacenamiento en OneLake.

El desafío: Ver claro entre tanta cosa

OneLake es la casa de muchos tipos de artefactos de Fabric. Algunos, como las Lakehouses, son como carpetas y archivos que puedes ver y tocar fácilmente. Pero otros, como los Modelos Semánticos o los Warehouses, son un poco más "caja negra"; su tamaño no es solo sumar archivos, sino que Fabric los maneja a su manera.

Ir mirando esto a mano, workspace por workspace, es una locura, y más si tu empresa tiene unos cuantos.

La solución: Un notebook de PySpark al rescate

El notebook aprovecha el poder de PySpark en el entorno de Microsoft Fabric y las capacidades de la librería sempy para interactuar programáticamente con los workspaces y artefactos. El proceso general que sigue el notebook es el siguiente:

Listar Workspaces: Utiliza sempy.fabric.list_workspaces() para obtener una lista de todos los workspaces a los que el usuario tiene acceso.
Listar artefactos por workspace: Para cada workspace, emplea sempy.fabric.list_items() para inventariar todos los artefactos.
Determinar el tipo de artefacto: Identifica el tipo de cada artefacto (Lakehouse, Warehouse, SemanticModel, KQLDatabase, etc.).
Calcular el tamaño:
- Modelos Semánticos: Intenta obtener el tamaño utilizando la función sempy_labs.get_semantic_model_size(). Es importante destacar que el usuario debe disponer de permisos para ejecutar esta función. Si esta función falla o no devuelve un tamaño, se registra un marcador.
- Artefactos basados en archivos (Lakehouse, Warehouse, etc.): Para artefactos cuyo almacenamiento es directamente accesible como archivos y carpetas en OneLake (a través de rutas ABFSS), el notebook implementa una función recursiva (get_file_details_recursive). Esta función utiliza notebookutils.fs.ls() para navegar por la estructura de directorios del artefacto y sumar el tamaño de cada archivo individual.
- Otros tipos de artefactos: Para tipos de artefactos donde el tamaño no se obtiene directamente de los archivos ABFSS (por ejemplo, Report, Notebook, DataPipeline), el script actualmente los omite o permite añadir un marcador de tamaño cero, ya que su "tamaño" en OneLake suele ser despreciable en comparación con los artefactos de datos.
Almacenar en una tabla delta: Finalmente, el DataFrame se guarda en una tabla Delta dentro de un Lakehouse.

import sempy_labs as labs
import sempy.fabric as fabric
import pandas as pd
from pyspark.sql.types import *
from pyspark.sql.functions import col

def get_file_details_recursive(folder_path):
    """
    Escanea recursivamente una carpeta en OneLake y devuelve una lista con detalles
    (ruta completa ABFSS, tamaño en bytes) de cada archivo encontrado.

    Utiliza mssparkutils.fs.ls para listar el contenido.

    Args:
        folder_path (str): La ruta ABFSS de la carpeta a escanear.
                           Ej: "abfss://@onelake.dfs.fabric.microsoft.com//Files/"

    Returns:
        list: Una lista de diccionarios [{'path': str, 'size_bytes': int}],
              o una lista vacía si ocurre un error al listar la carpeta
              o si la carpeta está vacía o no contiene archivos directamente.
              Los errores en subcarpetas se registran pero no detienen el escaneo general.
    """

    file_details_list = []
    try:
        # print(f"DEBUG: Escaneando carpeta: {folder_path}") # Descomentar para depuración detallada
        items = notebookutils.fs.ls(folder_path)

        for item in items:
            # Asegurarse de que la ruta del item es completa (ABFSS)
            item_path_full = item.path
            if not item_path_full.startswith("abfss://"):
                 # Si la ruta no es completa, intentar reconstruirla (puede no ser siempre necesario/correcto)
                 # Esto es una suposición basada en cómo a veces se devuelven las rutas
                 if folder_path.endswith('/'):
                     item_path_full = folder_path + item.name
                 else:
                     item_path_full = folder_path + '/' + item.name

            if not item.isDir:
                # Es un archivo, añadir sus detalles
                file_details_list.append({'path': item_path_full, 'size_bytes': item.size})
            else:
                # Es un directorio, llamar recursivamente si no es la misma carpeta (evitar bucles)
                # Comprobamos la ruta completa normalizada para evitar errores por barras finales
                current_folder_normalized = folder_path.rstrip('/')
                item_folder_normalized = item_path_full.rstrip('/')

                if item_folder_normalized != current_folder_normalized:
                    sub_dir_files = get_file_details_recursive(item_path_full)
                    if sub_dir_files:
                        file_details_list.extend(sub_dir_files)

    except Exception as e:
        # Imprime el error específico de esta carpeta pero permite que el proceso general continúe.
        # No se añadirán archivos de esta ruta específica si falla el 'ls'.
        #print(f"WARN: Error al escanear la carpeta '{folder_path}': {e}. Omitiendo esta ruta.")
        print(f"WARN: Error al escanear la carpeta '{folder_path}'. Omitiendo esta ruta.")
        return [] # Devuelve lista vacía en caso de error en esta carpeta específica

    return file_details_list

# Lista para almacenar los datos de todos los archivos encontrados
all_files_data = []

# Contador para mostrar progreso
processed_workspaces = 0
total_workspaces = 0

print("Iniciando escaneo de workspaces...")

try:
    # Obtener todos los workspaces accesibles
    workspaces_pd = fabric.list_workspaces()
    total_workspaces = len(workspaces_pd)
    print(f"Se encontraron {total_workspaces} áreas de trabajo accesibles.")

    # Iterar sobre cada workspace encontrado
    for ws_index, ws_row in workspaces_pd.iterrows():
        workspace_name = ws_row['Name']
        workspace_id = ws_row['Id']
        processed_workspaces += 1
        print(f"\n[{processed_workspaces}/{total_workspaces}] 📂 Procesando Workspace: '{workspace_name}' (ID: {workspace_id})")

        try:
            # Listar todos los artefactos (items) dentro del workspace actual
            items_pd = fabric.list_items(workspace=workspace_id)
            print(f"  -> Se encontraron {len(items_pd)} artefactos escaneables en '{workspace_name}'.")

            # Iterar sobre cada artefacto del workspace
            for item_index, item_row in items_pd.iterrows():
                artifact_type = item_row['Type']
                artifact_name = item_row['Display Name']
                artifact_id = item_row['Id']

                # Construir la ruta raíz ABFSS para el artefacto
                # Nota: La estructura interna puede variar. Generalmente '/Files' o '/Tables' son puntos de entrada comunes.
                #       Probamos escanear desde la raíz del artefacto.
                artifact_root_path = f"abfss://{workspace_id}@onelake.dfs.fabric.microsoft.com/{artifact_id}"

                print(f"    -> 🔍 Escaneando artefacto: '{artifact_name}' (Tipo: {artifact_type}, ID: {artifact_id})")

                # Inicializar la lista de archivos para ESTE artefacto en CADA iteración
                files_in_artifact = []

                # Variable para almacenar el tamaño si se obtiene de forma especial (p.ej. Semantic Model)
                special_size_bytes = -1 # Usar -1 como indicador inicial (no determinado/error)

                try:
                    # Obtener la lista de archivos y sus tamaños recursivamente
                    if artifact_type == 'SemanticModel':
                        print(f"      -> Intentando obtener tamaño para Semantic Model '{artifact_name}'...")
                        size = labs.get_semantic_model_size(artifact_id, workspace_id)
                        if size is not None:
                            special_size_bytes = int(size)

                        print(f"      => Tamaño obtenido de sempy_labs: {special_size_bytes} bytes.")

                        all_files_data.append({
                                "WorkspaceID": workspace_id, 
                                "WorkspaceName": workspace_name,
                                "ArtifactType": artifact_type, 
                                "ArtifactName": artifact_name, 
                                "ArtifactID": artifact_id,
                                "ScannedRootPath": artifact_root_path,
                                "FilePath": f"{artifact_root_path}",
                                "SizeBytes": special_size_bytes,
                                "SizeMB": float(special_size_bytes / (1024 * 1024)) if special_size_bytes > 0 else 0.0
                        })
                    else:
                        files_in_artifact = get_file_details_recursive(artifact_root_path + "/") # Añadir '/' por si acaso es necesario

                    if files_in_artifact and artifact_type != 'SemanticModel':
                        print(f"      => Se encontraron {len(files_in_artifact)} archivos para '{artifact_name}'.")
                        # Procesar y añadir la información de cada archivo a la lista global
                        for file_detail in files_in_artifact:
                            file_size_bytes = int(file_detail['size_bytes'])
                            # Evitar división por cero si el tamaño es 0
                            file_size_mb = float(file_size_bytes / (1024 * 1024)) if file_size_bytes > 0 else 0.0

                            all_files_data.append({
                                "WorkspaceID": workspace_id,
                                "WorkspaceName": workspace_name,
                                "ArtifactType": artifact_type,
                                "ArtifactName": artifact_name,
                                "ArtifactID": artifact_id,
                                "ScannedRootPath": artifact_root_path, # Ruta base desde donde se escaneó
                                "FilePath": file_detail['path'],       # Ruta completa del archivo
                                "SizeBytes": file_size_bytes,
                                "SizeMB": file_size_mb
                            })
                    else:
                        # Si no se encontraron archivos (puede ser normal para ciertos tipos o si está vacío)
                        print(f"      => No se encontraron archivos accesibles vía ABFSS para '{artifact_name}' o está vacío.")

                except Exception as scan_error:
                    # Captura errores durante el escaneo de un artefacto específico
                    print(f"      => ERROR escaneando el artefacto '{artifact_name}' en '{artifact_root_path}'.")
                    #print(f"      => ERROR escaneando el artefacto '{artifact_name}' en '{artifact_root_path}'. Error: {scan_error}")
                    all_files_data.append({
                                "WorkspaceID": workspace_id,
                                "WorkspaceName": workspace_name,
                                "ArtifactType": artifact_type,
                                "ArtifactName": artifact_name,
                                "ArtifactID": artifact_id,
                                "ScannedRootPath": artifact_root_path,
                                "FilePath": "ERROR_SCANNING_ARTIFACT",
                                "SizeBytes": -1, # Indicador de error
                                "SizeMB": -1.0
                            })

        except Exception as item_error:
            # Captura errores al listar los artefactos de un workspace
            print(f"  -> ERROR al listar artefactos para el workspace '{workspace_name}': {item_error}")
            continue # Continuar con el siguiente workspace

except Exception as ws_error:
    print(f"FATAL: Error crítico al obtener la lista de workspaces: {ws_error}")

print(f"\n📊 Escaneo completado. Se recopilaron {len(all_files_data)} registros de archivos.")

Notebook completo: GitHub

Beneficios

Esta tabla es un recurso valioso para:

Gobernanza del almacenamiento: Identificar qué workspaces, artefactos o incluso qué rutas específicas dentro de un Lakehouse están consumiendo más espacio.
Mantenimiento y limpieza: Detectar datos obsoletos, innecesariamente grandes o duplicados que podrían ser archivados o eliminados.
Informes y dashboards: Conectar Power BI directamente a esta tabla Delta para crear visualizaciones interactivas del uso del almacenamiento.
Automatización: Al ser un notebook, puede programarse su ejecución periódica para tener un seguimiento continuo del crecimiento del almacenamiento.

Consideraciones y Limitaciones

Es importante tener en cuenta algunos aspectos:

La función get_semantic_model_size puede no devolver el tamaño si el usuario no tiene los permisos suficientes.
Tamaño lógico vs. físico: Para artefactos como Modelos Semánticos en modo Direct Lake o Warehouses, la suma de los tamaños de los archivos Delta subyacentes accesibles vía ABFSS puede no coincidir exactamente con el tamaño lógico que Fabric gestiona internamente o reporta en otras interfaces. El notebook proporciona el tamaño de lo "visible" y accesible desde Spark a través del sistema de archivos.
Permisos: La identidad que ejecuta el notebook (el usuario o un Service Principal) necesita los permisos adecuados para listar workspaces, ítems dentro de esos workspaces y, crucialmente, acceder a las rutas ABFSS de los artefactos.
Rendimiento: En entornos con una cantidad masiva de workspaces, artefactos y archivos, la ejecución del notebook podría llevar un tiempo considerable. Se podrían explorar optimizaciones adicionales si esto se convierte en un problema.
Tipos de Artefactos: El script se enfoca en artefactos que almacenan volúmenes significativos de datos. Otros tipos, como informes o flujos de datos, generalmente no se escanean por su tamaño de archivo individual.

Referencias

NotebookUtils (former MSSparkUtils) for Fabric - Microsoft Fabric | Microsoft Learn

How much data is being stored in my Fabric OneLake (Lakehouse files and tables) - FourMoo | Microsoft Fabric | Power BI

Lakehouse Folder Size Calculation

Nuevo conector de datos meteorológicos en Tiempo Real

Kilian Baccaro Salinas — Sun, 27 Apr 2025 16:15:35 GMT

En la última publicación de las novedades de Microsoft Fabric, en el blog de Marzo, en la parte de Real-Time Intelligence anunciaron nuevos conectores de origen para el eventstream.

Entre estos nuevos 5 orígenes encontramos el conector de Real-Time Weather (origen meteorológico en tiempo real). Este conector nos permite obtener datos meteorológicos de diferentes ubicaciones seleccionando una ciudad específica o coordenadas de latitud y longitud para recibir información meteorológica.

Los datos que se obtienen son de temperatura, humedad y velocidad del viento.

Una vez seleccionado el conector, se debe especificar la localización de la que queremos obtener los datos meteorológicos

Los mayoría de los datos están en formato JSON

Aunque esto sabemos que no es problema con KQL y podemos realizar las transformaciones necesarias en tiempo real para desgranar la información de estas columnas

De esta forma, podemos construir un Dashboard con información meteorológica en tiempo real de nuestra zona de una manera rápida y sencilla :)

Referencias

Fabric March 2025 Feature Summary | Microsoft Fabric Blog | Microsoft Fabric

New Eventstream sources: MQTT, Solace PubSub+, Azure Data Explorer, Weather & Azure Event Grid  | Microsoft Fabric Blog | Microsoft Fabric

Adición de un origen meteorológico en tiempo real a un eventstream - Microsoft Fabric | Microsoft Learn

Semantic Link: Automatiza la creación de tu arquitectura Medallion

Kilian Baccaro Salinas — Sun, 06 Apr 2025 14:35:19 GMT

En mi artículo anterior, exploramos cómo automatizar la creación de la arquitectura Medallion en Microsoft Fabric utilizando PowerShell y la API de Microsoft Fabric (Microsoft Fabric API + PowerShell: Automatiza la creación de tu arquitectura Medallion). Hoy, te traigo una nueva versión del proceso, pero esta vez utilizando Semantic Link y un notebook en Microsoft Fabric.

El código tiene la misma funcionalidad que el anterior, automatizar la creación de las áreas de trabajo y lakehouses necesarios para nuestra arquitectura medallion. Además, también tienes la posibilidad de almacenar los secretos en Azure Key Vault.

La configuración es sencilla. En una celda encontrarás todas las variables necesarias que deberás de configurar con tus valores. En el caso de que azureKeyVault sea True, deberás de establecer valor en las siguientes variables y deberás crear una app registration con permisos de Azure Key Vault para poder almacenar los secretos. Los valores los puedes poner directamente en el código.

La variable medallionInOneWorkspace indica si queremos crear una sola área de trabajo y todos los lakehouses de cada capa en él. En caso contrario, se creará un área de trabajo y lakehouse por capa.

El código lo podéis encontrar en GitHub a través del siguiente enlace:

blogs/Microsoft Fabric/Semantic Link (SemPy)_ Automatiza la creación de tu arquitectura Medallion.ipynb at main · kilianbs/blogs

Update Policies en KQL: Transformación de datos en tiempo real

Kilian Baccaro Salinas — Fri, 07 Mar 2025 15:52:32 GMT

Las update policies (directivas de actualización) en KQL son una funcionalidad de Microsoft Fabric que te permite transformar y enriquecer los datos cada vez que se insertan datos en una tabla. En lugar de tener que ejecutar transformaciones posteriores, las update policies aplican una lógica predefinida automáticamente cada vez que se realiza una inserción.

Cuando se define una update policy en una tabla de destino, se asocia una consulta KQL que se ejecuta automáticamente cada vez que se insertan nuevos registros en la tabla origen. Esta consulta transforma los datos según la lógica establecida y los inserta en la tabla de destino.

Update policies en acción

Como siempre, con ejemplos prácticos se entiende todo mucho mejor.

Supongamos que tenemos una tabla llamada ISSGeoLoc con el siguiente esquema:

.create table ISSGeoLoc (timestamp: int, iss_position: dynamic)

El campo iss_position contiene información en formato JSON, y queremos extraer ciertos atributos y guardarlos en una tabla estructurada. El campo timestamp viene en formato Unix y queremos transformarlo en datetime.

Creamos la tabla de destino SilverISSGeoLoc:

.create table SilverISSGeoLoc (Timestamp:datetime, latitude: real, longitude:real)

A continuación, creamos la función. Aquí es donde se define la consulta con la lógica que aplicaremos a cada dato que se inserte en la tabla origen.

.create function LoadISSGeoLocToSilver {
    ISSGeoLoc
    | extend timestamp = unixtime_seconds_todatetime(timestamp), j = parse_json(iss_position)
    | extend latitude = toreal(j.latitude), longitude = toreal(j.longitude)
    | project timestamp, latitude, longitude
}

Ahora, establecemos la directiva de actualización para invocar la función que hemos creado:

.alter table SilverISSGeoLoc policy update
@'[{ "IsEnabled": true, "Source": "ISSGeoLoc", "Query": "LoadISSGeoLocToSilver", "IsTransactional": true, "PropagateIngestionProperties": false}]'

IsEnabled: Una directiva de actualización puede estar habilitada o deshabilitada. Esto es bueno cuando se trabaja con cambios en la política de actualización, ya que a veces necesitamos una pausa en el proceso de carga para hacer los cambios.
Source: Nombre de la tabla que desencadena la invocación de la política de actualización
Query: Referencia a la función KQL que se ha definido. Se puede escribir la consulta KQL aquí pero a la larga, el mantenimiento no será fácil.
IsTransactional: Establece si la política de actualización es transaccional o no, por defecto es false. Si esto se establece a true, entonces si ocurre un error en la carga, toda la transacción se revertirá y no se cargará nada.
PropagateIngestionProperties: Establece si las propiedades especificadas durante la ingesta en la tabla de origen, como las etiquetas de extensión y la hora de creación, se aplican a la tabla de destino.

Con esta configuración, cada vez que se inserten registros en ISSGeoLoc, la update policy transformará los datos y los insertará automáticamente en SilverISSGeoLoc.

Para verificar los datos:

SilverISSGeoLoc
| take 100

Ventajas y consideraciones de las update policies en KQL

Ventajas

Automatización de transformaciones: Una vez definidas, las update policies se ejecutan automáticamente, eliminando la necesidad de tareas de transformación posteriores.
Eficiencia y rendimiento: Reducen la latencia al aplicar transformaciones en el momento de la inserción, evitando procesos por lotes adicionales.
Simplificación de arquitectura: Al minimizar la necesidad de pipelines ETL separados, la infraestructura de datos se vuelve más simple y fácil de mantener.
Datos siempre preparados: Las tablas derivadas siempre contienen datos transformados y listos para su análisis.

Consideraciones

Consumo de recursos: Dado que las transformaciones se realizan al insertar datos, es importante monitorear el impacto en el rendimiento, especialmente en cargas masivas.
Complejidad de la lógica: Update policies demasiado complejas pueden ralentizar la inserción de datos; conviene mantenerlas lo más eficientes posible.
Dependencia de la tabla origen: Cambios en el esquema de la tabla origen pueden afectar la update policy y requerir ajustes.

Referencias

Update policy overview - Kusto | Microsoft Learn

¿Qué es Liquid Clustering y por qué es un game changer?

Kilian Baccaro Salinas — Tue, 25 Feb 2025 16:13:40 GMT

Liquid Clustering es una técnica introducida por Delta Lake diseñada para superar las limitaciones de las estrategias de particionamiento y ordenamiento de datos, como Z-Ordering. Esta técnica se centra en maximizar la eficiencia del almacenamiento y la organización de datos al minimizar la necesidad de configuraciones manuales y tareas recurrentes para reescribir los archivos de datos existentes.

Tanto con particionamiento, Z-Order o Liquid Clustering, lo que buscamos es una mayor velocidad en las consultas y un almacenamiento de datos más eficiente. Sin embargo, la gran diferencia de esta última es la flexibilidad que ofrece. Con Liquid Clustering no es necesario saber cuales van a ser las columnas que los usuarios van a utilizar para filtrar datos y además, al cambiar las claves escogidas, no necesita reescribir los datos de la tabla como en el caso de Z-Order.

Además, Liquid Clustering utiliza un algoritmo dinámico basado en las estadísticas del archivo para optimizar la distribución de los datos y minimizar los problemas causados por desbalanceo de archivos o skew.

Liquid Clustering está disponible para Delta Lake 3.1.0 y versiones superiores. Runtime Version 1.3 de Spark en Microsoft Fabric.

¿Cómo almacena y lee Liquid Clustering los archivos Parquet?

Almacenamiento:
- Cuando activas Liquid Clustering, Delta Lake organiza los datos en clústeres utilizando rangos de valores (no carpetas físicas como en las particiones).
- Estos clústeres están identificados por estadísticas de archivo (mínimos, máximos, etc…) que se almacenan en el transaction log de Delta.
Lectura:
- Durante una consulta, Liquid Clustering utiliza las estadísticas almacenadas para hacer un pruning de archivos eficiente, es decir, lee únicamente los archivos relevantes para los valores solicitados en la consulta.
- Esto elimina la necesidad de escanear archivos completos innecesariamente y reduce significativamente el tiempo de respuesta.

¿Cuándo utilizar Liquid Clustering?

Liquid Clustering es especialmente útil cuando:

Se insertan nuevos datos regularmente a la tabla
Existen datos con alta cardinalidad o sin una partición clara
Los patrones de consulta cambian con el tiempo
Se necesita soportar escrituras concurrentes

❗

Liquid Clustering no es compatible con la partición estilo Hive ni con Z-Order

Beneficios de Liquid Clustering

Eficiencia en consultas:
- Mejora el rendimiento al reducir la cantidad de archivos que deben ser leídos gracias a las estadísticas de rangos.
Manejo de cardinalidad alta:
- Es ideal para datos donde las particiones tradicionales generarían demasiadas carpetas pequeñas, lo que afectaría el rendimiento.
Evolución automática:
- Permite reorganizar los datos con operaciones de optimización, manteniéndolos eficientemente organizados a medida que crecen.
Flexibilidad:
- No necesitas decidir de antemano una estructura de partición, lo que simplifica el diseño inicial.
Evita problemas de skew:
- Rebalancea los datos automáticamente para evitar concentraciones de valores en pocos archivos.

¿Cómo utilizar Liquid Clustering?

Creando una tabla vacía

CREATE TABLE liquid_clustering_table
(
    id int,
    valor int,
    categoria string,
    fecha date
)
CLUSTER BY
(
    categoria,
    fecha
);

Utilizando CTAS

spark.sql("CREATE TABLE liquid_clustering_table CLUSTER BY (categoria, fecha) AS SELECT * FROM base_table")

💡

Solo se permiten 4 columnas por las que clusterizar

Modificación de las columnas clusterizadas

En el caso de que se quieran modificar las columnas, se puede hacer con el siguiente comando:

ALTER TABLE liquid_clustering_table CLUSTER BY (categoria)

Cuando se cambian las columnas de clustering, todas las nuevas escrituras de datos y operaciones OPTIMIZE seguirán las nuevas columnas de clustering. Los datos existentes no se reescriben.

Desactivar Liquid Clustering

También se puede desactivar la funcionalidad Liquid Clustering pero esta operación no reescribe los datos que ya han sido clusterizados, sino que evita que los nuevos datos y las operaciones OPTIMIZE utilicen las columnas clusterizadas para organizar los datos.

ALTER TABLE liquid_clustering_table CLUSTER BY NONE

Demo Time!

He realizado una comparativa con diferentes técnicas para visualizar el impacto de cada una de ellas a la hora de consultar los datos. Las comparativas son:

Tabla delta
Tabla delta con particionado
Tabla delta con Z-Order
Tabla delta con Liquid Clustering

Comparativas

Dataset

Los datos que he utilizado son los de Yellow Taxi Trip Data que se pueden obtener desde la siguiente web: Raw Data - TLC

El conjunto de datos es de 443 millones de registros con la siguiente estructura:

Creación de las tablas

# Crear tabla Delta sin partición
df.write.format("delta").mode("overwrite").saveAsTable("nyc_yellow_taxi_trip_data_no_partition")

# Crear tabla Delta particionada por nyc_year
df.write.format("delta").partitionBy("nyc_year").mode("overwrite").saveAsTable("nyc_yellow_taxi_trip_data_partitioned")

# Crear tabla Delta con partición y Z-Order
df.write.format("delta").mode("overwrite").saveAsTable("nyc_yellow_taxi_trip_data_zorder")

spark.sql(f"OPTIMIZE nyc_yellow_taxi_trip_data_zorder ZORDER BY (nyc_year)")

# Crear tabla Delta para Liquid Clustering
spark.sql("CREATE TABLE nyc_yellow_taxi_trip_data_liquid_clustering CLUSTER BY (nyc_year, PULocationID, DOLocationID, passenger_count) AS SELECT * FROM nyc_yellow_taxi_trip_data_no_partition")

spark.sql("OPTIMIZE nyc_yellow_taxi_trip_data_liquid_clustering")

Comprobamos que se ha creado correctamente la tabla

Comparativa 1

from time import time
import matplotlib.pyplot as plt

# Crear una función para medir los tiempos de consulta
def measure_query_time(query):
    start_time = time()
    spark.sql(query).collect()  # Ejecutar la consulta
    end_time = time()
    return end_time - start_time

# Diccionario para almacenar los tiempos
query_times = {}

# Consultas
queries = {
    "simple_query": "SELECT count(1) as nrows FROM nyc_yellow_taxi_trip_data_no_partition WHERE nyc_year = 2018",
    "partition_query": "SELECT count(1) as nrows FROM nyc_yellow_taxi_trip_data_partitioned WHERE nyc_year = 2018",
    "zorder_query": "SELECT count(1) as nrows FROM nyc_yellow_taxi_trip_data_zorder WHERE nyc_year = 2018",
    "liquid_clustering_query": "SELECT count(1) as nrows FROM nyc_yellow_taxi_trip_data_liquid_clustering WHERE nyc_year = 2018",
}

# Ejecutar las consultas y medir tiempos
for query_name, query in queries.items():
    query_times[query_name] = measure_query_time(query)

# Mostrar los resultados
for query_name, exec_time in query_times.items():
    print(f"{query_name}: {exec_time:.2f} segundos")

# Crear un gráfico comparativo
plt.figure(figsize=(10, 6))
plt.bar(query_times.keys(), query_times.values(), color=['blue', 'orange', 'green', 'red'])
plt.ylabel("Tiempo de ejecución (segundos)")
plt.title("Comparativa de tiempos de consulta")
plt.show()

Comparativa 2

from time import time
import matplotlib.pyplot as plt

# Crear una función para medir los tiempos de consulta
def measure_query_time(query):
    start_time = time()
    spark.sql(query).collect()  # Ejecutar la consulta
    end_time = time()
    return end_time - start_time

# Diccionario para almacenar los tiempos
query_times = {}

# Consultas
queries = {
    "simple_query": "SELECT nyc_year, PULocationID, SUM(passenger_count) as passenger_count FROM nyc_yellow_taxi_trip_data_no_partition GROUP BY nyc_year, PULocationID",
    "partition_query": "SELECT nyc_year, PULocationID, SUM(passenger_count) as passenger_count FROM nyc_yellow_taxi_trip_data_partitioned GROUP BY nyc_year, PULocationID",
    "zorder_query": "SELECT nyc_year, PULocationID, SUM(passenger_count) as passenger_count FROM nyc_yellow_taxi_trip_data_zorder GROUP BY nyc_year, PULocationID",
    "liquid_clustering_query": "SELECT nyc_year, PULocationID, SUM(passenger_count) as passenger_count FROM nyc_yellow_taxi_trip_data_liquid_clustering GROUP BY nyc_year, PULocationID",
}

# Ejecutar las consultas y medir tiempos
for query_name, query in queries.items():
    query_times[query_name] = measure_query_time(query)

# Mostrar los resultados
for query_name, exec_time in query_times.items():
    print(f"{query_name}: {exec_time:.2f} segundos")

# Crear un gráfico comparativo
plt.figure(figsize=(10, 6))
plt.bar(query_times.keys(), query_times.values(), color=['blue', 'orange', 'green', 'red'])
plt.ylabel("Tiempo de ejecución (segundos)")
plt.title("Comparativa de tiempos de consulta")
plt.show()

Comparativa 3

from time import time
import matplotlib.pyplot as plt

# Crear una función para medir los tiempos de consulta
def measure_query_time(query):
    start_time = time()
    spark.sql(query).collect()  # Ejecutar la consulta
    end_time = time()
    return end_time - start_time

# Diccionario para almacenar los tiempos
query_times = {}

# Consultas
queries = {
    "simple_query": "SELECT COUNT(1) as nrows FROM nyc_yellow_taxi_trip_data_no_partition WHERE passenger_count > 2 AND PULocationID = 264",
    "partition_query": "SELECT COUNT(1) as nrows FROM nyc_yellow_taxi_trip_data_partitioned WHERE passenger_count > 2 AND PULocationID = 264",
    "zorder_query": "SELECT COUNT(1) as nrows FROM nyc_yellow_taxi_trip_data_zorder WHERE passenger_count > 2 AND PULocationID = 264",
    "liquid_clustering_query": "SELECT COUNT(1) as nrows FROM nyc_yellow_taxi_trip_data_liquid_clustering WHERE passenger_count > 2 AND PULocationID = 264",
}

# Ejecutar las consultas y medir tiempos
for query_name, query in queries.items():
    query_times[query_name] = measure_query_time(query)

# Mostrar los resultados
for query_name, exec_time in query_times.items():
    print(f"{query_name}: {exec_time:.2f} segundos")

# Crear un gráfico comparativo
plt.figure(figsize=(10, 6))
plt.bar(query_times.keys(), query_times.values(), color=['blue', 'orange', 'green', 'red'])
plt.ylabel("Tiempo de ejecución (segundos)")
plt.title("Comparativa de tiempos de consulta")
plt.show()

Comparativa 4

from time import time
import matplotlib.pyplot as plt

# Crear una función para medir los tiempos de consulta
def measure_query_time(query):
    start_time = time()
    spark.sql(query).collect()  # Ejecutar la consulta
    end_time = time()
    return end_time - start_time

# Diccionario para almacenar los tiempos
query_times = {}

# Consultas
queries = {
    "simple_query": "SELECT * FROM nyc_yellow_taxi_trip_data_no_partition WHERE PULocationID = 150 AND DOLocationID = 50 AND passenger_count > 1",
    "partition_query": "SELECT * FROM nyc_yellow_taxi_trip_data_partitioned WHERE PULocationID = 150 AND  DOLocationID = 50 AND passenger_count > 1",
    "zorder_query": "SELECT * FROM nyc_yellow_taxi_trip_data_zorder WHERE PULocationID = 150 AND  DOLocationID = 50 AND passenger_count > 1",
    "liquid_clustering_query": "SELECT * FROM nyc_yellow_taxi_trip_data_liquid_clustering WHERE PULocationID = 150 AND  DOLocationID = 50 AND passenger_count > 1",
}

# Ejecutar las consultas y medir tiempos
for query_name, query in queries.items():
    query_times[query_name] = measure_query_time(query)

# Mostrar los resultados
for query_name, exec_time in query_times.items():
    print(f"{query_name}: {exec_time:.2f} segundos")

# Crear un gráfico comparativo
plt.figure(figsize=(10, 6))
plt.bar(query_times.keys(), query_times.values(), color=['blue', 'orange', 'green', 'red'])
plt.ylabel("Tiempo de ejecución (segundos)")
plt.title("Comparativa de tiempos de consulta")
plt.show()

Conclusiones

Como se ha podido observar, cuando todas las consultas contienen la columna utilizada por todas las técnicas, en este caso la columna nyc_year, podemos observar que Liquid Clustering está por detrás del particionado y Z-Order, aunque no por una diferencia significativa. Sin embargo, cuando esta columna desaparece de la ecuación de las consultas, cosa que es muy probable que ocurra, Liquid Clustering destaca sobre las demás.

En términos generales, utilizar Liquid Clustering ofrece una mayor eficiencia y flexibilidad en comparación con las otras técnicas, lo que se traduce en mejoras significativas en el rendimiento de las consultas y el mantenimiento de datos. Por lo que, se recomienda utilizar esta técnica para todas las tablas Delta que su tamaño sea inferior a 10TB, que en ese caso es más recomendable utilizar particiones en conjunto con Z-Order.

Microsoft Fabric API + PowerShell: Automatiza la creación de tu arquitectura Medallion

Kilian Baccaro Salinas — Sun, 09 Feb 2025 08:46:25 GMT

En cada proyecto, siempre hay tareas repetitivas. Automatizarlas no solo optimiza el tiempo, sino que también simplifica el trabajo y mejora la eficiencia.

En proyectos con Microsoft Fabric y siguiendo las buenas prácticas con la famosa arquitectura medallion, lo primero que hacemos es crear las áreas de trabajo y lakehouses de cada capa. El siguiente código realiza estas tareas de forma automática y además, tiene la opción de guardar los secretos en Azure Key Vault.

El código necesita que las siguientes variables estén definidas para que se ejecute con éxito, en caso contrario, aparecerá un mensaje de error comentando la variable que se necesita configurar.

$tenantId
$subscriptionId
$projectName → Nombre que se asignará a las áreas de trabajo
$layers → Definición de las distintas capas que tendrá nuestro proyecto. Los valores se añadirán al nombre de las áreas de trabajo (projectName_layer)

Las variables tenantId y subscriptionId son necesarias porque de momento la conexión se realiza con usuario y no como service principal.

También existen unas variables que se pueden configurar dependiendo de lo siguiente:

$medallionInOneWorkspace: por defecto, su valor es false. Esta variable especifica si la arquitectura medallion se crea en distintas áreas de trabajo o en uno solo. Crear todo en una área de trabajo puede tener sentido para pruebas, donde el área de trabajo se llamará con el nombre de la variable $projectName y se crearán tantos lakehouses como capas definidas en la variable $layers
$azureKeyVault: por defecto, su valor es false. Si quieres almacenar los secretos en Azure Key Vault, debes configurar el valor a true y establecer el nombre del key vault donde se van a almacenar.

La variable $capacityId es “opcional”, si no sabes el id de la capacidad puedes dejarla en blanco y se listarán las capacidades disponibles para que selecciones la deseada

Ejemplo de resultado

Ejecución para crear una arquitectura medallion de 3 capas almacenando los secretos en Azure Key Vault.

Código

######################################################################################################################################
## Asegúrese de que los módulos Az están instalados en su sistema ejecutando 'Install-Module Az'
######################################################################################################################################

$tenantId = "tenantId"
$subscriptionId = "subscriptionId"
$capacityId = ""
$projectName = "projectName"
$layers = @("01_Bronze","02_Silver","03_Gold") # Cambiar nombre de las capas y añadir o quitar según necesidad
$medallionInOneWorkspace = $false
$azureKeyVault = $false
$azureKeyVaultName = "azureKeyVaultName"

if (-not $tenantId) {
    Write-Error "El parámetro 'tenantId' es obligatorio. Por favor, configúralo en el script antes de ejecutarlo."
    exit 1 
}
elseif (-not $subscriptionId){
    Write-Error "El parámetro 'subscriptionId' es obligatorio. Por favor, configúralo en el script antes de ejecutarlo."
    exit 1 
}
elseif (-not $projectName){
    Write-Error "El parámetro 'projectName' es obligatorio. Por favor, configúralo en el script antes de ejecutarlo."
    exit 1 
}
elseif (-not $layers -or $layers.Count -eq 0){
    Write-Error "El parámetro 'layers' es obligatorio y debe contener al menos un elemento."
    exit 1 
}

if($azureKeyVault -and -not $azureKeyVaultName)
{
    Write-Error "Error: Se requiere el parámetro 'azureKeyVaultName' cuando 'azureKeyVault' está habilitado (true). Configure 'azureKeyVaultName' y vuelva a ejecutar el script."
    exit 1
}


# URL base de la api de Microsoft Fabric
$baseFabricUrl = "https://api.fabric.microsoft.com"

# Inicio de sesión en Fabric
Connect-AzAccount -TenantId $tenantId -Subscription $subscriptionId | Out-Null

# Obtenemos el token
$fabricToken = (Get-AzAccessToken -ResourceUrl $baseFabricUrl).Token

# Crear cabeceras para las llamadas a la API
$headerParams = @{'Authorization'="Bearer {0}" -f $fabricToken}
$contentType = @{'Content-Type' = "application/json"}


$seleccionCapacidad = $false
$opcionesCapacidades = @()

if (-not $capacityId) {
    Write-Host "Es necesario especificar el id de la capacidad que se va a utilizar. A continuación se muestran las capacidades disponibles, selecciona cual quieres utilizar:"
    Write-Host ""
    $capacitiesUri = "{0}/v1/capacities" -f $baseFabricUrl
    $capacitiesList = Invoke-RestMethod -Headers $headerParams -ContentType $contentType -Method GET -Uri $capacitiesUri

    foreach ($capacity in $capacitiesList.value) {
        Write-Host "ID de la capacidad: $($capacity.id)"
        Write-Host "Nombre de la capacidad: $($capacity.displayName)"
        Write-Host "SKU: $($capacity.sku)"
        Write-Host "Region: $($capacity.region)"
        Write-Host "Estado: $($capacity.state)"
        Write-Host ""
        $opcionesCapacidades += $capacity.displayName
    }

    $opcionesCapacidades += "Salir"
    $valorSeleccionado = $null

    while (-not $seleccionCapacidad) {
        # Mostramos las opciones
        Write-Host "Por favor, escribe el nombre de la capacidad que quieres utilizar:"
        $opcionesCapacidades | ForEach-Object { Write-Host "- $_" }

        # Pedimos seleccionar la capacidad
        $valorSeleccionado = Read-Host "Ingrese su elección"

        # Validar la selección
        if ($opcionesCapacidades -contains $valorSeleccionado) {
            if ($valorSeleccionado -eq "Salir") {
                Write-Host "Has decidido finalizar la ejecución. Saliendo..." -ForegroundColor Red
                Exit
            } else {
                Write-Host "Has seleccionado: $valorSeleccionado" -ForegroundColor Green
                foreach ($capacity in $capacitiesList.value){
                    if($capacity.displayName -eq $valorSeleccionado){
                        $capacityId = $capacity.id
                        Write-Host "El ID de la capacidad seleccionada es: $($capacity.id)" -ForegroundColor Green
                    }
                }
                $seleccionCapacidad = $true

            }
        } else {
            Write-Host "Selección no válida. Inténtalo de nuevo." -ForegroundColor Yellow
        }
    }

}

Write-Host ""

$workspacesDisponibles = @()
$workspaceId = ""


# Si la variable es true, generamos todo en un área de trabajo
if ($medallionInOneWorkspace)
{
    ######################################################################################################################################
    ## ÁREA DE TRABAJO
    ##
    ## Se comprueba si existe el área de trabajo. Si existe, obtenemos el workspaceId, sino, creamos el área de trabajo
    ## y obtenemos el workspaceId.
    ##
    ######################################################################################################################################

    Write-Host "El script está configurado para crear todo en una área de trabajo"
    Write-Host "Inicializando la creación del área de trabajo..."
    Write-Host ""

    # Listamos las áreas de trabajo
    $workspacesUri = "{0}/v1/workspaces" -f $baseFabricUrl
    $workspacesList = Invoke-RestMethod -Headers $headerParams -ContentType $contentType -Method GET -Uri $workspacesUri
    foreach ($workspace in $workspacesList.value) 
    {
        $workspacesDisponibles += $workspace.displayName
    }

    if ($workspacesDisponibles -contains $projectName)
    {
        Write-Host "El workspace $($projectName) ya existe. Se crearán los objetos sobre esta área de trabajo."
        foreach ($workspace in $workspacesList.value) 
        {
            if($workspace.displayName -eq $projectName)
            {
                $workspaceId = $workspace.id
                Write-Host "Workspace Name: $($workspace.displayName)" -ForegroundColor Cyan
                Write-Host "Workspace ID: $($workspace.id)" -ForegroundColor Cyan
                Write-Host "Capacity ID: $($workspace.capacityId)" -ForegroundColor Cyan
                Write-Host ""
            }
        }

        if($azureKeyVault)
        {
            # Establecer los valores de los secretos del Workspace al KeyVault
            $body = @{
                "value" = $workspace.id
            } | ConvertTo-Json -Depth 1

            try{
                #Invoke-RestMethod -Headers $headerParams -Method Put -Uri "$($vaultUri)/secrets/fabric-workspace-id" -Body $body
                $secureStringValue = ConvertTo-SecureString -String $workspaceId -AsPlainText -Force
                Set-AzKeyVaultSecret -VaultName $azureKeyVaultName -Name "$($projectName)-workspace-id".ToLower().Replace("_", "-") -SecretValue $secureStringValue
            }
            catch {
                Write-Host "Error al establecer el valor del secreto: $($_.Exception.Message)" -ForegroundColor Red
                exit 1 
            }
        }        
    }
    else
    {
        Write-Host "Creando área de trabajo $($projectName)..."
        $body = @{
            "displayName" = $projectName;
            "capacityId" = $capacityId
        } | ConvertTo-Json -Depth 10

        try {
            $response = Invoke-RestMethod -Headers $headerParams -Method POST -Uri $workspacesUri -Body $body -ContentType "application/json"
            Write-Host "Área de trabajo creada con éxito:" -ForegroundColor Green
            Write-Host "ID del área de trabajo: $($response.id)" -ForegroundColor Green
            Write-Host ""
            $workspaceId = $response.id

            if($azureKeyVault)
            {
                # Establecer los valores de los secretos del Workspace al KeyVault
                $body = @{
                    "value" = $response.id
                } | ConvertTo-Json -Depth 1

                try{
                    #Invoke-RestMethod -Headers $headerParams -Method Put -Uri "$($vaultUri)/secrets/fabric-workspace-id" -Body $body
                    $secureStringValue = ConvertTo-SecureString -String $response.id -AsPlainText -Force
                    Set-AzKeyVaultSecret -VaultName $azureKeyVaultName -Name "$($projectName)-workspace-id".ToLower().Replace("_", "-") -SecretValue $secureStringValue
                }
                catch {
                    Write-Host "Error al establecer el valor del secreto: $($_.Exception.Message)" -ForegroundColor Red
                    exit 1 
                }
            }
        } 
        catch {
            Write-Host "Error al crear el área de trabajo: $($_.Exception.Message)" -ForegroundColor Red
            exit 1 
        }

    }

    ######################################################################################################################################
    ## LAKEHOUSE
    ##
    ## Se crean tantos lakehouse como capas se hayan definido con la nomenclatura (projectName)_(layer)
    ##
    ######################################################################################################################################

    Write-Host "Inicializando la creación de los lakehouses..."
    Write-Host ""

    $lakehousesUri = "{0}/v1/workspaces/{1}/lakehouses" -f $baseFabricUrl, $workspaceId
    $lakehousesList = Invoke-RestMethod -Headers $headerParams -ContentType $contentType -Method GET -Uri $lakehousesUri
    $lakehousesExistentes = @()

    try {
        $lakehousesList = Invoke-RestMethod -Headers $headerParams -ContentType $contentType -Method GET -Uri $lakehousesUri
        if (-not $lakehousesList) 
        {
            Write-Host "La API no devolvió ningún lakehouse." -ForegroundColor Yellow
        } 
        else 
        {
            foreach ($lakehouse in $lakehousesList.value) {
                $lakehousesExistentes += $lakehouse.displayName
            }
        }
    } 
    catch {
        Write-Host "Error al obtener los lakehouses: $($_.Exception.Message)" -ForegroundColor Red
    }

    foreach ($layer in $layers) 
    {
        $lakehouseName = "$projectName`_$layer`_lh"

        if($lakehousesExistentes -notcontains $lakehouseName)
        {
            Write-Host "Creando lakehouse $($lakehouseName)..."
            $body = @{
                "displayName" = $lakehouseName
            } | ConvertTo-Json -Depth 10

            try {
                $response = Invoke-RestMethod -Headers $headerParams -Method POST -Uri $lakehousesUri -Body $body -ContentType "application/json"
                Write-Host "Lakehouse $($lakehouseName) creado con éxito:" -ForegroundColor Green
                Write-Host "ID del lakehouse: $($response.id)" -ForegroundColor Green

                if($azureKeyVault)
                {
                    $body = @{
                        "value" = $response.id
                    } | ConvertTo-Json -Depth 1

                    try{
                        $secureStringValue = ConvertTo-SecureString -String $response.id -AsPlainText -Force
                        Set-AzKeyVaultSecret -VaultName $azureKeyVaultName -Name "$projectName-$layer-lh-id".ToLower().Replace("_", "-") -SecretValue $secureStringValue
                    }
                    catch {
                        Write-Host "Error al establecer el valor del secreto: $($_.Exception.Message)" -ForegroundColor Red
                        exit 1 
                    }
                }
            } 
            catch {
                Write-Host "Error al crear el lakehouse: $($_.Exception.Message)" -ForegroundColor Red
            }
        }
        else{
            Write-Host "El lakehouse $($lakehouseName) ya existe." -ForegroundColor Yellow
        }
        Write-Host ""
    }

}
# Si la variable es false, generamos cada capa en un área de trabajo distinta
else
{
    ######################################################################################################################################
    ## ÁREA DE TRABAJO
    ##
    ## Se comprueba si existe el área de trabajo. Si existe, obtenemos el workspaceId, sino, creamos el área de trabajo
    ## y obtenemos el workspaceId.
    ##
    ######################################################################################################################################

    Write-Host "El script está configurado para crear un área de trabajo para cada capa"
    Write-Host "Inicializando la creación del área de trabajo..."
    Write-Host ""

    # Listamos las áreas de trabajo
    $workspacesUri = "{0}/v1/workspaces" -f $baseFabricUrl
    $workspacesList = Invoke-RestMethod -Headers $headerParams -ContentType $contentType -Method GET -Uri $workspacesUri
    foreach ($workspace in $workspacesList.value) 
    {
        $workspacesDisponibles += $workspace.displayName
    }

    foreach ($layer in $layers) {
        $WorkspaceName = "$projectName`_$layer"

        if ($workspacesDisponibles -contains $WorkspaceName) {
            Write-Host "El workspace $($WorkspaceName) ya existe. Se crearán los objetos sobre esta área de trabajo."
            foreach ($workspace in $workspacesList.value) 
            {
                if($workspace.displayName -eq $WorkspaceName)
                {
                    $workspaceId = $workspace.id
                    Write-Host "Workspace Name: $($workspace.displayName)" -ForegroundColor Cyan
                    Write-Host "Workspace ID: $($workspace.id)" -ForegroundColor Cyan
                    Write-Host "Capacity ID: $($workspace.capacityId)" -ForegroundColor Cyan
                    Write-Host ""
                }
            }

            if($azureKeyVault)
            {
                # Establecer los valores de los secretos del Workspace al KeyVault
                $body = @{
                    "value" = $workspace.id
                } | ConvertTo-Json -Depth 1

                try{
                    $secureStringValue = ConvertTo-SecureString -String $workspaceId -AsPlainText -Force
                    Set-AzKeyVaultSecret -VaultName $azureKeyVaultName -Name "$($projectName)-$($layer)-workspace-id".ToLower().Replace("_", "-") -SecretValue $secureStringValue
                }
                catch {
                    Write-Host "Error al establecer el valor del secreto: $($_.Exception.Message)" -ForegroundColor Red
                    exit 1 
                }
            }
        } else {
            Write-Host "Creando área de trabajo $($WorkspaceName)..."
            $body = @{
                "displayName" = $WorkspaceName;
                "capacityId" = $capacityId
            } | ConvertTo-Json -Depth 10

            try {
                $response = Invoke-RestMethod -Headers $headerParams -Method POST -Uri $workspacesUri -Body $body -ContentType "application/json"
                Write-Host "Área de trabajo creada con éxito:" -ForegroundColor Green
                Write-Host "ID del área de trabajo: $($response.id)" -ForegroundColor Green
                Write-Host ""
                $workspaceId = $response.id

                if($azureKeyVault)
                {
                    # Establecer los valores de los secretos del Workspace al KeyVault
                    $body = @{
                        "value" = $response.id
                    } | ConvertTo-Json -Depth 1

                    try{
                        #Invoke-RestMethod -Headers $headerParams -Method Put -Uri "$($vaultUri)/secrets/fabric-workspace-id" -Body $body
                        $secureStringValue = ConvertTo-SecureString -String $response.id -AsPlainText -Force
                        Set-AzKeyVaultSecret -VaultName $azureKeyVaultName -Name "$($projectName)-$($layer)-workspace-id".ToLower().Replace("_", "-") -SecretValue $secureStringValue
                    }
                    catch {
                        Write-Host "Error al establecer el valor del secreto: $($_.Exception.Message)" -ForegroundColor Red
                        exit 1 
                    }
                }
            } 
            catch {
                Write-Host "Error al crear el área de trabajo: $($_.Exception.Message)" -ForegroundColor Red
                exit 1 
            }
        }


        ######################################################################################################################################
        ## LAKEHOUSE
        ##
        ## Se crea el lakehouse correspondiente de la capa
        ##
        ######################################################################################################################################

        Write-Host "Inicializando la creación del lakehouse..."
        Write-Host ""

        $lakehousesUri = "{0}/v1/workspaces/{1}/lakehouses" -f $baseFabricUrl, $workspaceId
        $lakehousesList = Invoke-RestMethod -Headers $headerParams -ContentType $contentType -Method GET -Uri $lakehousesUri
        $lakehousesExistentes = @()

        try {
            $lakehousesList = Invoke-RestMethod -Headers $headerParams -ContentType $contentType -Method GET -Uri $lakehousesUri
            if (-not $lakehousesList) 
            {
                Write-Host "La API no devolvió ningún lakehouse." -ForegroundColor Yellow
            } 
            else 
            {
                foreach ($lakehouse in $lakehousesList.value) {
                    $lakehousesExistentes += $lakehouse.displayName
                }
            }
        } 
        catch {
            Write-Host "Error al obtener los lakehouses: $($_.Exception.Message)" -ForegroundColor Red
        }


        $lakehouseName = "$projectName`_$layer`_lh"
        if($lakehousesExistentes -notcontains $lakehouseName)
        {
            Write-Host "Creando lakehouse $($lakehouseName)..."
            $body = @{
                "displayName" = $lakehouseName
            } | ConvertTo-Json -Depth 10

            try {
                $response = Invoke-RestMethod -Headers $headerParams -Method POST -Uri $lakehousesUri -Body $body -ContentType "application/json"
                Write-Host "Lakehouse $($lakehouseName) creado con éxito:" -ForegroundColor Green
                Write-Host "ID del lakehouse: $($response.id)" -ForegroundColor Green

                if($azureKeyVault)
                {
                    $body = @{
                        "value" = $response.id
                    } | ConvertTo-Json -Depth 1

                    try{
                        $secureStringValue = ConvertTo-SecureString -String $response.id -AsPlainText -Force
                        Set-AzKeyVaultSecret -VaultName $azureKeyVaultName -Name "$($projectName)-$($layer)-lh-id".ToLower().Replace("_", "-") -SecretValue $secureStringValue
                    }
                    catch {
                        Write-Host "Error al establecer el valor del secreto: $($_.Exception.Message)" -ForegroundColor Red
                        exit 1 
                    }
                }
            } 
            catch {
                Write-Host "Error al crear el lakehouse: $($_.Exception.Message)" -ForegroundColor Red
            }
        }
        else{
            Write-Host "El lakehouse $($lakehouseName) ya existe." -ForegroundColor Yellow
        }
        Write-Host ""


    }
}

Como obtener todas las configuraciones de la sesión de Spark + secretos de Azure Key Vault

Kilian Baccaro Salinas — Thu, 16 Jan 2025 17:37:40 GMT

Conocer como está configurada tu sesión de Spark es importante para debugging o para confirmar que los valores de los parámetros están bien configurados. Con el siguiente comando puedes obtener todas las configuraciones actuales de la sesión de Spark

spark.sparkContext.getConf().getAll()

spark.sparkContext accede al contexto de Spark de tu sesión
getConf() devuelve las configuraciones de Spark
getAll() devuelve una lista clave-valor con todas las configuraciones actuales de la sesión, incluyendo aquellas configuraciones por defecto y las que se hayan sobrescrito.

Para obtener un valor específico:

spark.conf.get("spark.driver.cores")

Con este comando también podemos acceder configuraciones internas de Microsoft Fabric. Para ello, se utiliza el parámetro trident.

spark.conf.get("trident.tenant.id")

trident: Es un valor que representa una característica, servicio, o contexto específico en el que estás trabajando.
En entornos de Microsoft Fabric, "Trident" es un nombre en clave interno usado para referirse a ciertas funcionalidades de integración y configuración en Fabric, especialmente cuando se interactúa con servicios como OneLake, Key Vault, o Azure Active Directory.

import sempy.fabric as fabric

default_lakehouse_id    = 'No default lakehouse' if spark.conf.get("trident.lakehouse.id") == '' else spark.conf.get("trident.lakehouse.id")
default_lakehouse_name  = 'No default lakehouse' if spark.conf.get("trident.lakehouse.name") == '' else spark.conf.get("trident.lakehouse.name")
notebook_item_id        = spark.conf.get("trident.artifact.id")
notebook_item_name      = fabric.resolve_item_name(notebook_item_id)
pool_executor_cores     = spark.sparkContext.getConf().get("spark.executor.cores")
pool_executor_memory    = spark.sparkContext.getConf().get("spark.executor.memory")
pool_min_executors      = spark.sparkContext.getConf().get("spark.dynamicAllocation.minExecutors")
pool_max_executors      = spark.sparkContext.getConf().get("spark.dynamicAllocation.maxExecutors")
pool_number_of_nodes    = len(str(sc._jsc.sc().getExecutorMemoryStatus().keys()).replace("Set(","").replace(")","").split(", "))
spark_app_name          = spark.conf.get("spark.app.name")
workspace_id            = spark.conf.get("trident.workspace.id")
workspace_name          = fabric.resolve_workspace_name(workspace_id)

print(f'default_lakehouse_id:   {default_lakehouse_id}')
print(f'default_lakehouse_name: {default_lakehouse_name}')
print(f'notebook_item_id:       {notebook_item_id}')
print(f'notebook_item_name:     {notebook_item_name}')
print(f'spark_app_name:         {spark_app_name}')
print(f'pool_executor_cores:    {pool_executor_cores}')
print(f'pool_executor_memory:   {pool_executor_memory}')
print(f'pool_min_executors:     {pool_min_executors}')
print(f'pool_max_executors:     {pool_max_executors}')
print(f'pool_number_of_nodes:   {pool_number_of_nodes}')
print(f'workspace_id:           {workspace_id}')
print(f'workspace_name:         {workspace_name}')

Puedes cambiar el valor de la configuración de la sesión de Spark utilizando el método spark.conf.set. Este método permite establecer configuraciones específicas para tu sesión actual de Spark

spark.conf.set("", value)

Azure Key Vault

Una de las buenas prácticas es almacenar los ids o datos sensibles en Azure Key Vault y acceder a ellos mediante notebook. A continuación os muestro un ejemplo:

En Azure tengo un Key Vault con la siguiente información

Para obtener el valor del secreto en un notebook utilizaremos NotebookUtils

notebookutils.credentials.getSecret('https://.vault.azure.net/', 'secret name')

Como se puede ver, al acceder a un secreto aparece el valor [REDACTED]. Esto se debe a que, por razones de seguridad, Microsoft Fabric oculta automáticamente los valores de los secretos en las salidas de los notebooks para evitar exposiciones accidentales.

Aunque no se pueda ver el valor del secreto, si que podemos utilizarlo:

DataGym | Microsoft Fabric

Change Data Feed en Delta Lake: Captura incremental de cambios para pipelines modernos en Microsoft Fabric

El esquema de eventos CDF

Cómo habilitar el Change Data Feed en Fabric

1. Al crear una tabla nueva

2. En una tabla existente

3. Para todas las tablas nuevas de la sesión

Verificar que está habilitado

Lectura de cambios

Spark SQL

PySpark

Almacenamiento de los datos de cambio

Caso de uso 1: Sincronización Silver → Gold

Datos iniciales

Punto de partida: detectar la versión CDF inicial

El proceso de sincronización completo

Caso de uso 2: SCD Tipo 2 con CDF

Inicialización: snapshot inicial de Silver

Simular cambios en Silver

Proceso incremental SCD2

Simular múltiples cambios sobre el mismo registro

Proceso incremental SCD2 con varias versiones

Reconstrucción completa de gold desde silver

VACUUM y CDF: una convivencia que hay que gestionar

Que ocurre si VACUUM elimina versiones que necesita CDF

Controlar la retención: dos propiedades clave

Validar la versión disponible antes de leer CDF

Recomendaciones y buenas prácticas

1. Activa CDF desde el inicio del ciclo de vida de la tabla

2. Usa siempre startingVersion, no startingTimestamp, en procesos incrementales

3. Verifica siempre si hay cambios nuevos antes de leer el CDF

4. Filtra update_preimage lo antes posible

5. Usa cache() cuando el DataFrame de CDF se lee múltiples veces

6. Usa el patrón lead() para manejar múltiples cambios en el mismo batch

7. Ten en cuenta el coste de almacenamiento

8. CDF y VACUUM: precaución con la retención

Cómo usar Workspace Identity para la autenticación en Microsoft Fabric

Ventajas principales

Cómo crear Workspace Identity

¿Qué ocurre en segundo plano?

El flujo de trabajo completo

Caso de uso 1: Azure Storage Account

Escenario

Paso 1: Crear Workspace Identity

Paso 2: Asignar permisos en Azure Storage

Paso 3: Creación de la conexión

Paso 4: Usar Workspace Identity en una Pipeline

Bonus: OneLake Shortcut con Workspace Identity

Caso de uso 2: Azure SQL Database

Paso 1: Crear Workspace Identity

Paso 2: Dar permisos en Azure SQL Database

Conectar a la base de datos

Ejecutar comandos SQL

Paso 3: Crear conexión

Paso 4: Usar Workspace Identity en una Pipeline

Gestión Avanzada

Ver todas las Workspace Identities del tenant

Auditoría

Asignar rol al área de trabajo para automatizaciones

Conclusión

Referencias

Comparativa de Consumo de CUs: Por qué elegir el artefacto incorrecto puede costarte miles de euros al año

Metodología

Configuración de la Capacidad

Escenario 1: Ingesta de Fichero CSV

Dataset utilizado

Artefactos probados

Resultados

Coste económico

Consumo de CUs y tiempos de ejecución

Comparativa PySpark vs Python (Pandas)

Escenario 2: Ingesta de fichero CSV de gran volumen

Dataset utilizado

Artefactos probados

Resultados

Coste económico

Consumo de CUs y tiempos de ejecución

Conclusiones del escenario

Notebook de Python no aplicable

Superioridad de PySpark en grandes volúmenes de datos

2. Usa siempre `startingVersion`, no `startingTimestamp`, en procesos incrementales

4. Filtra `update_preimage` lo antes posible

5. Usa `cache()` cuando el DataFrame de CDF se lee múltiples veces

6. Usa el patrón `lead()` para manejar múltiples cambios en el mismo batch