¿Quieres acelerar tus procesos de datos y trabajar con conjuntos que no caben en la memoria de una sola máquina? Este curso práctico te guía desde los fundamentos de Dask hasta aplicaciones avanzadas en time‑series y streaming en tiempo real. A través de proyectos reales aprenderás la arquitectura de Dask, sus estructuras principales y cómo compararlo con alternativas como Spark o Ray, todo usando la sintaxis familiar de Python.
Con un enfoque profesional y manos a la obra, dominarás técnicas de particionado, evaluación perezosa y optimización de rendimiento, además de integrar Dask con scikit‑learn para pipelines de machine learning escalables. Al finalizar estarás listo para desplegar clústeres localmente o en la nube y construir soluciones de procesamiento de datos a escala empresarial.
Lo que aprenderás:
- Dominar las estructuras de datos principales de Dask: arrays, dataframes, bags y delayed para procesamiento paralelo
- Construir pipelines ETL escalables que manejen enormes conjuntos CSV, Parquet, JSON y HDF5 fuera de los límites de memoria
- Integrar Dask con scikit-learn para machine learning distribuido y ajuste de hiperparámetros a escala
- Desarrollar aplicaciones de streaming en tiempo real con Dask Streams, Streamz e integración con RabbitMQ
- Optimizar el rendimiento mediante estrategias de particionado, evaluación perezosa y monitorización con el dashboard de Dask
- Crear soluciones de computación paralela listas para producción para flujos de trabajo de datos a escala empresarial
- Construir dashboards interactivos en tiempo real que procesen streams de criptomonedas y mercados bursátiles
- Desplegar clústeres Dask localmente y en entornos cloud para aplicaciones de computación distribuida
Contenido del curso:
- Secciones: 9
- Clases: 31
- Duración: 2h 51m
Requisitos:
- Conocimientos básicos de programación en Python (variables, funciones, bucles, estructuras de datos)
- Familiaridad con Pandas para manipulación de datos y NumPy para operaciones con arrays
- Comprensión de conceptos fundamentales de ciencia de datos y procesos de trabajo
- No se requiere experiencia previa en computación paralela o sistemas distribuidos — cubriremos todo desde cero
¿Para quién es este curso?
- Científicos de datos que trabajan con conjuntos demasiado grandes para Pandas tradicional
- Desarrolladores Python que buscan escalar sus aplicaciones más allá de una sola máquina
- Ingenieros de machine learning que necesitan paralelizar entrenamiento y ajuste de hiperparámetros
- Analistas de datos que manejan cargas de trabajo big data y requieren soluciones distribuidas
- Ingenieros de software que construyen aplicaciones de streaming en tiempo real y pipelines ETL
- Estudiantes y profesionales que desean dominar técnicas avanzadas de computación paralela en Python
¿Qué esperas para comenzar?
Inscríbete hoy mismo y lleva tus habilidades al siguiente nivel. ¡Los cupones son limitados y pueden agotarse en cualquier momento!
👉 Aprovecha el cupón ahora – Cupón A1B2C3D4E5F67890ABCD
Deja un comentario

Cursos relacionados: