Parte 3: Optimización de Modelos de Regresión con Hiperparámetros y Grid Search en Microsoft Fabric

En la entrega anterior, construimos nuestro primer modelo de Machine Learning en Microsoft Fabric, donde usamos una regresión lineal simple para predecir el salario de una persona en función de sus años de experiencia. Creamos los datos desde cero, entrenamos el modelo con PySpark, y visualizamos los resultados con bastante precisión.

¿Qué haremos ahora?

Aunque el modelo funcionó bien, no lo optimizamos. Usamos los valores por defecto del algoritmo de regresión lineal.

Pero en el mundo real, cada algoritmo tiene parámetros internos (llamados hiperparámetros) que controlan cómo aprende. Y ajustar esos hiperparámetros correctamente puede mejorar el rendimiento del modelo.

En esta entrega vamos a:

Aplicar Grid Search con PySpark para buscar la mejor combinación de hiperparámetros.
Usar validación cruzada para evaluar cada combinación de forma más robusta.
Comparar el modelo optimizado con el anterior.

¿Qué son los hiperparámetros?

Son configuraciones que afectan el comportamiento del algoritmo antes de que comience a aprender. En el caso de la regresión lineal en PySpark, algunos ejemplos son:

elasticNetParam: regula entre regresión ridge y lasso.
regParam: nivel de regularización (penaliza complejidad).
maxIter: número máximo de iteraciones del algoritmo.

Elegir mal estos valores puede hacer que el modelo sobreentrene (overfitting) o no aprenda nada útil (underfitting).

¿Qué es Grid Search?

Grid Search es una técnica que prueba todas las combinaciones posibles de un conjunto de valores para los hiperparámetros.

Paso a paso: aplicar Grid Search en Microsoft Fabric

Vamos a reutilizar el mismo dataset y modelo que usamos en el post anterior.

Preparar el entorno y los datos

Definir el modelo base

Definir el grid de hiperparámetros

Esto genera 9 combinaciones (3x3).

Definir el evaluador y el proceso de validación cruzada
- numFolds=3: divide los datos en 3 partes y rota el entrenamiento/prueba para validar cada modelo.
- El resultado será el modelo con menor error cuadrático medio (RMSE).

Entrenar y encontrar el mejor modelo

Evaluar predicciones del modelo optimizado

En esta segunda entrega exploramos cómo los modelos predictivos pueden mejorar significativamente mediante técnicas de optimización, como el ajuste de hiperparámetros utilizando Grid Search. Al aplicar esta estrategia sobre nuestro modelo de regresión lineal, observamos un mejor ajuste a los datos simulados, lo que demuestra que no basta con entrenar un modelo: optimizarlo es clave para obtener mayor precisión.

Es importante destacar que cada algoritmo de machine learning tiene sus propios hiperparámetros, y comprender qué hace cada uno y cómo influye en el comportamiento del modelo es parte esencial del trabajo como científico o ingeniero de datos.

Finalizamos esta entrega con un resultado altamente positivo: demostramos que, incluso en un escenario simple, aplicar buenas prácticas de ajuste de hiperparámetros marca la diferencia en la calidad del modelo.

Puedes descargar el Notebook AQUI!!!!

***Este contenido fue potenciado con IA. Porque cuando el conocimiento humano se encuentra con la inteligencia artificial, surgen mejores ideas.***

#MachineLearning #MicrosoftFabric #PySpark #GridSearch #RegresionLineal #MLPipeline #OptimizacionDeModelos #IAParaTodos #DataScience

Parte 3: Optimización de Modelos de Regresión con Hiperparámetros y Grid Search en Microsoft Fabric

Recent Posts

Comentarios