top of page

Parte 02: Mi Primer Proyecto de Machine Learning en Microsoft Fabric: Predicción Salarial con Regresión Lineal usando PySpark

Updated: Apr 2


La inteligencia artificial ya no es exclusiva de grandes laboratorios o equipos de investigación. Hoy, cualquier persona con interés por los datos puede construir su primer modelo de machine learning. Y lo mejor: no necesitás instalar nada ni tener GPU.


Con Microsoft Fabric, podés trabajar directamente desde un entorno web que ya trae integrado Spark, Python y todo lo que necesitás para comenzar. En este post, te voy a mostrar cómo hice mi primer proyecto de machine learning: predecir el salario de una persona según su experiencia laboral, usando una regresión lineal simple con PySpark.


¿Qué vamos a hacer?

  • Simular un conjunto de datos con salarios que crecen un 4% anual.

  • Usar PySpark en un notebook de Fabric para crear un modelo de regresión.

  • Entrenar, evaluar y visualizar el modelo.

  • Aprender qué significa cada parte del código.


Paso 1: Crear nuestros propios datos en un notebook

En lugar de cargar un dataset externo, vamos a crear un conjunto de datos desde cero. Simulamos una persona que comienza con un salario de $500 USD, y cada año su salario sube un 4%.


¿Qué hace este código?

  • Creamos una lista de tuplas (años, salario) donde el salario sube 4% por cada año.

  • Definimos un esquema para PySpark con tipos de datos.

  • Creamos un DataFrame de Spark y mostramos los datos con .show().




Paso 2: Visualizar la relación con matplotlib

Antes de entrenar el modelo, siempre es buena idea visualizar la relación entre variables.


¿Qué hace este código?

  • Convertimos el DataFrame de Spark a Pandas para poder graficar.

  • Usamos matplotlib para hacer un gráfico de línea.

  • Vemos claramente una tendencia ascendente: salario aumenta con los años



Paso 3: Preparar los datos para Machine Learning

En PySpark, el algoritmo de regresión requiere que la variable independiente (X) esté en una sola columna tipo vector.


¿Qué hace este código?

  • Usa VectorAssembler para combinar columnas independientes en un vector.

  • En este caso, solo tenemos una columna: AniosExperiencia.

  • El resultado es una nueva columna features que usaremos para entrenar.



Paso 4: Entrenar el modelo de regresión lineal

Ahora sí, creamos y entrenamos un modelo de regresión con PySpark.


¿Qué hace este código?

  • Divide los datos en entrenamiento (80%) y prueba (20%).

  • Crea un modelo de regresión lineal con LinearRegression.

  • Entrena el modelo con .fit().

  • Imprime el intercepto (salario base) y el coeficiente (aumento por año).



Paso 5: Hacer predicciones y evaluar el modelo


¿Qué hace esto?

  • Usa el modelo para predecir el salario.

  • Muestra lado a lado: años, salario real y predicción.

  • Te permite ver qué tan preciso fue el modelo.




Paso 6: Visualizar predicciones vs valores reales



Descarga el Notebook AQUI!!!!!!!!!




***Este contenido fue potenciado con IA. Porque cuando el conocimiento humano se encuentra con la inteligencia artificial, surgen mejores ideas.***


Comments


Empoderando a los entusiastas de los datos en América Latina

Connect with Us

  • YouTube
  • Facebook
  • TikTok
  • Twitter

© 2023 BI LATAM. All Rights Reserved.

bottom of page