Parte 02: Mi Primer Proyecto de Machine Learning en Microsoft Fabric: Predicción Salarial con Regresión Lineal usando PySpark
- Ahias Portillo
- Jan 5
- 2 min read
Updated: Apr 2

La inteligencia artificial ya no es exclusiva de grandes laboratorios o equipos de investigación. Hoy, cualquier persona con interés por los datos puede construir su primer modelo de machine learning. Y lo mejor: no necesitás instalar nada ni tener GPU.
Con Microsoft Fabric, podés trabajar directamente desde un entorno web que ya trae integrado Spark, Python y todo lo que necesitás para comenzar. En este post, te voy a mostrar cómo hice mi primer proyecto de machine learning: predecir el salario de una persona según su experiencia laboral, usando una regresión lineal simple con PySpark.
¿Qué vamos a hacer?
Simular un conjunto de datos con salarios que crecen un 4% anual.
Usar PySpark en un notebook de Fabric para crear un modelo de regresión.
Entrenar, evaluar y visualizar el modelo.
Aprender qué significa cada parte del código.
Paso 1: Crear nuestros propios datos en un notebook
En lugar de cargar un dataset externo, vamos a crear un conjunto de datos desde cero. Simulamos una persona que comienza con un salario de $500 USD, y cada año su salario sube un 4%.
¿Qué hace este código?
Creamos una lista de tuplas (años, salario) donde el salario sube 4% por cada año.
Definimos un esquema para PySpark con tipos de datos.
Creamos un DataFrame de Spark y mostramos los datos con .show().


Paso 2: Visualizar la relación con matplotlib
Antes de entrenar el modelo, siempre es buena idea visualizar la relación entre variables.
¿Qué hace este código?
Convertimos el DataFrame de Spark a Pandas para poder graficar.
Usamos matplotlib para hacer un gráfico de línea.
Vemos claramente una tendencia ascendente: salario aumenta con los años

Paso 3: Preparar los datos para Machine Learning
En PySpark, el algoritmo de regresión requiere que la variable independiente (X) esté en una sola columna tipo vector.
¿Qué hace este código?
Usa VectorAssembler para combinar columnas independientes en un vector.
En este caso, solo tenemos una columna: AniosExperiencia.
El resultado es una nueva columna features que usaremos para entrenar.

Paso 4: Entrenar el modelo de regresión lineal
Ahora sí, creamos y entrenamos un modelo de regresión con PySpark.
¿Qué hace este código?
Divide los datos en entrenamiento (80%) y prueba (20%).
Crea un modelo de regresión lineal con LinearRegression.
Entrena el modelo con .fit().
Imprime el intercepto (salario base) y el coeficiente (aumento por año).

Paso 5: Hacer predicciones y evaluar el modelo
¿Qué hace esto?
Usa el modelo para predecir el salario.
Muestra lado a lado: años, salario real y predicción.
Te permite ver qué tan preciso fue el modelo.

Paso 6: Visualizar predicciones vs valores reales

Descarga el Notebook AQUI!!!!!!!!!
***Este contenido fue potenciado con IA. Porque cuando el conocimiento humano se encuentra con la inteligencia artificial, surgen mejores ideas.***
Comments